Slide
Slide
previous arrow
next arrow

Alibaba| Qwen3學術及多語言出色 開源有助中國AI全球競爭

Qwen3-235B-A22B 在多個基準測試中表現出色,尤其是在數學推理(AIME)、代碼生成(CodeForces)和多語言任務(MultiF)表現不俗。

[Alibaba]

阿里巴巴集團發佈開源大語言模型家族最新混合推理模型Qwen3,,融合了傳統大語言模型(LLM)與專家混合(MoE)技術。

Qwen3採用了混合推理架構,結合稠密模型和MoE設計(例如 Qwen3-235B-A22B 的 22B 啟動參數),在動態運算分配上表現出色,尤其適合多工的場景。

橫空出世後石破天驚的DeepSeek-R1,也基於 MoE 架構(具體參數未公佈,估計與 DeepSeek-V2類近,可能約141B總參數,啟動參數20B)。DeepSeek系列以高效推理著稱,多語言支援上卻遠不如Qwen3全面。

Qwen3的MoE設計通過稀疏啟動降低計算成本,同時又在數學推理和代碼生成表現優越。Qwen3-235B-A22B的22B 啟動參數,使性能和效率之間取得平衡。DeepSeek-R1的推理效率同樣較高,但LIVE Bench和BFCL等得分較低,表明通用性和多語言能力不如Qwen3。

Qwen3在多語言任務(MultiF得分71.9和73.0)和數學推理(AIME’2獲85.7)上表現突出,在需要高精度推理及多語言支援場景,例如是學術研究和國際應用,很有競爭能力。DeepSeek-R1 在代碼生成(CodeForces Elo 2029)和通用推理(LIVE Bench 71.6)上表現穩定,但多語言支援較弱,可能更適合代碼開發和演算法競賽場景。

不過DeepSeek-R1 的升級版DeepSeek-R2即將推出,可能在參數規模、推理效率和多工能力上進一步提升。如果延續DeepSeek-V2發展趨勢,DeepSeek-R2可能優化多語言支援(以彌補R1缺點),推理速度上再進一步突破。然而,DeepSeek-R2 即使推出,面對 Qwen3-235B-A22B ,多語言任務和數學推理上,估計仍是稍遜一籌。

Qwen3執行複雜任務

Qwen3-235B-A22和Qwen3-32B在多項評測優於對手OpenAI-o1(2024-12-17)、DeepSeek-R1、Grok 3 Beta、Gemini-2.5-Pro和OpenAI-o3-mini,國產大模型已經旗鼓相當。

ArenaHard:Qwen3-235B-A22B 得分 95.6,Qwen3-32B 得分 93.8,領先 Grok 3 Beta 的 96.4 和 OpenAI-o3-mini 的 89.0,執行複雜任務有競爭力。

AIME’24 和 AIME’25:Qwen3-235B-A22B 在 AIME’24 和 AIME’25 中分別得分 85.7 和 81.5,Qwen3-32B 得分 81.4 和 72.9。相比之下,Grok 3 Beta 的得分分別為 83.9 和 77.3,Qwen3數學推理任務中表現不俗,但仍有改進空間。

LiveCodeBench(2024-10-25.02):Qwen3-235B-A22B 和 Qwen3-32B 分別得分 70.7 和 65.7,略低於Grok 3 Beta 的 70.6,但代碼生成仍具競爭力。

CodeForces Elo 評級:Qwen3-235B-A22B已達到2056,Qwen3-32B為1977,優於Grok 3 Beta的2001,Qwen3演算法競賽類任務中表現突出。

Aider 和 LIVE Bench(2024-11-25):Qwen3-235B-A22B 在 Aider 上得分 61.8,LIVE Bench 得分 77.1,Qwen3-32B 分別為 50.2 和 74.9。相比之下,Grok 3 Beta 得分分別為 53.3 和 82.4,顯示 Qwen3 在通用知識和推理任務上略遜Grok 3 Beta。

BFCL 和 MultiF(8 種語言):Qwen3-235B-A22B 在 BFCL上得分70.8,MultiF 得分 71.9,Qwen3-32B 分別為 70.3 和 73.0,均優於Grok 3 Beta的62.9和77.8,顯示在多語言任務中的優勢。

Qwen3-235B-A22B 在多個基準測試中表現出色,尤其是在數學推理(AIME)、代碼生成(CodeForces)和多語言任務(MultiF)表現不俗。與 Grok 3 Beta 相比,Qwen3 在某些領域(如演算法競賽)表現好,通用知識和長上下文推理(如 LIVE Bench)上稍嫌不足。

Qwen3 的混合推理架構(MoE)是性能提升的關鍵原因,通過動態分配計算資源,顯著提高了模型效率,尤其是在處理複雜任務時。Qwen3開源為開發者提供了更多靈活性,適合用於定制化開發和研究。

Qwen3系列包含六款密集模型與兩款混合專家模型(Mixture-of-Experts, MoE),有助開發者更靈活地開發適用於移動設備、智能眼鏡、自動駕駛汽車及機器人等場景上的應用。

不過Qwen3-32B部分測試中表現,不如其更大版本(235B-A22B),可能因為參數較少,導致推理能力受限,可能要優化模型在通用知識和長文本的理解,才能縮小與OpenAI和Grok等的差距。

國產模型開放,而美國模型卻趨向閉源,開源AI讓中國能夠通過技術輸出擴大全球影響力。發展中國家資源有限,傾向免費開源模型,而非昂貴閉源方案。

前谷歌行政總裁Eric Schmidt警告,美國若繼續堅持AI閉源策略,可能在全球AI競爭落後中國。他指,中國大力推動AI開源(如Qwen3系列)對全球技術生態產生深遠影響。開放性加速技術擴散,尤其發展中國家和中小企,中國AI模型更成首選,本港不少企業已轉用Deepseek R1。Qwen3多語言(MultiF得分71.9)和代碼生成(CodeForces Elo 2056)出色,更加具全球競爭力。

https://qwenlm.github.io/zh/blog/qwen3/

Leave a Reply

Your email address will not be published. Required fields are marked *