昆侖萬維開源7B和32B最強數(shù)學(xué)代碼推理模型,同規(guī)模下性能超越阿里QwQ-32B,對齊DeepSeek-R1
繼2025年2月發(fā)布首款中文邏輯推理大模型Skywork-o1之后,昆侖萬維天工團隊在此基礎(chǔ)上持續(xù)迭代優(yōu)化,4月13日,重磅推出全新升級的Skywork-OR1(Open Reasoner 1)系列模型。
該系列在同等參數(shù)規(guī)模下實現(xiàn)了業(yè)界領(lǐng)先的推理性能,進一步突破了大模型在邏輯理解與復(fù)雜任務(wù)求解方面的能力瓶頸。同時,Skywork-OR1全面開放、免費使用,以完全開源的形式回饋開發(fā)者社區(qū),堅定踐行天工團隊在推動AI技術(shù)發(fā)展上的開源路線。
此次開源涵蓋三款高性能模型,包括:
1. Skywork-OR1-Math-7B:聚焦數(shù)學(xué)領(lǐng)域的專項模型,同時也具有較強的代碼能力。
2. Skywork-OR1-7B-Preview:融合數(shù)學(xué)與代碼能力、兼具通用性與專業(yè)性的通用模型。
3. Skywork-OR1-32B-Preview:面向更高復(fù)雜度任務(wù)、具備更強推理能力的旗艦版本。
此次發(fā)布的Skywork-OR1系列采用業(yè)界最高透明度的開源策略:不同于其他前沿開源推理模型僅開放模型權(quán)重,昆侖萬維全面開源了模型權(quán)重、訓(xùn)練數(shù)據(jù)集和完整訓(xùn)練代碼,所有資源均已上傳至GitHub和Huggingface平臺。
配套的技術(shù)博客已發(fā)布于Notion平臺,詳細闡述了數(shù)據(jù)處理流程、訓(xùn)練方法和關(guān)鍵技術(shù)發(fā)現(xiàn),為社區(qū)提供了完全可復(fù)現(xiàn)的實踐參考。
目前,Skywork-OR1-7B和Skywork-OR1-32B的能力還在持續(xù)提升,在兩周內(nèi)昆侖萬維還會發(fā)布兩個模型的正式版本,同時也會推出更為系統(tǒng)詳盡的技術(shù)報告,進一步分享我們在推理模型訓(xùn)練中的經(jīng)驗與洞察。公司相信,這種全方位的開源策略將有助于推動整個AI社區(qū)在推理能力研究上的共同進步。
Skywork-OR1系列開源地址:
https://github.com/SkyworkAI/Skywork-OR1
昆侖萬維天工團隊更多開源項目:
https://huggingface.co/Skywork
在評測方面,Skywork-OR1系列模型引入了avg@k作為核心評估指標,用于衡量模型在進行k次嘗試時成功解決問題的平均表現(xiàn)。相較于傳統(tǒng)的pass@k指標僅關(guān)注是否“至少一次成功”,avg@k能更細致地捕捉模型在多輪生成過程中的穩(wěn)定性與整體推理能力,從而更全面反映其真實性能水平與實用價值。


在數(shù)學(xué)推理任務(wù)中:
1. 通用模型Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview在AIME24與AIME25數(shù)據(jù)集上均實現(xiàn)了同參數(shù)規(guī)模下的最優(yōu)表現(xiàn),展現(xiàn)出強大的數(shù)學(xué)推理能力。
2. 針對數(shù)學(xué)場景深度優(yōu)化的專項模型Skywork-OR1-Math-7B更是在AIME24和AIME25上分別取得69.8與52.3的高分,遠超當前主流7B級別模型,充分驗證了其在高階數(shù)學(xué)推理任務(wù)中的專業(yè)優(yōu)勢。
3. Skywork-OR1-32B-Preview在所有benchmark上均實現(xiàn)了對QwQ-32B的超越,并在更難的AIME25上基本與R1持平。
在競賽編程任務(wù)中:
1. 通用模型Skywork-OR1-7B-Preview與Skywork-OR1-32B-Preview在LiveCodeBench數(shù)據(jù)集上均取得了同等參數(shù)規(guī)模下的最優(yōu)性能。
2. Skywork-OR1-32B-Preview表現(xiàn)尤為突出,其代碼生成與問題求解能力已接近DeepSeek-R1(參數(shù)規(guī)模高達671B),在大幅壓縮模型體量的同時實現(xiàn)了卓越的性價比,充分展現(xiàn)出天工團隊訓(xùn)練策略的先進性。
其中Skywork-OR1-Math-7B表現(xiàn)尤為亮眼,作為一個專注于數(shù)學(xué)推理能力的7B參數(shù)模型,通過多階段GRPO訓(xùn)練在復(fù)雜數(shù)學(xué)問題上實現(xiàn)了卓越表現(xiàn),同時在代碼任務(wù)上也有較強的泛化能力。下圖是該模型在AIME24上的訓(xùn)練準確率曲線,清晰呈現(xiàn)了多階段訓(xùn)練過程中性能的穩(wěn)定提升軌跡。

Skywork-OR1-Math-7B最終模型在AIME24和AIME24上分別達到69.8%和52.3%,超越了OpenAI-o3-mini (low),達到了當前尺寸SOTA性能。值得注意的是,盡管該模型訓(xùn)練過程中未專門針對代碼能力進行優(yōu)化,但在代碼評測基準上Livecodebench從37.6%提升到43.6%,相比基線模型的顯著提升,這也表明昆侖萬維的訓(xùn)練方法具有較好的領(lǐng)域泛化性。

自2023年以來,昆侖萬維堅定地開源大模型回饋開發(fā)者和行業(yè)。2025年開源的Skywork-R1V多模態(tài)視覺推理模型、SkyReels-V1面向AI短劇創(chuàng)作的視頻生成模型、Skywork-o1推理模型以及2024年開源的Skywork-Reward獎勵模型,不僅在Hugging Face上下載數(shù)據(jù)表現(xiàn)亮點,開發(fā)者的討論度和模型熱度依然居高不下。
當前,全球人工智能領(lǐng)域的競爭日趨激烈,競賽的焦點正逐步從基礎(chǔ)模型能力擴展到推理能力的比拼。AI大模型能否有效模仿人類的思維過程、具備邏輯推理和復(fù)雜任務(wù)的求解能力,已成為衡量技術(shù)先進性與通用智能潛力的關(guān)鍵指標。
在此背景下,為打破科技巨頭對核心AI大模型技術(shù)的壟斷壁壘,推動技術(shù)自主可控發(fā)展,中國多家企業(yè)紛紛投身于開源大模型生態(tài)的建設(shè)。未來,昆侖萬維仍繼續(xù)秉持“All in AGI 與 AIGC”戰(zhàn)略、“實現(xiàn)通用人工智能,讓每個人更好地塑造和表達自我”的使命,持續(xù)加大在通用大模型、開源框架和推理能力提升等方向的研究投入,力求在全球AI技術(shù)浪潮中搶占先機、塑造競爭優(yōu)勢。
龔斯軒
- 免責聲明:本文內(nèi)容與數(shù)據(jù)僅供參考,不構(gòu)成投資建議。據(jù)此操作,風險自擔。
- 版權(quán)聲明:凡文章來源為“大眾證券報”的稿件,均為大眾證券報獨家版權(quán)所有,未經(jīng)許可不得轉(zhuǎn)載或鏡像;授權(quán)轉(zhuǎn)載必須注明來源為“大眾證券報”。
- 廣告/合作熱線:025-86256149
- 舉報/服務(wù)熱線:025-86256144
