一区二区三区在线播放,黄色av免费在线观看,全国最大成人免费视频,日本高清视频色,日韩少妇精品av一区二区,久久久久亚洲精品国产,久久精品在线视频,国产欧美精品一区aⅴ影院

    僅32B,昆侖萬維開源“自主代碼智能體模型Skywork-SWE-32B”,拿下代碼開源SOTA

    6月20日,昆侖萬維發(fā)布軟件工程(Software Engineering, SWE)自主代碼智能體基座模型Skywork-SWE,在開源32B模型規(guī)模下實現(xiàn)了業(yè)界最強的倉庫級代碼修復能力。昆侖萬維團隊通過構建超過1萬個可驗證的GitHub倉庫任務實例,打造出目前最大規(guī)模的可驗證GitHub倉庫級代碼修復的數(shù)據(jù)集,并系統(tǒng)性驗證了大模型在軟件工程任務上的數(shù)據(jù)縮放定律(Scaling Law)。

    Skywork-SWE-32B模型在SWE-bench Verified基準上取得38.0% pass@1準確率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最佳成績。進一步引入測試時擴展技術后,模型表現(xiàn)提升至47.0%的準確率,不僅超越了現(xiàn)有參數(shù)規(guī)模在32B以下的開源模型,也顯著地縮小了與閉源模型之間的性能差距。

    2025年被廣泛認為是智能體(Agent)模型的元年,其核心特征包括“超多輪交互”和“超長上下文處理”。在眾多應用方向中,軟件工程SWE任務正成為大語言模型智能體的關鍵應用場景之一。

    相比傳統(tǒng)的代碼生成任務(如代碼編程題解答),SWE任務更加貼近真實的軟件開發(fā)流程,涵蓋了從定位BUG、修改源代碼,到驗證修復效果的完整閉環(huán)。這類任務通常源自GitHub倉庫中的實際代碼工程問題,具備高度的真實性、復雜性和挑戰(zhàn)性,是評估智能體模型能力的一個重要基準。

    SWE任務的獨特之處在于,它對模型提出了更高要求:不僅需要支持多輪交互和長上下文推理,還需具備處理跨文件依賴、調用工具鏈,以及在復雜環(huán)境中持續(xù)修復代碼問題的能力。這些能力全面考驗了智能體模型的工程實踐水平與系統(tǒng)性思維能力。

    三階段自動化流程,構建大規(guī)模、高質量SWE任務訓練數(shù)據(jù)集

    盡管當前市面上已有不少工作聚焦于SWE任務并收集了相關的數(shù)據(jù)集,但當前的主流(訓練)數(shù)據(jù)集仍存在三大核心問題:

    1. 缺乏可執(zhí)行環(huán)境與驗證機制:已有開源數(shù)據(jù)(如SWE-bench-extra、SWE-Fixer)通常缺乏環(huán)境或單元測試來驗證數(shù)據(jù)正確性,導致生成的修復難以驗證。

    2. 高質量訓練數(shù)據(jù)稀缺:盡管某些數(shù)據(jù)集規(guī)模較大(如 SWE-Dev、SWE-Gym),但缺乏經(jīng)過嚴格驗證的訓練樣本,公開可用的高質量數(shù)據(jù)極為有限,導致開源模型在SWE任務上長期落后于閉源模型。

    3. 數(shù)據(jù)規(guī)模法則適用性不明確:相較于自然語言領域中的任務,SWE任務現(xiàn)有的公開訓練數(shù)據(jù)體量較小,尚無法有效驗證數(shù)據(jù)擴展是否能帶來模型能力的持續(xù)增長。

    為打破上述瓶頸,并且打造出具備工程實用性的SWE代碼智能體模型,昆侖萬維團隊首先在訓練階段自行構建了一套自動化、結構化、可復現(xiàn)的SWE數(shù)據(jù)收集與驗證流程,共分為三個階段、九個步驟(如下圖所示)。最終團隊構建出超1萬條高質量任務實例、8千條多輪交互的軌跡,為模型訓練提供堅實基礎。

    圖丨Skywork-SWE完整數(shù)據(jù)收集與驗證流程

    Skywork-SWE作為萬級高質量可驗證數(shù)據(jù)集,驅動智能體模型能力躍遷

    在上述三個階段過程中,團隊實施了嚴格的數(shù)據(jù)篩選與構建流程。如下圖所示,團隊從最初超過15萬條候選代碼倉庫元數(shù)據(jù)中,最終篩選出約1萬條高質量實例,構建出當前規(guī)模最大、質量最高的可驗證SWE任務(訓練)數(shù)據(jù)集——Skywork-SWE。

    圖丨數(shù)據(jù)構建過程中各個階段數(shù)據(jù)樣本量變化示意

    Skywork-SWE數(shù)據(jù)集在任務數(shù)量與代碼覆蓋廣度方面,遠超現(xiàn)有同類數(shù)據(jù)集(如SWE-Gym Lite與SWE-bench Verified),為大模型提供了豐富、多樣且貼近實際的軟件工程任務樣本,持續(xù)推動智能體模型的能力進化。此外,Skywork-SWE數(shù)據(jù)集不僅涵蓋如Pydantic、SQLGlot、DVC等主流開源項目,還包含大量中小型倉庫,呈現(xiàn)出高度貼近真實開發(fā)生態(tài)的任務分布特征。這種貼近真實開發(fā)生態(tài)的數(shù)據(jù)構成,有助于提升模型在復雜多樣場景下的問題解決能力。

    圖丨Skywork-SWE數(shù)據(jù)集的GitHub倉庫詞云

    Skywork-SWE登頂32B開源SOTA

    “Less artifact, more intelligence”(更少的人工約束,更多智能發(fā)揮) 是團隊開發(fā)軟件工程自主代碼智能體模型的核心理念。我們主張賦予AI更大自主權,由其決定工具使用與任務執(zhí)行方式,而非人為預先設定規(guī)則流程。基于這一理念,最終選用目前最具自主性的開源OpenHands框架。

    基于Skywork-SWE數(shù)據(jù)集的高質量智能體軌跡,昆侖萬維團隊微調得到Skywork-SWE-32B模型,該模型在SWE-bench Verified測評中取得優(yōu)異成績。截至目前,Skywork-SWE-32B在SWE-Bench榜單中成為當前性能最強的32B開源代碼智能體大模型,刷新SWE-bench Verified基準上同等規(guī)模模型的最佳成績,充分展示了其工程實用價值:

    1.Skywork-SWE-32B測評結果超越相同參數(shù)規(guī)模的模型。Skywork-SWE-32B基于開源OpenHands代碼Agent框架,實現(xiàn)了38.0% pass@1的準確率,達到了Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最優(yōu)水平。更為關鍵的是,實驗結果進一步表明:隨著訓練數(shù)據(jù)規(guī)模的持續(xù)擴展,模型性能持續(xù)提升,充分驗證了“數(shù)據(jù)規(guī)模擴展帶來的性能增益”在軟件工程任務中的有效性與適用性。

    2.應用測試時擴展技術之后,Skywork-SWE-32B取得了最優(yōu)性能。在引入測試時擴展技術(Test-Time Scaling,TTS)后,Skywork-SWE-32B (+ TTS) 的pass@1準確率進一步提升至47.0%,刷新了32B參數(shù)規(guī)模以下開源模型的SOTA。更值得關注的是,Skywork-SWE-32B在與參數(shù)量高達671B的DeepSeek-V3-0324模型對比中仍展現(xiàn)出明顯優(yōu)勢,領先8.2個百分點。

    3.Skywork-SWE-32B (+ TTS) 的表現(xiàn)接近甚至超越多數(shù)主流閉源大模型。Skywork-SWE-32B (+ TTS) 的pass@1準確率顯著超越了GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且領先于Claude v3.5(46.0%)。

    持續(xù)探索更多Agent任務場景

    過去半年多時間,昆侖萬維在獎勵模型、多模態(tài)、推理、視頻生成等方向開源了一系列SOTA級別模型,如今又在Agent(SWE任務)方向再下一城。繼5月天工超級智能體(Skywork Super Agents)面向全球發(fā)布后,今天我們又發(fā)布并開源了自主代碼智能體模型Skywork-SWE-32B模型,這不僅是公司堅定開源策略的重要實踐,更代表了我們對Agent在辦公任務、SWE任務場景中的重要探索。

    通過Skywork-SWE數(shù)據(jù)集的構建,以及自主代碼智能體模型Skywork-SWE-32B模型的發(fā)布,團隊研究表明高質量且可執(zhí)行驗證的數(shù)據(jù)是提升代碼智能體模型性能的關鍵瓶頸,系統(tǒng)化的數(shù)據(jù)擴展策略將在推動開源模型性能突破中發(fā)揮關鍵作用。基于此,我們期望Skywork-SWE-32B的開源,能夠助力社區(qū)在大語言模型驅動的軟件工程研究中持續(xù)演進。

    未來,Skywork-SWE-32B模型將進一步拓展多編程語言支持以覆蓋更廣泛的開發(fā)場景,并探索融合運行時測試反饋的強化學習機制,為構建真正具備智能軟件開發(fā)能力的大語言模型奠定堅實基礎。同時,昆侖萬維也將積極探索更多Agent任務場景。

    龔斯軒

    編輯:gloria
    AI 文章概述
    *本回答由 AI 生成,僅供參考,不構成任何專業(yè)建議。
      熱門新聞
        24小時熱榜
        日榜 | 周榜
            主站蜘蛛池模板: 日本一二三不卡| 午夜片在线| 亚洲**毛茸茸| 国产欧美一区二区三区在线看| 91久久国产露脸精品国产 | **毛片免费| 日日夜夜精品免费看| 97久久精品人人做人人爽 | 蜜臀久久精品久久久用户群体| 一色桃子av| 国产日本欧美一区二区三区| 国产精品视频1区2区3区| 国产精品高潮呻| 国产精品电影免费观看| 久久九精品| 男女午夜爽爽| 日本一二三四区视频| 亚洲精品久久久久久久久久久久久久 | 精品国产伦一区二区三区免费| 91国偷自产中文字幕婷婷| 国产三级在线视频一区二区三区| 亚洲自拍偷拍中文字幕| 国产91丝袜在线| 99国产精品| 国产二区三区视频| 久99久视频| 国产另类一区| 国产精品视频久久久久| 国产精品一二三区免费| 国产伦精品一区二| 99国产精品免费观看视频re| 国产精品黑色丝袜的老师| 国产淫片免费看| 欧美日韩综合一区二区| 欧美69精品久久久久久不卡| 国产一区二区大片| 性old老妇做受| 美女直播一区二区三区| 91理论片午午伦夜理片久久 | 国产精品久久久区三区天天噜| 日韩欧美国产另类| 国产一区二区电影| 68精品国产免费久久久久久婷婷| 国产区精品| 国久久久久久| 色婷婷精品久久二区二区我来| 国产91在线拍偷自揄拍| 国产精品日本一区二区不卡视频| 国产不卡三区| 99国产精品丝袜久久久久久| 亚洲少妇中文字幕| 国产精品久久久爽爽爽麻豆色哟哟| 欧美精品一区二区久久| 国产精品久久久久久久久久久久冷| 午夜看片在线| 久久久久久中文字幕| 国产亚洲综合一区二区| 亚洲精品人| 国产女人和拘做受在线视频| 日本三级香港三级网站| 国产99视频精品免视看芒果| 一区二区三区日韩精品| 国产综合亚洲精品| 欧美片一区二区| 亚洲国产精品二区| 天堂av色婷婷一区二区三区| 亚洲欧美制服丝腿| 国产激情二区| **毛片在线| 国产69精品久久久久app下载 | 亚洲国产aⅴ精品一区二区16| 91午夜在线| 亚洲精品久久久久玩吗| 激情欧美一区二区三区| 人人玩人人添人人澡97| 猛男大粗猛爽h男人味| 日本高清不卡二区| 欧美亚洲精品一区二区三区| 国产精品视频二区三区| 少妇高潮大叫喷水| 亚洲国产午夜片| 色噜噜狠狠色综合中文字幕 | 少妇av一区二区三区| 美国一级片免费观看| 亚洲欧洲日韩av| 国产无遮挡又黄又爽又色视频 | 久久国产精品免费视频| www.午夜av| 欧美一区二区在线不卡| 国产一区二区中文字幕| 特高潮videossexhd| free性欧美hd另类丰满| 午夜免费一级片| 国产极品一区二区三区| 欧美日韩一区免费| 日本白嫩的18sex少妇hd| 国产999精品视频| 久久精品国产99| 亚洲一区二区福利视频| 亚洲国产欧美一区| 91精品国产高清一二三四区 | 91精品一区| 国产精品天堂| 精品国产一区二区三区久久久久久 | 国产乱了高清露脸对白| 国产欧美日韩精品在线| 国产aⅴ一区二区| 欧美乱大交xxxxx胶衣| 久久99亚洲精品久久99果| 欧美日韩激情一区二区| 91精品黄色| 午夜电影理伦片2023在线观看| 99久久婷婷国产精品综合| 欧美性xxxxx极品少妇| 97视频一区| 中文字幕日本精品一区二区三区| 日韩av一区二区在线播放| 国产在线欧美在线| 911久久香蕉国产线看观看| 中文字幕一区二区三区免费视频| 国产高清在线观看一区| 久久精品99国产国产| 影音先锋久久久| 国产欧美日韩中文字幕| 爱看av在线入口| 国产精品九九九九九| freexxxxxxx| 亚洲精品久久久久久久久久久久久久 | 午夜一区二区三区在线观看| 国产一二区在线| 国产精品第157页| 国产乱对白刺激在线视频| 亚洲女人av久久天堂| 欧美亚洲视频二区| 一区二区三区欧美日韩| 久久99中文字幕| 香蕉视频一区二区三区| 亚洲精品欧美精品日韩精品| 日韩午夜电影在线| 亚洲精品一区中文字幕| 精品欧美一区二区在线观看| 国产精品视频二区不卡| 国产91久| 丰满岳妇伦4在线观看| 久久99精品一区二区三区| 久久精品二| 国产精品影音先锋| 国产精品视频二区三区| 99久精品视频| av午夜在线| 亚洲1区在线观看| 久久九九国产精品| 少妇性色午夜淫片aaa播放5| 亚欧精品在线观看| 狠狠色很很在鲁视频| 日韩精品一区二区三区免费观看视频| 欧美xxxxhdvideos| 91国内精品白嫩初高生| 午夜诱惑影院| 日韩国产精品一区二区| 日韩精品免费播放| 91麻豆精品国产91久久| 亚洲精品一品区二品区三品区| 精品国产一区二区三区麻豆免费观看完整版| 国产乱一乱二乱三| 日本福利一区二区| 高清人人天天夜夜曰狠狠狠狠| 欧美色图视频一区| 亚洲欧美一区二区精品久久久| 日韩久久精品一区二区三区| 欧美一区免费| 欧美精品第一区| 91免费视频国产| 国内揄拍国产精品| 国产精品自拍不卡| 97欧美精品| 美女销魂免费一区二区| 欧美大片一区二区三区| 91国产在线看| 国产一区二区伦理片| 国产精品伦一区二区三区在线观看| 精品国产乱码久久久久久软件影片| 国产精品电影一区| 亚洲国产欧美一区二区三区丁香婷| 国产二区不卡| 国产色婷婷精品综合在线手机播放| 午夜私人影院在线观看| 国产欧美一区二区精品性| 99精品国产99久久久久久97| 午夜理伦影院| 国产大学生呻吟对白精彩在线| 久久天天躁狠狠躁亚洲综合公司| 性生交片免费看片| 亚洲欧美日韩一级| 欧美一区视频观看| 99久久精品国产国产毛片小说| 亚洲第一天堂无码专区| 狠狠色噜噜狠狠狠狠2021天天| 最新av中文字幕| 狠狠色狠狠色88综合日日91| 国产日韩精品一区二区三区| 国产69精品久久久久777糖心| 91香蕉一区二区三区在线观看| 少妇性色午夜淫片aaa播放5| 亚洲区日韩| 欧美一区二区三区免费观看视频| 国产91一区二区在线观看| 久久国产欧美一区二区免费| 96国产精品| 欧美一区二区三区性| 女女百合互慰av| 日本一区二区在线电影| 四虎久久精品国产亚洲av| 免费看大黄毛片全集免费| 亚州精品中文| 岛国黄色av| 欧美xxxxhdvideos| 久久精品麻豆| 亚洲精品久久久久一区二区| 99精品欧美一区二区| 日本一区二区三区免费视频| 一二三区欧美| 狠狠躁夜夜躁2020| 国产精品一二三区视频出来一| 一区二区在线视频免费观看| 久久99中文字幕| 国产一区二区三区国产| 久久久精品视频在线| 国产日产精品一区二区| 一本色道久久综合亚洲精品图片| 夜夜躁狠狠躁日日躁2024| 中文字幕一区二区三区乱码| 日本看片一区二区三区高清| 欧美一区二区三区久久精品视| 久久九九亚洲| 国产97免费视频| 高清人人天天夜夜曰狠狠狠狠| 99久久久国产精品免费无卡顿| 欧美日韩中文字幕三区| 欧美日韩一区二区三区69堂| 国产一卡二卡在线播放| 一区二区国产精品| 高清欧美xxxx| 强行挺进女警紧窄湿润| 久久99精品国产| 久久第一区|