一区二区三区在线播放,黄色av免费在线观看,全国最大成人免费视频,日本高清视频色,日韩少妇精品av一区二区,久久久久亚洲精品国产,久久精品在线视频,国产欧美精品一区aⅴ影院

    僅32B,昆侖萬(wàn)維開(kāi)源“自主代碼智能體模型Skywork-SWE-32B”,拿下代碼開(kāi)源SOTA

    6月20日,昆侖萬(wàn)維發(fā)布軟件工程(Software Engineering, SWE)自主代碼智能體基座模型Skywork-SWE,在開(kāi)源32B模型規(guī)模下實(shí)現(xiàn)了業(yè)界最強(qiáng)的倉(cāng)庫(kù)級(jí)代碼修復(fù)能力。昆侖萬(wàn)維團(tuán)隊(duì)通過(guò)構(gòu)建超過(guò)1萬(wàn)個(gè)可驗(yàn)證的GitHub倉(cāng)庫(kù)任務(wù)實(shí)例,打造出目前最大規(guī)模的可驗(yàn)證GitHub倉(cāng)庫(kù)級(jí)代碼修復(fù)的數(shù)據(jù)集,并系統(tǒng)性驗(yàn)證了大模型在軟件工程任務(wù)上的數(shù)據(jù)縮放定律(Scaling Law)。

    Skywork-SWE-32B模型在SWE-bench Verified基準(zhǔn)上取得38.0% pass@1準(zhǔn)確率,刷新Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最佳成績(jī)。進(jìn)一步引入測(cè)試時(shí)擴(kuò)展技術(shù)后,模型表現(xiàn)提升至47.0%的準(zhǔn)確率,不僅超越了現(xiàn)有參數(shù)規(guī)模在32B以下的開(kāi)源模型,也顯著地縮小了與閉源模型之間的性能差距。

    2025年被廣泛認(rèn)為是智能體(Agent)模型的元年,其核心特征包括“超多輪交互”和“超長(zhǎng)上下文處理”。在眾多應(yīng)用方向中,軟件工程SWE任務(wù)正成為大語(yǔ)言模型智能體的關(guān)鍵應(yīng)用場(chǎng)景之一。

    相比傳統(tǒng)的代碼生成任務(wù)(如代碼編程題解答),SWE任務(wù)更加貼近真實(shí)的軟件開(kāi)發(fā)流程,涵蓋了從定位BUG、修改源代碼,到驗(yàn)證修復(fù)效果的完整閉環(huán)。這類(lèi)任務(wù)通常源自GitHub倉(cāng)庫(kù)中的實(shí)際代碼工程問(wèn)題,具備高度的真實(shí)性、復(fù)雜性和挑戰(zhàn)性,是評(píng)估智能體模型能力的一個(gè)重要基準(zhǔn)。

    SWE任務(wù)的獨(dú)特之處在于,它對(duì)模型提出了更高要求:不僅需要支持多輪交互和長(zhǎng)上下文推理,還需具備處理跨文件依賴(lài)、調(diào)用工具鏈,以及在復(fù)雜環(huán)境中持續(xù)修復(fù)代碼問(wèn)題的能力。這些能力全面考驗(yàn)了智能體模型的工程實(shí)踐水平與系統(tǒng)性思維能力。

    三階段自動(dòng)化流程,構(gòu)建大規(guī)模、高質(zhì)量SWE任務(wù)訓(xùn)練數(shù)據(jù)集

    盡管當(dāng)前市面上已有不少工作聚焦于SWE任務(wù)并收集了相關(guān)的數(shù)據(jù)集,但當(dāng)前的主流(訓(xùn)練)數(shù)據(jù)集仍存在三大核心問(wèn)題:

    1. 缺乏可執(zhí)行環(huán)境與驗(yàn)證機(jī)制:已有開(kāi)源數(shù)據(jù)(如SWE-bench-extra、SWE-Fixer)通常缺乏環(huán)境或單元測(cè)試來(lái)驗(yàn)證數(shù)據(jù)正確性,導(dǎo)致生成的修復(fù)難以驗(yàn)證。

    2. 高質(zhì)量訓(xùn)練數(shù)據(jù)稀缺:盡管某些數(shù)據(jù)集規(guī)模較大(如 SWE-Dev、SWE-Gym),但缺乏經(jīng)過(guò)嚴(yán)格驗(yàn)證的訓(xùn)練樣本,公開(kāi)可用的高質(zhì)量數(shù)據(jù)極為有限,導(dǎo)致開(kāi)源模型在SWE任務(wù)上長(zhǎng)期落后于閉源模型。

    3. 數(shù)據(jù)規(guī)模法則適用性不明確:相較于自然語(yǔ)言領(lǐng)域中的任務(wù),SWE任務(wù)現(xiàn)有的公開(kāi)訓(xùn)練數(shù)據(jù)體量較小,尚無(wú)法有效驗(yàn)證數(shù)據(jù)擴(kuò)展是否能帶來(lái)模型能力的持續(xù)增長(zhǎng)。

    為打破上述瓶頸,并且打造出具備工程實(shí)用性的SWE代碼智能體模型,昆侖萬(wàn)維團(tuán)隊(duì)首先在訓(xùn)練階段自行構(gòu)建了一套自動(dòng)化、結(jié)構(gòu)化、可復(fù)現(xiàn)的SWE數(shù)據(jù)收集與驗(yàn)證流程,共分為三個(gè)階段、九個(gè)步驟(如下圖所示)。最終團(tuán)隊(duì)構(gòu)建出超1萬(wàn)條高質(zhì)量任務(wù)實(shí)例、8千條多輪交互的軌跡,為模型訓(xùn)練提供堅(jiān)實(shí)基礎(chǔ)。

    圖丨Skywork-SWE完整數(shù)據(jù)收集與驗(yàn)證流程

    Skywork-SWE作為萬(wàn)級(jí)高質(zhì)量可驗(yàn)證數(shù)據(jù)集,驅(qū)動(dòng)智能體模型能力躍遷

    在上述三個(gè)階段過(guò)程中,團(tuán)隊(duì)實(shí)施了嚴(yán)格的數(shù)據(jù)篩選與構(gòu)建流程。如下圖所示,團(tuán)隊(duì)從最初超過(guò)15萬(wàn)條候選代碼倉(cāng)庫(kù)元數(shù)據(jù)中,最終篩選出約1萬(wàn)條高質(zhì)量實(shí)例,構(gòu)建出當(dāng)前規(guī)模最大、質(zhì)量最高的可驗(yàn)證SWE任務(wù)(訓(xùn)練)數(shù)據(jù)集——Skywork-SWE。

    圖丨數(shù)據(jù)構(gòu)建過(guò)程中各個(gè)階段數(shù)據(jù)樣本量變化示意

    Skywork-SWE數(shù)據(jù)集在任務(wù)數(shù)量與代碼覆蓋廣度方面,遠(yuǎn)超現(xiàn)有同類(lèi)數(shù)據(jù)集(如SWE-Gym Lite與SWE-bench Verified),為大模型提供了豐富、多樣且貼近實(shí)際的軟件工程任務(wù)樣本,持續(xù)推動(dòng)智能體模型的能力進(jìn)化。此外,Skywork-SWE數(shù)據(jù)集不僅涵蓋如Pydantic、SQLGlot、DVC等主流開(kāi)源項(xiàng)目,還包含大量中小型倉(cāng)庫(kù),呈現(xiàn)出高度貼近真實(shí)開(kāi)發(fā)生態(tài)的任務(wù)分布特征。這種貼近真實(shí)開(kāi)發(fā)生態(tài)的數(shù)據(jù)構(gòu)成,有助于提升模型在復(fù)雜多樣場(chǎng)景下的問(wèn)題解決能力。

    圖丨Skywork-SWE數(shù)據(jù)集的GitHub倉(cāng)庫(kù)詞云

    Skywork-SWE登頂32B開(kāi)源SOTA

    “Less artifact, more intelligence”(更少的人工約束,更多智能發(fā)揮) 是團(tuán)隊(duì)開(kāi)發(fā)軟件工程自主代碼智能體模型的核心理念。我們主張賦予AI更大自主權(quán),由其決定工具使用與任務(wù)執(zhí)行方式,而非人為預(yù)先設(shè)定規(guī)則流程。基于這一理念,最終選用目前最具自主性的開(kāi)源OpenHands框架。

    基于Skywork-SWE數(shù)據(jù)集的高質(zhì)量智能體軌跡,昆侖萬(wàn)維團(tuán)隊(duì)微調(diào)得到Skywork-SWE-32B模型,該模型在SWE-bench Verified測(cè)評(píng)中取得優(yōu)異成績(jī)。截至目前,Skywork-SWE-32B在SWE-Bench榜單中成為當(dāng)前性能最強(qiáng)的32B開(kāi)源代碼智能體大模型,刷新SWE-bench Verified基準(zhǔn)上同等規(guī)模模型的最佳成績(jī),充分展示了其工程實(shí)用價(jià)值:

    1.Skywork-SWE-32B測(cè)評(píng)結(jié)果超越相同參數(shù)規(guī)模的模型。Skywork-SWE-32B基于開(kāi)源OpenHands代碼Agent框架,實(shí)現(xiàn)了38.0% pass@1的準(zhǔn)確率,達(dá)到了Qwen2.5-Coder-32B系列模型在OpenHands代碼框架下的最優(yōu)水平。更為關(guān)鍵的是,實(shí)驗(yàn)結(jié)果進(jìn)一步表明:隨著訓(xùn)練數(shù)據(jù)規(guī)模的持續(xù)擴(kuò)展,模型性能持續(xù)提升,充分驗(yàn)證了“數(shù)據(jù)規(guī)模擴(kuò)展帶來(lái)的性能增益”在軟件工程任務(wù)中的有效性與適用性。

    2.應(yīng)用測(cè)試時(shí)擴(kuò)展技術(shù)之后,Skywork-SWE-32B取得了最優(yōu)性能。在引入測(cè)試時(shí)擴(kuò)展技術(shù)(Test-Time Scaling,TTS)后,Skywork-SWE-32B (+ TTS) 的pass@1準(zhǔn)確率進(jìn)一步提升至47.0%,刷新了32B參數(shù)規(guī)模以下開(kāi)源模型的SOTA。更值得關(guān)注的是,Skywork-SWE-32B在與參數(shù)量高達(dá)671B的DeepSeek-V3-0324模型對(duì)比中仍展現(xiàn)出明顯優(yōu)勢(shì),領(lǐng)先8.2個(gè)百分點(diǎn)。

    3.Skywork-SWE-32B (+ TTS) 的表現(xiàn)接近甚至超越多數(shù)主流閉源大模型。Skywork-SWE-32B (+ TTS) 的pass@1準(zhǔn)確率顯著超越了GPT-4.1-mini(23.86%)、 Claude 3.5 HaiKu(40.6%)和 OpenAI-o1-preview (41.3%),并且領(lǐng)先于Claude v3.5(46.0%)。

    持續(xù)探索更多Agent任務(wù)場(chǎng)景

    過(guò)去半年多時(shí)間,昆侖萬(wàn)維在獎(jiǎng)勵(lì)模型、多模態(tài)、推理、視頻生成等方向開(kāi)源了一系列SOTA級(jí)別模型,如今又在A(yíng)gent(SWE任務(wù))方向再下一城。繼5月天工超級(jí)智能體(Skywork Super Agents)面向全球發(fā)布后,今天我們又發(fā)布并開(kāi)源了自主代碼智能體模型Skywork-SWE-32B模型,這不僅是公司堅(jiān)定開(kāi)源策略的重要實(shí)踐,更代表了我們對(duì)Agent在辦公任務(wù)、SWE任務(wù)場(chǎng)景中的重要探索。

    通過(guò)Skywork-SWE數(shù)據(jù)集的構(gòu)建,以及自主代碼智能體模型Skywork-SWE-32B模型的發(fā)布,團(tuán)隊(duì)研究表明高質(zhì)量且可執(zhí)行驗(yàn)證的數(shù)據(jù)是提升代碼智能體模型性能的關(guān)鍵瓶頸,系統(tǒng)化的數(shù)據(jù)擴(kuò)展策略將在推動(dòng)開(kāi)源模型性能突破中發(fā)揮關(guān)鍵作用。基于此,我們期望Skywork-SWE-32B的開(kāi)源,能夠助力社區(qū)在大語(yǔ)言模型驅(qū)動(dòng)的軟件工程研究中持續(xù)演進(jìn)。

    未來(lái),Skywork-SWE-32B模型將進(jìn)一步拓展多編程語(yǔ)言支持以覆蓋更廣泛的開(kāi)發(fā)場(chǎng)景,并探索融合運(yùn)行時(shí)測(cè)試反饋的強(qiáng)化學(xué)習(xí)機(jī)制,為構(gòu)建真正具備智能軟件開(kāi)發(fā)能力的大語(yǔ)言模型奠定堅(jiān)實(shí)基礎(chǔ)。同時(shí),昆侖萬(wàn)維也將積極探索更多Agent任務(wù)場(chǎng)景。

    龔斯軒

    編輯:gloria
    AI 文章概述
    *本回答由 AI 生成,僅供參考,不構(gòu)成任何專(zhuān)業(yè)建議。
      熱門(mén)新聞
        24小時(shí)熱榜
        日榜 | 周榜
            主站蜘蛛池模板: 手机看片国产一区| 欧美国产一区二区三区激情无套| 国产区二区| 日本高清一二三区| 97视频一区| 国产一区二区黄| 亚洲免费永久精品国产| 91一区二区三区在线| 色噜噜狠狠狠狠色综合久 | 久久精品手机视频| 欧美精品一区二区久久久| 91精品国产高清一区二区三区| 日本一区午夜艳熟免费| 国内精品久久久久影院日本| 国产乱码一区二区三区| 欧美三级午夜理伦三级老人| 97人人模人人爽人人喊小说| 日本三级韩国三级国产三级| 欧美精品在线不卡| 国产69久久| 奇米色欧美一区二区三区| 国产精品天堂| 久久国产精品精品国产| 99久久精品免费看国产免费粉嫩| 日韩欧美高清一区二区| 国产精品高潮呻吟视频| 欧美日韩九区| 中文无码热在线视频| 99久久国产综合| 曰韩av在线| 91精品第一页| 精品一区二区三区自拍图片区| 亚洲欧美一二三| 国产人成看黄久久久久久久久| 中文字幕一区二区三区不卡| 狠狠色丁香久久综合频道| 欧美色综合天天久久| 91福利视频免费观看| 国产无遮挡又黄又爽又色视频| 婷婷嫩草国产精品一区二区三区| 一区二区久久精品66国产精品| 国产亚洲精品久久久久久网站| 日韩av在线网址| 欧美日韩国产精品一区二区三区| 亚洲精品国产suv| 国产视频一区二区视频| 色综合久久久久久久粉嫩| 亚洲国产一区二区久久久777| 91久久国产露脸精品国产护士| 午夜毛片电影| 欧美日韩三区| 一区二区国产盗摄色噜噜| 国产精品无码永久免费888| 国产高清在线精品一区二区三区 | 国产精品对白刺激在线观看| 亚洲欧洲一区| 国产日韩一区二区在线| 亚洲久久在线| 国产综合久久精品| 国产精品免费不卡| 国产高清精品一区二区| av不卡一区二区三区| 狠狠色很很在鲁视频| 欧美日韩国产一二| 97一区二区国产好的精华液| 高清欧美精品xxxxx| 在线精品视频一区| 午夜av电影网| 国产97久久| 久久69视频| 99久久精品国| 国产一区二区伦理| 99爱国产精品| 26uuu亚洲国产精品| 国产一级不卡视频| 色综合久久精品| 销魂美女一区二区| 国产伦精品一区二区三区免费下载| 欧美一区二区在线不卡| 亚洲精品乱码久久久久久按摩| 国产呻吟久久久久久久92| 久久国产精品99国产精| 国产美女视频一区二区三区| 国产欧美视频一区二区| 国产欧美三区| 爽妇色啪网| 中文av一区| 国产精品乱综合在线| 丝袜脚交一区二区| 国产一区日韩在线| 中文字幕日韩有码| 国产精品一区久久人人爽| 亚洲欧美国产精品一区二区| 欧美日韩精品中文字幕| 窝窝午夜精品一区二区| 欧美日韩精品在线一区| 国产在线拍偷自揄拍视频| 91波多野结衣| 性欧美精品动漫| 国产在线拍揄自揄拍| 欧美日韩一区在线视频| 久久96国产精品久久99软件| 国产极品美女高潮无套久久久| 夜夜躁日日躁狠狠躁| 国产影院一区二区| 性视频一区二区三区| 狠狠色丁香久久综合频道 | 久久一级精品| 欧美一级免费在线视频| 久久99久久99精品免观看软件| 国产无遮挡又黄又爽免费网站| 四季av中文字幕一区| 久久99精品久久久久婷婷暖91| 免费看欧美中韩毛片影院| 亚洲福利视频二区| 97人人澡人人爽人人模亚洲| 欧美日韩精品中文字幕| 久久99久久99精品免观看软件| 中文字幕在线乱码不卡二区区| 护士xxxx18一19| 日韩中文字幕在线一区| 午夜影院黄色片| 国产一区二区激情| 少妇bbwbbwbbw高潮| 国产午夜精品一区二区三区在线观看| 国产精品1234区| 亚洲欧美国产日韩色伦| 99日韩精品视频| 久久99精品国产麻豆宅宅| 亚洲欧洲日本在线观看| 国产一区二区视频免费观看| 亚洲精品性| 国产suv精品一区二区4| 国产午夜精品一区理论片飘花 | 日韩精品1区2区3区| 欧美精品日韩一区| 狠狠色狠狠色综合婷婷tag| 午夜影院激情| 狠狠色噜噜狠狠狠狠88| 亚洲精品97久久久babes| 欧美乱妇高清无乱码| 国产一区二区伦理| 一区二区三区免费高清视频| 91麻豆精品国产91久久久更新资源速度超快 | 午夜av片| 国产麻豆精品久久| 97精品国产aⅴ7777| 日韩欧美精品一区二区| 91午夜在线| 97久久国产亚洲精品超碰热| 99久久婷婷国产亚洲终合精品| 91精品综合| 国产乱人伦精品一区二区三区| 欧美精品中文字幕亚洲专区| 538在线一区二区精品国产| 国产69精品久久99不卡解锁版| 国产大片黄在线观看私人影院| 欧美日本一二三区| 制服.丝袜.亚洲.另类.中文| 国产精品视频久久久久久久| 97精品国产97久久久久久| 久热精品视频在线| 国产精品视频免费一区二区| 精品国产鲁一鲁一区二区作者| 欧美日韩国产免费观看| 日韩亚洲精品在线观看| 精品国产一区二区三区免费| 亚洲乱玛2021| 精品少妇一区二区三区免费观看焕| 99久久久国产精品免费无卡顿| 久久99精品久久久大学生| 日本一区中文字幕| 色乱码一区二区三在线看| 欧美在线观看视频一区二区| 日韩精品免费看| 日韩精品一区二区三区四区在线观看| www.久久精品视频| 欧美色图视频一区| 国产视频一区二区不卡| 久久久精品中文| 国产专区一区二区| 右手影院av| 蜜臀久久99精品久久久久久网站| 国产人成看黄久久久久久久久| 狠狠色狠狠色合久久伊人| 国产欧美一区二区精品婷| 久久国产精品视频一区| 国产一区三区四区| 2021天天干夜夜爽| 国产精品三级久久久久久电影| 性生交大片免费看潘金莲| 欧美片一区二区| 欧美国产一区二区三区激情无套| 国产一区二区三区伦理| 日本一区二区三区免费视频| 99久久国产综合精品女不卡| 国产一区二区资源| 黑人巨大精品欧美黑寡妇| 欧美日韩中文不卡| 国产精品麻豆一区二区| 人人玩人人添人人澡97| 精品无人国产偷自产在线| 欧美精品粉嫩高潮一区二区| 国产三级国产精品国产专区50| 免费a一毛片| 国产精品亚洲精品一区二区三区| 久久精品亚洲一区二区三区画质| 国产精品九九九九九九九| 亚洲精品卡一| 国产日韩一区在线| 99久久国产综合精品女不卡| 狠狠色狠狠色综合日日2019| 国产男女乱淫真高清视频免费| 午夜精品影视| 午夜看大片| 国产精品一区二区日韩新区| 久久免费视频一区| 性欧美精品动漫| 国产一级大片| 国产偷久久一区精品69| 国产一区二区影院| 久久久久一区二区三区四区| 久久国产欧美日韩精品| 国产精品黑色丝袜的老师| 国产69久久| 亚日韩精品| 亚洲伊人久久影院| 欧美精品在线视频观看| 欧美乱妇高清无乱码| 国产一区二区午夜| 在线国产一区二区三区| yy6080影院旧里番乳色吐息| 中文字幕在线一区二区三区 | 国产一区二区综合| 国产日韩欧美中文字幕| 日本午夜无人区毛片私人影院| 99精品视频一区二区| 91精品综合| 欧美乱偷一区二区三区在线| 亚洲欧美一区二区三区不卡| 欧美三级午夜理伦三级老人| 国产伦精品一区二区三区免费迷| 最新日韩一区| 国产麻豆91视频| 国产一区第一页| 99国产精品久久久久99打野战|