一区二区三区在线播放,黄色av免费在线观看,全国最大成人免费视频,日本高清视频色,日韩少妇精品av一区二区,久久久久亚洲精品国产,久久精品在线视频,国产欧美精品一区aⅴ影院

    顏水成掛帥,昆侖萬維2050全球研究院發布Vitron多模態大模型

    近日,由顏水成教授帶隊,昆侖萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯合發布并開源了Vitron通用像素級視覺多模態大語言模型。

    這是一款重磅的通用視覺多模態大模型,支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務,解決了困擾大語言模型產業已久的圖像/視頻模型割裂問題,提供了一個全面統一靜態圖像與動態視頻內容的理解、生成、分割、編輯等任務的像素級通用視覺多模態大模型,為下一代通用視覺大模型的終極形態奠定了基礎,也標志著大模型邁向通用人工智能(AGI)的又一大步。

    Vitron作為一個統一的像素級視覺多模態大語言模型,實現了從低層次到高層次的視覺任務的全面支持,能夠處理復雜的視覺任務,并理解和生成圖像和視頻內容,提供了強大的視覺理解和任務執行能力。同時,Vitron支持與用戶的連續操作,實現了靈活的人機互動,展示了通向更統一的視覺多模態通用模型的巨大潛力。

    Vitron相關的論文、代碼和Demo已全部公開,其在綜合性、技術創新、人機交互和應用潛力等方面展現出的獨特優勢和潛力,不僅推動了多模態大模型的發展,還為未來的視覺大模型研究提供了一個新的方向。

    一直以來,昆侖萬維2050全球研究院都致力于打造一家面向未來世界的卓越科學研究機構,與科學社區共同跨越“奇點”,探索未知世界,創造美好未來。此前,昆侖萬維2050全球研究院已經發布并開源了數字智能體研發工具包AgentStudio,未來,研究院還將不斷推動人工智能技術突破,為中國人工智能生態建設貢獻力量。

    當前視覺大語言模型(LLMs)的發展取得了喜人進展。社區越來越相信,構建更通用、更強大的多模態大模型(MLLMs)將會是通向通用人工智能(AGI)的必經之路。但在向多模態通用大模型(Generalist)的邁進過程中,目前仍存在一些關鍵挑戰。比如很大一部分工作都沒有實現細粒度像素級別的視覺理解,或者缺乏對圖像和視頻的統一支持。抑或對于各種視覺任務的支持不充分,離通用大模型相差甚遠。

    為了填補這個空白,近日,昆侖萬維2050全球研究院、新加坡國立大學、新加坡南洋理工大學團隊聯合發布開源了Vitron通用像素級視覺多模態大語言模型。Vitron支持從視覺理解到視覺生成、從低層次到高層次的一系列視覺任務,包括靜態圖像和動態視頻內容進行全面的理解、生成、分割和編輯等任務。

    上圖綜合描繪了Vitron在四大視覺相關任務的功能支持,以及其關鍵優勢。Vitron還支持與用戶的連續操作,實現靈活的人機互動。該項目展示了面向更統一的視覺多模態通用模型的巨大潛力,為下一代通用視覺大模型的終極形態奠定了基礎。

    Vitron相關論文、代碼、Demo目前已全部公開。

    l 論文標題:Vitron: A Unified Pixel-level Vision LLM for Understanding, Generating, Segmenting, Editing

    l 項目主頁&Demo:https://vitron-llm.github.io/

    l 論文鏈接:https://is.gd/aGu0VV

    l 開源代碼:https://github.com/SkyworkAI/Vitron

    大一統的終極多模態大語言模型

    近年來,大語言模型(LLMs)展現出了前所未有的強大能力,其被逐漸驗證為乃是通向AGI的技術路線。而多模態大語言模型(MLLMs)在多個社區火爆發展且迅速出圈,通過引入能進行視覺感知的模塊,擴展純語言基礎LLMs至MLLMs,眾多在圖像理解方面強大卓越的MLLMs被研發問世,例如BLIP-2、LLaVA、MiniGPT-4等等。與此同時,專注于視頻理解的MLLMs也陸續面世,如VideoChat、Video-LLaMA和Video-LLaVA等等。

    隨后,研究人員主要從兩個維度試圖進一步擴展MLLMs的能力。一方面,研究人員嘗試深化MLLMs對視覺的理解,從粗略的實例級理解過渡到對圖像的像素級細粒度理解,從而實現視覺區域定位(Regional Grounding)能力,如GLaMM、PixelLM、NExT-Chat和MiniGPT-v2等。另一方面,研究人員嘗試擴展MLLMs可以支持的視覺功能。部分研究已經開始研究讓MLLMs不僅理解輸入視覺信號,還能支持生成輸出視覺內容。比如,GILL、Emu等MLLMs能夠靈活生成圖像內容,以及GPT4Video和NExT-GPT實現視頻生成。

    目前人工智能社區已逐漸達成一致,認為視覺MLLMs的未來趨勢必然會朝著高度統一、能力更強的方向發展。然而,盡管社區開發了眾多的MLLMs,但仍然存在明顯的鴻溝。

    l 首先,幾乎所有現有的視覺LLMs將圖像和視頻視為不同的實體,要么僅支持圖像,要么僅支持視頻。研究人員主張,視覺應該同時包含了靜態圖像和動態視頻兩個方面的內涵——這兩者都是視覺世界的核心組成,在大多數場景中甚至可以互換。所以,需要構建一個統一的MLLM框架能夠同時支持圖像和視頻模態。

    l 其次,目前MLLMs對視覺功能的支持還有所不足。大多數模型僅能進行理解,或者最多生成圖像或視頻。研究人員認為,未來的MLLMs應該是一個通用大語言模型,能覆蓋更廣泛的視覺任務和操作范圍,實現對所有視覺相關任務的統一支持,達到“one for all”的能力。這點對實際應用尤其是在經常涉及一系列迭代和交互操作的視覺創作中至關重要。例如,用戶通常首先從文本開始,通過文生圖,將一個想法轉化為視覺內容;然后通過進一步的細粒度圖像編輯來完善初始想法,添加更多細節;接著,通過圖像生成視頻來創建動態內容;最后,進行幾輪迭代交互,如視頻編輯,完善創作。

    上表簡單地歸納了現有的視覺MLLM的能力(只代表性地囊括了部分模型,覆蓋不完整)。為了彌補這些差距,該團隊提出一種通用的像素級視覺MLLM——Vitron。

    Vitron系統架構:三大關鍵模塊

    Vitron整體框架如下圖所示。Vitron采用了與現有相關MLLMs相似的架構,包括三個關鍵部分:1) 前端視覺&語言編碼模塊,2) 中心LLM理解和文本生成模塊,以及3) 后端用戶響應和模塊調用以進行視覺操控模塊。

    l 前端模塊:視覺-語言編碼。為了感知圖像和視頻模態信號,并支持細粒度用戶視覺輸入,Vitron集成了圖像編碼器、視頻編碼器、區域框/草圖編碼器。

    l 中心模塊:核心LLM。Vitron使用的是Vicuna(7B,1.5),來實現理解、推理、決策制定和多輪用戶交互。

    l 后端模塊:用戶響應與模塊調用。Vitron采用以文本為中心的調用策略,整合現成的幾個強大先進(SoTA)的圖像和視頻處理模塊,用于解碼和執行從低層到高層的一系列視覺終端任務。通過采用以文本為中心的模塊集成調用方法,Vitron不僅實現了系統統一,還確保了對齊效率和系統可擴展性。

    Vitron模型訓練三大階段

    基于上述架構,再對Vitron進行訓練微調,以賦予其強大的視覺理解和任務執行能力。模型訓練主要囊括三個不同的階段。

    l 步驟一:視覺-語言整體對齊學習。將輸入的視覺語言特征映射到一個統一的特征空間中,從而使其能夠有效理解輸入的多模態信號。這是一種粗粒度的視覺-語言對齊學習,可以讓系統具備整體上有效處理傳入的視覺信號。研究人員采用了現存的圖像-標題對(CC3M)、視頻-標題對(Webvid)和區域-標題對(RefCOCO)的數據集進行訓練。

    l 步驟二:細粒度的時空視覺定位指令微調。系統采用了調用外部模塊方式來執行各種像素級視覺任務,但LLM本身并未經過任何細粒度的視覺訓練,這將會阻礙了系統實現真正的像素級視覺理解。為此,研究人員提出了一種細粒度的時空視覺定位指令微調訓練,核心思想是使LLM能夠定位圖像的細粒度空間性和視頻的具體時序特性。

    l 步驟三:輸出端面向命令調用的指令微調。上述第二階段的訓練賦予了LLM和前端編碼器在像素級別理解視覺的能力。這最后一步,面向命令調用的指令微調,旨在讓系統具備精確執行命令的能力,允許LLM生成適當且正確的調用文本。由于不同的終端視覺任務可能需要不同的調用命令,為了統一這一點,研究人員提出將LLM的響應輸出標準化為結構化文本格式,其中包括:

    1) 用戶響應輸出,直接回復用戶的輸入。

    2) 模塊名稱,指示將要執行的功能或任務。

    3) 調用命令,觸發任務模塊的元指令。

    4) 區域(可選輸出),指定某些任務所需的細粒度視覺特征,例如在視頻跟蹤或視覺編輯中,后端模塊需要這些信息。對于區域,基于LLM的像素級理解,將輸出由坐標描述的邊界框。

    評估實驗

    研究人員基于Vitron在22個常見的基準數據集、12個圖像/視頻視覺任務上進行了廣泛的實驗評估。Vitron展現出在四大主要視覺任務群組(分割、理解、內容生成和編輯)中的強大能力,與此同時其具備靈活的人機交互能力。以下代表性地展示了一些定性比較結果:

    l Vision Segmentation

    Results of image referring image segmentation

    l Fine-grained Vision Understanding

    Results of image referring expression comprehension.

    Results on video QA.

    l Vision Generation

    Text-to-Image Generation Text-to-Video generation Image-to-Video generation

    l Vision Editing

    Image editing results

    具體更多詳細實驗內容和細節請移步論文。

    未來方向展望

    總體上,這項工作展示了研發大一統的視覺多模態通用大模型的巨大潛力,為下一代視覺大模型的研究奠定了一個新的形態,邁出了這個方向的第一步。盡管團隊所提出的Vitron系統表現出強大的通用能力,但依然存在自身的局限性。以下研究人員列出一些未來可進一步探索的方向。

    l 系統架構

    Vitron系統仍采用半聯合、半代理的方式來調用外部工具。雖然這種基于調用的方法便于擴展和替換潛在模塊,但這也意味著這種流水線結構的后端模塊不參與到前端與LLM核心模塊的聯合學習。這一限制不利于系統的整體學習,這意味著不同視覺任務的性能上限將受到后端模塊的限制。未來的工作應將各種視覺任務模塊整合成一個統一的單元。實現對圖像和視頻的統一理解和輸出,同時通過單一生成范式支持生成和編輯能力,仍然是一個挑戰。目前一種有希望的方式是結合modality-persistent的tokenization, 提升系統在不同輸入和輸出以及各種任務上的統一化。

    l 用戶交互性

    與之前專注于單一視覺任務的模型(例如,Stable Diffusion和SEEM)不同,Vitron旨在促進LLM和用戶之間的深度交互,類似于行業內的OpenAI的DALL-E系列,Midjourney等。實現最佳的用戶交互性是本項工作的核心目標之一。Vitron利用現有的基于語言的LLM,結合適當的指令調整,以實現一定程度的交互。例如,系統可以靈活地響應用戶輸入的任何預期消息,產生相應的視覺操作結果,而不要求用戶輸入精確匹配后端模塊條件。然而,該工作在增強交互性方面仍有很大的提升空間。例如,從閉源的Midjourney系統汲取靈感,不論LLM在每一步做出何種決定,系統都應積極向用戶提供反饋,以確保其行動和決策與用戶意圖一致。

    l 模態能力

    當前,Vitron集成了一個7B的Vicuna模型,其可能對其理解語言、圖像和視頻的能力會產生某些限制。未來的探索方向可以發展一個全面的端到端系統,比如擴大模型的規模,以實現對視覺的更徹底和全面的理解。此外,應該努力使LLM能夠完全統一圖像和視頻模態的理解。

    編輯:gloria
    AI 文章概述
    *本回答由 AI 生成,僅供參考,不構成任何專業建議。
      熱門新聞
        24小時熱榜
        日榜 | 周榜
            主站蜘蛛池模板: 午夜影院你懂的| 538在线一区二区精品国产| 精品国产一区二区三区麻豆免费观看完整版| xxxxhd欧美| 99re久久精品国产| 国产精品高潮呻吟视频| 中文字幕在线一区二区三区 | 狠狠色噜噜综合社区| 17c国产精品一区二区| 91精品视频一区二区| 亚洲乱在线| 亚洲1区2区3区4区| xxxxhd欧美| 国产精品乱码一区| 日韩中文字幕久久久97都市激情| 精品久久久久久中文字幕大豆网 | 国产69精品久久99的直播节目| 性少妇freesexvideos高清bbw| 91精品视频一区二区| 国产精品一区二区人人爽| av毛片精品| 综合欧美一区二区三区| 91波多野结衣| 欧美激情精品一区| 午夜一区二区三区在线观看| 狠狠躁夜夜躁人人爽天天天天97| 亚洲乱视频| 护士xxxx18一19| 中出乱码av亚洲精品久久天堂| 亚洲国产精品一区二区久久hs| 午夜免费片| 7777久久久国产精品| 国产日韩一区二区三免费| 狠狠色狠狠综合久久| 毛片大全免费看| 欧美色图视频一区| 午夜影院5分钟| 久久精品综合视频| 精品福利一区| 午夜激情影院| 午夜电影网一区| 公乱妇hd在线播放bd| 欧美精品中文字幕亚洲专区| 午夜一二区| 午夜理伦影院| 国产精品刺激对白麻豆99| 欧美性二区| 国产一二区视频| 午夜国产一区二区| 精品一区中文字幕| 日韩中文字幕在线一区| 国产一区二区三区的电影| 午夜三级大片| 国产精品69av| 国产精品日韩精品欧美精品| 久久三级精品| 午夜666| 欧美69精品久久久久久不卡| 97久久国产精品| 一本色道久久综合亚洲精品浪潮| 日本一区二区欧美| 国产91综合一区在线观看| 国产欧美一区二区三区在线看| 国产69精品久久久| 97国产精品久久久| 日韩精品一二区| 少妇厨房与子伦在线观看| 91社区国产高清| 欧美一区二区三区在线视频观看| 欧美一区二区激情三区| 93精品国产乱码久久久| 国偷自产一区二区三区在线观看| 久久综合国产伦精品免费| 97精品国产aⅴ7777| 国产一卡二卡在线播放| 国产乱子伦农村xxxx| 538国产精品| 综合久久一区| 国产一区二区资源| 亚洲乱码一区二区| 久久久久久久亚洲视频| 国产精品一区二区毛茸茸| 国产精欧美一区二区三区久久久| 国产乱色国产精品播放视频| 免费看大黄毛片全集免费| 精品欧美一区二区精品久久小说| 99国产伦精品一区二区三区| 91超薄丝袜肉丝一区二区| 国产乱人伦偷精品视频免下载| 国产精品不卡一区二区三区| 欧美精品日韩一区| 91久久精品国产亚洲a∨麻豆| 国产一区二区三区网站| 欧美黑人巨大久久久精品一区| 日韩欧美国产中文字幕| 国产vsv精品一区二区62| 国产一区二区三区小说| 久久精品国产亚洲7777| 农村妇女精品一二区| 亚洲第一天堂久久| 中文字幕日韩一区二区| 高清欧美精品xxxxx| 99国产精品免费| 9999国产精品| xx性欧美hd| 国产精品1区二区| 国产一区影院| 91久久国产露脸精品国产| 国产欧美www| 狠狠躁夜夜躁2020| 久久久一二区| 国产精品一二三区视频出来一| 国产精品美女一区二区视频| 欧美乱大交xxxxx古装| 高清人人天天夜夜曰狠狠狠狠| 精品国产免费久久| 91麻豆精品国产91久久久久推荐资源 | 日韩精品一区二区不卡| 久久精品一二三四| 久久精品国产99| 国产视频1区2区| **毛片在线免费观看| 国产视频在线一区二区| 国产视频二区在线观看| 野花国产精品入口| 久久久久国产精品视频| 久99久视频| 欧美亚洲国产日韩| 国产69精品久久久久久| 性欧美精品动漫| 国产精品一区在线观看你懂的 | 视频一区二区国产| 午夜肉伦伦| 精品国产一区二区三区国产馆杂枝| 色综合久久88| 国产一区二区激情| 欧美日韩激情一区二区| 亚洲欧美色图在线| 日韩一区高清| 国产在线视频二区| 国产精品一区二区日韩新区| 欧美国产一区二区在线| 艳妇荡乳欲伦2| 久免费看少妇高潮a级特黄按摩| 99久久精品一区| 欧美日韩亚洲三区| 国产理论片午午午伦夜理片2021| 国产真实乱偷精品视频免| 麻豆9在线观看免费高清1| 亚洲四区在线观看| 亚洲一二三在线| 午夜天堂在线| 三级电影中文| 性国产videofree极品| 国产区图片区一区二区三区| 国产清纯白嫩初高生在线播放性色| 国产精品尤物麻豆一区二区三区 | 久久密av| 亚洲精品色婷婷| 午夜精品999| 狠狠色狠狠色合久久伊人| 96国产精品| 久久久精品视频在线| 99精品黄色| 日韩欧美中文字幕精品| 国产精品高潮呻吟三区四区| 国产高清一区在线观看| 国产精品视频免费看人鲁| 99爱精品在线| 狠狠插狠狠插| 国产精品对白刺激久久久| 91精品啪在线观看国产手机 | 国产91丝袜在线播放动漫| 欧美一区二区色| 精品国产一区在线| 欧美日本三级少妇三级久久| 中文字幕一区二区三区免费| 国内少妇自拍视频一区| 国产一卡二卡在线播放 | 精品久久久久久中文字幕大豆网| 鲁丝一区二区三区免费观看| 国产一区亚洲一区| 久久伊人色综合| 国产69精品久久99不卡免费版| 国产精品日韩精品欧美精品| 99久久99精品| 清纯唯美经典一区二区| 亚洲欧美一区二区三区不卡| 欧美xxxxhdvideos| 亚洲精品www久久久| 日韩av在线高清| 亚洲精品性| 国产一区二区手机在线观看| 精品国产一二区| 日韩精品中文字幕一区二区三区| 国产午夜精品一区二区三区欧美| 亚洲精品久久久久中文字幕欢迎你 | 国产一区二区免费在线| xx性欧美hd| 国产真实一区二区三区| 99久久国产综合精品尤物酒店| 日本一区免费视频| 国产一区二区三区网站| 年轻bbwbbw高潮| 午夜毛片电影| 蜜臀久久99精品久久一区二区| 午夜影院啊啊啊| 日本大码bbw肉感高潮| 性欧美一区二区三区| 久久婷婷国产香蕉| 一区二区三区国产欧美| av午夜影院| 亚洲福利视频一区| 国产欧美一区二区精品性| 欧美日韩国产精品一区二区| 国产乱xxxxx国语对白| 日韩一级在线视频| 国产精品高潮呻吟视频| 久久精品入口九色| 国产一区免费在线| 久久aⅴ国产欧美74aaa| 麻豆精品一区二区三区在线观看| 久久国产精品波多野结衣| 亚洲国产精品美女| 亚洲国产精品97久久无色| 国产一区二区国产| 福利片一区二区三区| 精品一区二区三区中文字幕| 欧美日韩中文国产一区发布| 欧美性xxxxx极品少妇| 亚洲欧美国产一区二区三区| 亚洲国产aⅴ精品一区二区16| 日本一区二区三区中文字幕| 欧美日韩乱码| 国产大片黄在线观看私人影院| 中文字幕一区一区三区| 国产精品国产亚洲精品看不卡15| 国产69精品久久久久孕妇不能看| 欧美精品国产精品| 国产真实一区二区三区| 欧美老肥婆性猛交视频| 国产精品免费不卡| 男女视频一区二区三区| 久久综合久久自在自线精品自| 性色av香蕉一区二区| 日韩中文字幕在线一区|