日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁(yè)>互聯(lián)網(wǎng) >內(nèi)容

          戴著蘋(píng)果Vision Pro打麻將!NTU微軟華人團(tuán)隊(duì)聯(lián)手打造Otter-E,專(zhuān)為AR頭顯設(shè)計(jì)

          2023-06-12 17:18:14來(lái)源:
          導(dǎo)讀 新智元報(bào)道編輯:桃子 拉燕【新智元導(dǎo)讀】近日,南洋理工&微軟華人團(tuán)隊(duì)聯(lián)手推出多模態(tài)模型「水獺」,未來(lái)還可成為AR頭顯的AI助手,超越賈...


          新智元報(bào)道

          編輯:桃子 拉燕

          【新智元導(dǎo)讀】近日,南洋理工&微軟華人團(tuán)隊(duì)聯(lián)手推出多模態(tài)模型「水獺」,未來(lái)還可成為AR頭顯的AI助手,超越賈維斯不是夢(mèng)!

          蘋(píng)果封神頭顯Vision Pro誕生,直接開(kāi)啟了空間計(jì)算之路。

          如果開(kāi)發(fā)一個(gè)AI助手「賈維斯」,能夠讓下一代頭顯在生活中發(fā)揮極致,那才真的讓人興奮。

          打麻將時(shí),直接問(wèn)我該棄什么牌?Otter-E給出打牌建議,以后還不是把把胡。


          空中飛行時(shí)問(wèn)Otter-E我想停在某個(gè)位置,它便會(huì)詳細(xì)講解讓你如何落地。


          ?還有踢球時(shí),也能尋求Otter-E的建議。


          甚至,當(dāng)你看到水里嬉戲的水獺,有感而發(fā),就可以讓Otter-E為你做一首五行詩(shī)。


          以上,便是來(lái)自南陽(yáng)理工大學(xué)和微軟的研究人員專(zhuān)為AR頭顯訓(xùn)練的AI助手「Otter-E」。

          其實(shí),這是Otter模型的另一個(gè)進(jìn)化體。

          Otter是一個(gè)基于OpenFlamingo的多模態(tài)的模型,在MIMIC-IT上進(jìn)行了訓(xùn)練,并展示了改進(jìn)的指令遵循能力和上下文學(xué)習(xí)。


          值得一提的是,Otter在2個(gè)消費(fèi)級(jí)的RTX3090 GPU便可跑。


          另外,MIMIC-IT橫跨了7個(gè)圖片和視頻的數(shù)據(jù)集,涵蓋了各種各樣的場(chǎng)景,支持8種語(yǔ)言。

          從通用的場(chǎng)景理解,到發(fā)現(xiàn)細(xì)微差異,再到增強(qiáng)AR頭顯的第一人稱(chēng)視圖理解。


          有網(wǎng)友表示,很興奮能夠看到人們?yōu)闉樘O(píng)果Vision Pro制作的AI AR應(yīng)用。


          支持8種語(yǔ)言,橫跨7個(gè)數(shù)據(jù)集

          目前,AI發(fā)展最快的領(lǐng)域就集中在對(duì)話助手上,AI擁有強(qiáng)大的能力來(lái)理解用戶(hù)的意圖,然后執(zhí)行。

          除了大型語(yǔ)言模型(LLMs)的強(qiáng)大概括能力外,指令調(diào)優(yōu)功不可沒(méi)。

          指令調(diào)優(yōu)涉及在一系列不同的高質(zhì)量的指令上對(duì)LLM進(jìn)行微調(diào)。通過(guò)指令調(diào)優(yōu),LLMs獲得了對(duì)用戶(hù)意圖更強(qiáng)大的理解能力。

          雖說(shuō)LLaVA的性能還算強(qiáng)大,但LLaVA-Instruct-150K仍然存在三個(gè)限制。

          (1) 有限的視覺(jué)多樣性。

          (2) 以單一的圖像作為視覺(jué)數(shù)據(jù)。

          (3) 僅有和語(yǔ)言相關(guān)的上下文信息:


          為了解決這些限制,研究人員引入了多模態(tài)上下文指令調(diào)整(MIMIC-IT)。

          MIMIC-IT有三個(gè)最大的特點(diǎn):

          (1) 多樣化的視覺(jué)場(chǎng)景,包含了一般場(chǎng)景、自我中心視角場(chǎng)景和室內(nèi)RGB-D圖像等不同數(shù)據(jù)集的圖像和視頻。

          (2) 多個(gè)圖像(或一個(gè)視頻)作為視覺(jué)數(shù)據(jù)。

          (3) 多模態(tài)的語(yǔ)境信息,特點(diǎn)是以多模態(tài)格式制定的語(yǔ)境信息,包括多個(gè)指令——回應(yīng)對(duì)和多個(gè)圖像或視頻。


          論文地址:https://arxiv.org/pdf/2306.05425.pdf

          下圖為MIMIC-IT的示意圖。


          MIMIC-IT的數(shù)據(jù)集包括280萬(wàn)個(gè)多模態(tài)指令——反應(yīng)對(duì),涵蓋以下基本能力:感知、推理,以及計(jì)劃。

          每條指令都伴隨著多模態(tài)的對(duì)話背景,使得在MIMIC-IT上訓(xùn)練的VLM能夠在交互式指令之后表現(xiàn)出強(qiáng)大的熟練度,并能實(shí)現(xiàn)零樣本泛化(zero-shot generalization)。

          研究人員建立了MIMIC-IT數(shù)據(jù)集,以支持更多的VLMs獲得理解真實(shí)世界的能力。

          下圖是兩種模型數(shù)據(jù)格式的比較:LLaVA-Instruct-150K vs MIMIC-IT


          (a) LLaVA-Instruct150K由單一圖像和相應(yīng)的僅有語(yǔ)言的語(yǔ)境信息(黃框部分)組成。

          (b) MIMIC-IT在輸入數(shù)據(jù)中容納了多個(gè)圖像或視頻,并支持多模態(tài)的語(yǔ)境信息,即把圖像/視頻和語(yǔ)言輸入都視為語(yǔ)境信息。

          同時(shí),研究人員提出了Sythus,這是一個(gè)用于生成多語(yǔ)言高質(zhì)量指令-答案對(duì)的自動(dòng)管道。

          在LLaVA提出的框架基礎(chǔ)上,研究人員利用ChatGPT來(lái)生成基于視覺(jué)內(nèi)容的指令-回應(yīng)對(duì)。

          為了確保生成的指令-回應(yīng)對(duì)的質(zhì)量,研究人員的數(shù)據(jù)管道將系統(tǒng)信息、視覺(jué)注釋和上下文中的例子作為ChatGPT的prompt。

          由于核心集的質(zhì)量影響到后續(xù)的數(shù)據(jù)收集過(guò)程,研究人員采用了一個(gè)冷啟動(dòng)策略。

          在冷啟動(dòng)階段,研究人員采用啟發(fā)式方法,僅通過(guò)系統(tǒng)消息和視覺(jué)注釋來(lái)提示ChatGPT收集上下文中的例子。

          這個(gè)階段只有在確定了滿(mǎn)意的語(yǔ)境中的例子后才會(huì)結(jié)束。

          在第四步,一旦獲得指令-反應(yīng)對(duì),數(shù)據(jù)管道將它們擴(kuò)展為中文(zh)、日文(ja)、西班牙文(es)、德文(de)、法文(fr)、韓文(ko)和阿拉伯語(yǔ)(ar)。


          Sythus概述。研究人員采用了一個(gè)冷啟動(dòng)階段來(lái)確定最佳的系統(tǒng)信息和語(yǔ)境中的例子,以便在給定的數(shù)據(jù)集中查詢(xún)指令-響應(yīng)對(duì)。

          隨后,Sythus跨越步驟1到4,生成了8種語(yǔ)言的高質(zhì)量指令-響應(yīng)對(duì)。

          下圖為MIMIC-IT與其他多模態(tài)指令數(shù)據(jù)集的比較。


          MIMICIT憑借以下特點(diǎn)脫穎而出:

          (1) 最大的視覺(jué)語(yǔ)言指令數(shù)據(jù)集。

          (2) 第一個(gè)包括視頻數(shù)據(jù)的指令數(shù)據(jù)集。

          (3) 支持多模態(tài)的上下文場(chǎng)景(數(shù)據(jù)格式見(jiàn)圖2)。

          (4) 支持八種語(yǔ)言,包括:英語(yǔ)、中文、西班牙語(yǔ)、日語(yǔ)、法語(yǔ)、德語(yǔ)、韓語(yǔ)和阿拉伯語(yǔ)。

          MIMIC-IT的數(shù)據(jù)源包括七個(gè)數(shù)據(jù)集:COCO, Spot-the-diff, ScanNetV2, VisualStorytelling, DenseCaption/Activity caption, TVCaption, and Ego4D。

          其中l(wèi)ang.表示語(yǔ)言,vis.表示視覺(jué)。

          下圖為多模態(tài)的語(yǔ)境中指令-反應(yīng)對(duì)的數(shù)據(jù)統(tǒng)計(jì)。


          (a)和(b),指令和回應(yīng)的根動(dòng)詞-名詞對(duì),圖中內(nèi)圈代表輸出回應(yīng)的根動(dòng)詞,外圈代表直接名詞。

          (c)指令和回應(yīng)的統(tǒng)計(jì),保留了25%的Ego4D指令,以使分布更均衡。


          上圖表現(xiàn)了Otter在不同場(chǎng)景下的反應(yīng)實(shí)例。

          在MIMIC-IT數(shù)據(jù)集上進(jìn)行訓(xùn)練后,Otter能夠?yàn)榍榫忱斫夂屯评?、用語(yǔ)境中示例學(xué)習(xí),以及自我視覺(jué)AI助手。

          Otter誕生

          研究者展示了MIMIC-IT數(shù)據(jù)集的各種應(yīng)用,以及在其上訓(xùn)練的視覺(jué)語(yǔ)言模型(VLM)的潛在能力。

          研究者首先介紹了Otter,一種使用MIMIC-IT數(shù)據(jù)集訓(xùn)練的上下文指令調(diào)優(yōu)模型。


          接下來(lái),研究人員還探討了在MIMIC-IT數(shù)據(jù)集上訓(xùn)練Otter的各種方法,并討論了可以有效使用Otter的許多場(chǎng)景

          - 場(chǎng)景理解和推理

          MIMIC-IT數(shù)據(jù)集包含大約280萬(wàn)個(gè)上下文指令-響應(yīng)對(duì),它們被結(jié)構(gòu)化為一個(gè)內(nèi)聚的模板,以便于完成各種任務(wù)。

          下面的模板包括圖像,用戶(hù)指令和模型生成的響應(yīng),利用人類(lèi)和助手角色標(biāo)簽,以實(shí)現(xiàn)用戶(hù)與助手的無(wú)縫交互。

          在MIMIC-IT數(shù)據(jù)集上訓(xùn)練Otter模型,可以讓其獲得不同的能力,這一點(diǎn)在LA和SD任務(wù)中得到了證明。

          在LA任務(wù)上的訓(xùn)練,Otter表現(xiàn)出卓越的場(chǎng)景理解力、推理能力和多輪對(duì)話能力。同時(shí),在SD任務(wù)中,可以熟練地發(fā)現(xiàn)日常場(chǎng)景中的一般差異或微妙區(qū)別。

          如圖,在MIMIC-IT數(shù)據(jù)集上訓(xùn)練后Otter的回應(yīng),突出了它在多輪對(duì)話中理解和推理的能力。

          - 用上下文示例學(xué)習(xí)

          正如前面提到的,關(guān)于組織視覺(jué)語(yǔ)言在上下文實(shí)例的概念,研究人員演示了Otter模型在LA-T2T任務(wù)訓(xùn)練后遵循上下文間指令的能力。對(duì)于其他任務(wù),輸入數(shù)據(jù)的組織格式如下:


          - 自我視覺(jué)理解

          MIMIC-IT數(shù)據(jù)集的一個(gè)顯著特點(diǎn)是,包含了一個(gè)第一人稱(chēng)的視頻和連續(xù)圖像的綜合集合,來(lái)自IEP、E4D場(chǎng)景。

          在IEP場(chǎng)景中,內(nèi)容強(qiáng)調(diào)在室內(nèi)環(huán)境中的理解和規(guī)劃,包含了旨在指導(dǎo)模型根據(jù)室內(nèi)布局進(jìn)行事件規(guī)劃的指令和響應(yīng)。

          另一方面,E4D場(chǎng)景專(zhuān)門(mén)為第一人稱(chēng)增強(qiáng)現(xiàn)實(shí)(AR)頭顯助理應(yīng)用定制了指令和響應(yīng)。

          根據(jù)這部分?jǐn)?shù)據(jù),研究人員訓(xùn)練了一個(gè)自我視覺(jué)助手,稱(chēng)為Otter-E,專(zhuān)門(mén)為AR頭顯應(yīng)用設(shè)計(jì)的。

          MIMIC-IT增強(qiáng)了該模型從第一人稱(chēng)視角感知場(chǎng)景的能力,為即將到來(lái)的任務(wù)制定策略,并為AR耳機(jī)用戶(hù)提供有價(jià)值的見(jiàn)解和建議。

          因此,Otter-E模型成為AR頭顯的一個(gè)特殊和有遠(yuǎn)見(jiàn)的視覺(jué)語(yǔ)言模型,為開(kāi)創(chuàng)性的沉浸式體驗(yàn)鋪平道路。

          實(shí)驗(yàn)評(píng)估

          如下表,研究人員利用MMAGIBench框架對(duì)視覺(jué)語(yǔ)言模型的感知和推理能力的廣泛評(píng)估。

          Otter通過(guò)在感知和推理任務(wù)中實(shí)現(xiàn)最高的平均準(zhǔn)確性,優(yōu)于所有基線模型。


          目前視覺(jué)語(yǔ)言模型的評(píng)估指標(biāo),如VQAv2,在穩(wěn)健性方面存在缺陷。例如,VQAv2主要評(píng)估單字或短語(yǔ)的反應(yīng),而許多模型則產(chǎn)生句子輸出。

          為了彌補(bǔ)這一差距,研究人員通過(guò)要求ChatGPT將其標(biāo)簽預(yù)測(cè),與每個(gè)輸入的真實(shí)標(biāo)簽進(jìn)行比較來(lái)評(píng)估這些模型。如果ChatGPT的反應(yīng)表明預(yù)測(cè)與相應(yīng)的標(biāo)簽一致,則認(rèn)為測(cè)試樣本是正確的。

          如圖,Otter 在視頻理解方面的表現(xiàn)優(yōu)于基線模型。(b)人類(lèi)評(píng)估比較。Otter 展示了優(yōu)越的實(shí)用性和一致性。(c)上下文學(xué)習(xí)評(píng)估中的少量鏡頭。Otter 優(yōu)于 OpenFlamingo 作為一個(gè)更好的語(yǔ)境和零鏡頭學(xué)習(xí)者。


          作者介紹

          Li Bo


          Li Bo是南洋理工大學(xué)計(jì)算機(jī)系一年級(jí)博士生,導(dǎo)師是劉子緯。他熱衷的深度學(xué)習(xí)研究話題包括:

          基礎(chǔ)模型:穩(wěn)定擴(kuò)散,GPT,它們似乎有望將具有真正智能的人工智能投入實(shí)際應(yīng)用。

          具身AI: 一種通過(guò)互動(dòng)和探索學(xué)習(xí)解決環(huán)境中具有挑戰(zhàn)性任務(wù)的自主智能體。

          這些都是登月計(jì)劃的狂野夢(mèng)想,也是Li將長(zhǎng)期關(guān)注的問(wèn)題。目前他的第一步研究課題是聚集于真實(shí)世界的場(chǎng)景中的計(jì)算機(jī)視覺(jué)和基礎(chǔ)模型的新興能力。

          Yuanhan Zhang (張?jiān)?


          張?jiān)悄涎罄砉さ牟┦可?,?dǎo)師也是劉子緯。他的研究興趣在于計(jì)算機(jī)視覺(jué)和深度學(xué)習(xí)。特別是,對(duì)表征學(xué)習(xí)和可轉(zhuǎn)移性感興趣。

          Ziwei Liu(劉子緯)


          劉子緯,新加坡南洋理工大學(xué)助理教授,并獲得南洋學(xué)者稱(chēng)號(hào)(Nanyang Assistant Professor)。他的研究興趣包括計(jì)算機(jī)視覺(jué)、機(jī)器學(xué)習(xí)與計(jì)算機(jī)圖形學(xué)。

          參考資料:

          https://.reddit.com/r/MachineLearning/comments/1460dsr/otter_is_a_multimodal_model_developed_on/

          https://otter-ntu.github.io/

          https://arxiv.org/pdf/2306.05425.pdf

          免責(zé)聲明:本文由用戶(hù)上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

          猜你喜歡

          最新文章