日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>房產(chǎn) >內(nèi)容

          當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃

          2023-12-14 08:48:03來源:
          導(dǎo)讀 原標(biāo)題:當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃機(jī)器之心專欄機(jī)器之心編輯部 來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa...

          原標(biāo)題:當(dāng)GPT-4V充當(dāng)機(jī)器人大腦,可能你都沒AI會規(guī)劃

          機(jī)器之心專欄

          機(jī)器之心編輯部

          來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa」(全稱 Robotic Vision-Language Planning)算法,其能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。

          GPT-4V 已經(jīng)能幫我們設(shè)計網(wǎng)站代碼,控制瀏覽器,這些應(yīng)用集中在虛擬數(shù)字世界中。假如我們把 GPT-4V 帶入現(xiàn)實世界,讓它作為控制機(jī)器人的大腦,會有什么有趣的結(jié)果呢?

          最近,來自清華大學(xué)交叉信息研究院的研究者提出「ViLa」算法,實現(xiàn)了讓 GPT-4V 走進(jìn)物理世界中,為機(jī)器人操作日常生活物品提供任務(wù)規(guī)劃。

          ViLa 全稱是 Robotic Vision-Language Planning,它利用 GPT-4V 在視覺和語言兩個模態(tài)上做聯(lián)合推理的能力,把抽象的語言指令分解為一系列可執(zhí)行的步驟。ViLa 最讓人驚喜的是它展現(xiàn)出對物理世界中常識的理解,而這是很多之前基于大語言模型(LLM)的機(jī)器人任務(wù)規(guī)劃算法所欠缺的。

          比如在下面這個視頻中,研究人員讓機(jī)器人拿出擱板上的漫威模型(鋼鐵俠)。ViLa 能理解這個場景中物體的復(fù)雜空間位置關(guān)系,即紙杯和可樂罐擋住了鋼鐵俠,要拿出鋼鐵俠,則必須先拿走紙杯和可樂罐。

          又比如在下面這個視頻中,研究人員讓機(jī)器人為上美術(shù)課的孩子們整理出一個桌面區(qū)域。ViLa 能根據(jù)這個場景中的剪紙,推斷出現(xiàn)在上課所需的工具是剪刀,把其它危險物品,比如螺絲刀和水果刀放入收納盒中。

          可以看出,ViLa 具有像人類一樣的常識,能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。

          • 論文地址:https://arxiv.org/pdf/2311.17842.pdf
          • 論文主頁:https://robot-vila.github.io/
          • 論文視頻:https://.youtube.com/watch?v=t8pPZ46xtuc

          接下來,該研究詳細(xì)介紹了 ViLa 這項研究成果。

          方法介紹

          ViLa 使用了視覺語言大模型 (VLM) 來做機(jī)器人的任務(wù)規(guī)劃。如今的 VLM 在圖像和語言兩個模態(tài)上都展現(xiàn)出前所未有的理解和推理能力。將 VLM 應(yīng)用到機(jī)器人任務(wù)中,它能基于當(dāng)前環(huán)境的視覺觀測,結(jié)合自己豐富的世界知識進(jìn)行推理。作者團(tuán)隊提出了 ViLa 算法,主張直接使用視覺語言大模型(如 GPT-4V),將高級抽象指令分解為一系列低級可執(zhí)行技能。

          給定一條語言指令和當(dāng)前的視覺觀測圖像,ViLa 利用 GPT-4V 通過鏈?zhǔn)剿季S推理來理解環(huán)境場景,隨后生成多步的計劃。接著,這個計劃的第一步由一個基本策略來執(zhí)行。最后,已經(jīng)執(zhí)行的步驟被添加到已完成的計劃中,使得在動態(tài)環(huán)境中實現(xiàn)閉環(huán)規(guī)劃方法。

          GPT-4V 由于經(jīng)過大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)的訓(xùn)練,展現(xiàn)出了卓越的多樣性和極強(qiáng)的泛化能力。這些特性使得它特別擅長處理論文中提出的開放世界場景。此外,作者團(tuán)隊發(fā)現(xiàn),即使是在零樣本(Zero-Shot)學(xué)習(xí)模式下運(yùn)行,由 GPT-4V 驅(qū)動的 ViLa 也能夠解決多種具有挑戰(zhàn)性的規(guī)劃問題。這顯著減少了之前方法中所需的提示工程。

          實驗

          ViLa 在現(xiàn)實世界和模擬環(huán)境中都展示了以零樣本方式解決各種日常操作任務(wù)的能力,有效處理各種開放集指令和物體對象。作者團(tuán)隊通過大量實驗證明了 ViLa 的優(yōu)勢:1. ViLa 能深刻理解視覺世界中的常識,2. ViLa 支持靈活的多模態(tài)目標(biāo)指定方法,3. ViLa 自然地支持視覺反饋和閉環(huán)控制。

          A. ViLa 能深刻理解視覺世界中的常識

          語言和圖像作為不同的信號類型,各具獨(dú)特性質(zhì):語言由人類生成,富含語義,但在表達(dá)全面信息方面有限;相比之下,圖像作為自然信號,包含細(xì)致的低層次特征,一張圖像便能夠捕捉場景的全部信息。在難以用語言簡單概括的復(fù)雜場景下,這種差異尤為突出。通過將視覺圖片直接結(jié)合到推理過程中,ViLa 可以理解視覺世界的常識知識,擅長處理需要全面了解空間布局或物體屬性的復(fù)雜任務(wù)。

          空間布局

          用簡單的語言描述復(fù)雜的空間布局,尤其是物體定位、位置關(guān)系和環(huán)境限制,是非常困難的。通過直接將視覺融入推理過程,ViLa 可以精確地識別物體在場景中的位置,以及它們之間的關(guān)系。

          在 “拿可樂罐” 任務(wù)中,ViLa 發(fā)現(xiàn)可樂罐不在視線中,于是聰明地打開了冰箱并找到了它。而基線方法則會在可樂罐不在視線中的情況下給出” 拿起可樂罐 “的錯誤指令。

          在 “拿空盤子” 任務(wù)中,ViLa 知道在拿起藍(lán)色盤子之前,需要先把它上面的蘋果和香蕉移走。而基線方法則忽視了盤子上的物體,直接給出” 拿起藍(lán)色盤子 “的錯誤指令。

          物體屬性

          物體的定義涵蓋多個屬性,包括形狀、顏色、材質(zhì)、功能等。然而,自然語言的表達(dá)能力有限,因此在全面?zhèn)鬟_(dá)這些屬性方面顯得笨拙。此外,物體的屬性與特定任務(wù)密切相關(guān)。以上原因使得過去的算法難以處理需要深入理解復(fù)雜物體屬性的場景。然而,得益于對視覺和語言的聯(lián)合推理,ViLa 對于物體在特定場景中的屬性有深入的理解。

          在 “準(zhǔn)備美術(shù)課” 任務(wù)中,ViLa 認(rèn)為螺絲刀和水果刀是危險物品,于是移走了它們;考慮到桌上的剪紙,ViLa 認(rèn)為剪刀對美術(shù)課是必要的物品,于是留下了它。而基線方法則忽視了桌上的剪紙和美術(shù)課這一特定場景,認(rèn)為剪刀也是危險物品,選擇將其移走。

          在 “挑選新鮮水果” 任務(wù)中,ViLa 可以精確地挑選出新鮮且完整的水果。而基線方法認(rèn)為剝了一半的橘子和腐爛的香蕉都是完整且新鮮的水果。

          作者團(tuán)隊在 8 個相關(guān)任務(wù)上進(jìn)行了充分的定量實驗。如表一所示,ViLa 在理解空間布局和物體屬性任務(wù)上顯著超過了基線方法。

          B. 多模態(tài)目標(biāo)指定

          ViLa 支持靈活的多模態(tài)目標(biāo)指定方法。ViLa 不僅能夠利用語言指令,還能夠利用多種形式的圖像作為目標(biāo),甚至利用語言和圖像的混合形式來定義目標(biāo)。

          視頻中的四個任務(wù)分別表明:

          作者團(tuán)隊在這四個任務(wù)上進(jìn)行了定量實驗。如表二所示,ViLa 在所有任務(wù)中均表現(xiàn)出了強(qiáng)大的識別多模態(tài)目標(biāo)的能力。

          C. 視覺反饋

          ViLa 以直觀、自然的方式有效利用視覺反饋,在動態(tài)環(huán)境中實現(xiàn)魯棒的閉環(huán)規(guī)劃。

          • 在 “堆木塊” 任務(wù)中,ViLa 檢測出了執(zhí)行基本技能時的失敗,于是重新執(zhí)行了一遍基本技能。
          • 在 “放薯片” 任務(wù)中,ViLa 意識到了執(zhí)行過程中人的干擾。
          • 在 “找貓糧” 任務(wù)中,ViLa 可以不斷地打開抽屜 / 柜子來尋找貓糧,直到找到。
          • 此外,ViLa 可以完成需要人機(jī)交互的任務(wù),等待人握住可樂罐之后才松開夾爪。

          作者團(tuán)隊在這四個任務(wù)上進(jìn)行了定量實驗。如表三中所示,通過自然地結(jié)合視覺反饋,閉環(huán)控制的 ViLa 的表現(xiàn)顯著強(qiáng)于開環(huán)控制。

          D. 模擬環(huán)境實驗

          在模擬環(huán)境中,ViLa 可以按照高級語言指令的指示,將桌子上的物體重新組織成特定的排列。

          如表四中所示,ViLa 在模擬環(huán)境中的表現(xiàn)也顯著超過了基線方法。

          了解更多內(nèi)容,請參考原論文。

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

          猜你喜歡

          最新文章