機(jī)器之心專欄
機(jī)器之心編輯部
來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa」(全稱 Robotic Vision-Language Planning)算法,其能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。
GPT-4V 已經(jīng)能幫我們設(shè)計網(wǎng)站代碼,控制瀏覽器,這些應(yīng)用集中在虛擬數(shù)字世界中。假如我們把 GPT-4V 帶入現(xiàn)實世界,讓它作為控制機(jī)器人的大腦,會有什么有趣的結(jié)果呢?
最近,來自清華大學(xué)交叉信息研究院的研究者提出「ViLa」算法,實現(xiàn)了讓 GPT-4V 走進(jìn)物理世界中,為機(jī)器人操作日常生活物品提供任務(wù)規(guī)劃。
ViLa 全稱是 Robotic Vision-Language Planning,它利用 GPT-4V 在視覺和語言兩個模態(tài)上做聯(lián)合推理的能力,把抽象的語言指令分解為一系列可執(zhí)行的步驟。ViLa 最讓人驚喜的是它展現(xiàn)出對物理世界中常識的理解,而這是很多之前基于大語言模型(LLM)的機(jī)器人任務(wù)規(guī)劃算法所欠缺的。
比如在下面這個視頻中,研究人員讓機(jī)器人拿出擱板上的漫威模型(鋼鐵俠)。ViLa 能理解這個場景中物體的復(fù)雜空間位置關(guān)系,即紙杯和可樂罐擋住了鋼鐵俠,要拿出鋼鐵俠,則必須先拿走紙杯和可樂罐。
又比如在下面這個視頻中,研究人員讓機(jī)器人為上美術(shù)課的孩子們整理出一個桌面區(qū)域。ViLa 能根據(jù)這個場景中的剪紙,推斷出現(xiàn)在上課所需的工具是剪刀,把其它危險物品,比如螺絲刀和水果刀放入收納盒中。
可以看出,ViLa 具有像人類一樣的常識,能在非常復(fù)雜的環(huán)境中控制機(jī)器人,為機(jī)器人提供任務(wù)規(guī)劃。
接下來,該研究詳細(xì)介紹了 ViLa 這項研究成果。
方法介紹
ViLa 使用了視覺語言大模型 (VLM) 來做機(jī)器人的任務(wù)規(guī)劃。如今的 VLM 在圖像和語言兩個模態(tài)上都展現(xiàn)出前所未有的理解和推理能力。將 VLM 應(yīng)用到機(jī)器人任務(wù)中,它能基于當(dāng)前環(huán)境的視覺觀測,結(jié)合自己豐富的世界知識進(jìn)行推理。作者團(tuán)隊提出了 ViLa 算法,主張直接使用視覺語言大模型(如 GPT-4V),將高級抽象指令分解為一系列低級可執(zhí)行技能。
給定一條語言指令和當(dāng)前的視覺觀測圖像,ViLa 利用 GPT-4V 通過鏈?zhǔn)剿季S推理來理解環(huán)境場景,隨后生成多步的計劃。接著,這個計劃的第一步由一個基本策略來執(zhí)行。最后,已經(jīng)執(zhí)行的步驟被添加到已完成的計劃中,使得在動態(tài)環(huán)境中實現(xiàn)閉環(huán)規(guī)劃方法。
GPT-4V 由于經(jīng)過大規(guī)?;ヂ?lián)網(wǎng)數(shù)據(jù)的訓(xùn)練,展現(xiàn)出了卓越的多樣性和極強(qiáng)的泛化能力。這些特性使得它特別擅長處理論文中提出的開放世界場景。此外,作者團(tuán)隊發(fā)現(xiàn),即使是在零樣本(Zero-Shot)學(xué)習(xí)模式下運(yùn)行,由 GPT-4V 驅(qū)動的 ViLa 也能夠解決多種具有挑戰(zhàn)性的規(guī)劃問題。這顯著減少了之前方法中所需的提示工程。
實驗
ViLa 在現(xiàn)實世界和模擬環(huán)境中都展示了以零樣本方式解決各種日常操作任務(wù)的能力,有效處理各種開放集指令和物體對象。作者團(tuán)隊通過大量實驗證明了 ViLa 的優(yōu)勢:1. ViLa 能深刻理解視覺世界中的常識,2. ViLa 支持靈活的多模態(tài)目標(biāo)指定方法,3. ViLa 自然地支持視覺反饋和閉環(huán)控制。
A. ViLa 能深刻理解視覺世界中的常識
語言和圖像作為不同的信號類型,各具獨(dú)特性質(zhì):語言由人類生成,富含語義,但在表達(dá)全面信息方面有限;相比之下,圖像作為自然信號,包含細(xì)致的低層次特征,一張圖像便能夠捕捉場景的全部信息。在難以用語言簡單概括的復(fù)雜場景下,這種差異尤為突出。通過將視覺圖片直接結(jié)合到推理過程中,ViLa 可以理解視覺世界的常識知識,擅長處理需要全面了解空間布局或物體屬性的復(fù)雜任務(wù)。
空間布局
用簡單的語言描述復(fù)雜的空間布局,尤其是物體定位、位置關(guān)系和環(huán)境限制,是非常困難的。通過直接將視覺融入推理過程,ViLa 可以精確地識別物體在場景中的位置,以及它們之間的關(guān)系。
在 “拿可樂罐” 任務(wù)中,ViLa 發(fā)現(xiàn)可樂罐不在視線中,于是聰明地打開了冰箱并找到了它。而基線方法則會在可樂罐不在視線中的情況下給出” 拿起可樂罐 “的錯誤指令。
在 “拿空盤子” 任務(wù)中,ViLa 知道在拿起藍(lán)色盤子之前,需要先把它上面的蘋果和香蕉移走。而基線方法則忽視了盤子上的物體,直接給出” 拿起藍(lán)色盤子 “的錯誤指令。
物體屬性
物體的定義涵蓋多個屬性,包括形狀、顏色、材質(zhì)、功能等。然而,自然語言的表達(dá)能力有限,因此在全面?zhèn)鬟_(dá)這些屬性方面顯得笨拙。此外,物體的屬性與特定任務(wù)密切相關(guān)。以上原因使得過去的算法難以處理需要深入理解復(fù)雜物體屬性的場景。然而,得益于對視覺和語言的聯(lián)合推理,ViLa 對于物體在特定場景中的屬性有深入的理解。
在 “準(zhǔn)備美術(shù)課” 任務(wù)中,ViLa 認(rèn)為螺絲刀和水果刀是危險物品,于是移走了它們;考慮到桌上的剪紙,ViLa 認(rèn)為剪刀對美術(shù)課是必要的物品,于是留下了它。而基線方法則忽視了桌上的剪紙和美術(shù)課這一特定場景,認(rèn)為剪刀也是危險物品,選擇將其移走。
在 “挑選新鮮水果” 任務(wù)中,ViLa 可以精確地挑選出新鮮且完整的水果。而基線方法認(rèn)為剝了一半的橘子和腐爛的香蕉都是完整且新鮮的水果。
作者團(tuán)隊在 8 個相關(guān)任務(wù)上進(jìn)行了充分的定量實驗。如表一所示,ViLa 在理解空間布局和物體屬性任務(wù)上顯著超過了基線方法。
B. 多模態(tài)目標(biāo)指定
ViLa 支持靈活的多模態(tài)目標(biāo)指定方法。ViLa 不僅能夠利用語言指令,還能夠利用多種形式的圖像作為目標(biāo),甚至利用語言和圖像的混合形式來定義目標(biāo)。
視頻中的四個任務(wù)分別表明:
作者團(tuán)隊在這四個任務(wù)上進(jìn)行了定量實驗。如表二所示,ViLa 在所有任務(wù)中均表現(xiàn)出了強(qiáng)大的識別多模態(tài)目標(biāo)的能力。
C. 視覺反饋
ViLa 以直觀、自然的方式有效利用視覺反饋,在動態(tài)環(huán)境中實現(xiàn)魯棒的閉環(huán)規(guī)劃。
作者團(tuán)隊在這四個任務(wù)上進(jìn)行了定量實驗。如表三中所示,通過自然地結(jié)合視覺反饋,閉環(huán)控制的 ViLa 的表現(xiàn)顯著強(qiáng)于開環(huán)控制。
D. 模擬環(huán)境實驗
在模擬環(huán)境中,ViLa 可以按照高級語言指令的指示,將桌子上的物體重新組織成特定的排列。
如表四中所示,ViLa 在模擬環(huán)境中的表現(xiàn)也顯著超過了基線方法。
了解更多內(nèi)容,請參考原論文。