您的位置：首頁>房產(chǎn) >內(nèi)容

當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃

2023-12-14 08:48:03來源：

導(dǎo)讀原標(biāo)題：當(dāng)GPT-4V充當(dāng)機(jī)器人大腦，可能你都沒AI會規(guī)劃機(jī)器之心專欄機(jī)器之心編輯部來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa...

機(jī)器之心專欄

機(jī)器之心編輯部

來自清華大學(xué)交叉信息研究院的研究者提出了「ViLa」（全稱 Robotic Vision-Language Planning）算法，其能在非常復(fù)雜的環(huán)境中控制機(jī)器人，為機(jī)器人提供任務(wù)規(guī)劃。

GPT-4V 已經(jīng)能幫我們設(shè)計網(wǎng)站代碼，控制瀏覽器，這些應(yīng)用集中在虛擬數(shù)字世界中。假如我們把 GPT-4V 帶入現(xiàn)實世界，讓它作為控制機(jī)器人的大腦，會有什么有趣的結(jié)果呢？

最近，來自清華大學(xué)交叉信息研究院的研究者提出「ViLa」算法，實現(xiàn)了讓 GPT-4V 走進(jìn)物理世界中，為機(jī)器人操作日常生活物品提供任務(wù)規(guī)劃。

ViLa 全稱是 Robotic Vision-Language Planning，它利用 GPT-4V 在視覺和語言兩個模態(tài)上做聯(lián)合推理的能力，把抽象的語言指令分解為一系列可執(zhí)行的步驟。ViLa 最讓人驚喜的是它展現(xiàn)出對物理世界中常識的理解，而這是很多之前基于大語言模型（LLM）的機(jī)器人任務(wù)規(guī)劃算法所欠缺的。

比如在下面這個視頻中，研究人員讓機(jī)器人拿出擱板上的漫威模型（鋼鐵俠）。ViLa 能理解這個場景中物體的復(fù)雜空間位置關(guān)系，即紙杯和可樂罐擋住了鋼鐵俠，要拿出鋼鐵俠，則必須先拿走紙杯和可樂罐。

又比如在下面這個視頻中，研究人員讓機(jī)器人為上美術(shù)課的孩子們整理出一個桌面區(qū)域。ViLa 能根據(jù)這個場景中的剪紙，推斷出現(xiàn)在上課所需的工具是剪刀，把其它危險物品，比如螺絲刀和水果刀放入收納盒中。

可以看出，ViLa 具有像人類一樣的常識，能在非常復(fù)雜的環(huán)境中控制機(jī)器人，為機(jī)器人提供任務(wù)規(guī)劃。

論文地址：https://arxiv.org/pdf/2311.17842.pdf
論文主頁：https://robot-vila.github.io/
論文視頻：https://.youtube.com/watch?v=t8pPZ46xtuc

接下來，該研究詳細(xì)介紹了 ViLa 這項研究成果。

方法介紹

ViLa 使用了視覺語言大模型 (VLM) 來做機(jī)器人的任務(wù)規(guī)劃。如今的 VLM 在圖像和語言兩個模態(tài)上都展現(xiàn)出前所未有的理解和推理能力。將 VLM 應(yīng)用到機(jī)器人任務(wù)中，它能基于當(dāng)前環(huán)境的視覺觀測，結(jié)合自己豐富的世界知識進(jìn)行推理。作者團(tuán)隊提出了 ViLa 算法，主張直接使用視覺語言大模型（如 GPT-4V），將高級抽象指令分解為一系列低級可執(zhí)行技能。

給定一條語言指令和當(dāng)前的視覺觀測圖像，ViLa 利用 GPT-4V 通過鏈?zhǔn)剿季S推理來理解環(huán)境場景，隨后生成多步的計劃。接著，這個計劃的第一步由一個基本策略來執(zhí)行。最后，已經(jīng)執(zhí)行的步驟被添加到已完成的計劃中，使得在動態(tài)環(huán)境中實現(xiàn)閉環(huán)規(guī)劃方法。

GPT-4V 由于經(jīng)過大規(guī)?；ヂ?lián)網(wǎng)數(shù)據(jù)的訓(xùn)練，展現(xiàn)出了卓越的多樣性和極強(qiáng)的泛化能力。這些特性使得它特別擅長處理論文中提出的開放世界場景。此外，作者團(tuán)隊發(fā)現(xiàn)，即使是在零樣本（Zero-Shot）學(xué)習(xí)模式下運(yùn)行，由 GPT-4V 驅(qū)動的 ViLa 也能夠解決多種具有挑戰(zhàn)性的規(guī)劃問題。這顯著減少了之前方法中所需的提示工程。

實驗

ViLa 在現(xiàn)實世界和模擬環(huán)境中都展示了以零樣本方式解決各種日常操作任務(wù)的能力，有效處理各種開放集指令和物體對象。作者團(tuán)隊通過大量實驗證明了 ViLa 的優(yōu)勢：1. ViLa 能深刻理解視覺世界中的常識，2. ViLa 支持靈活的多模態(tài)目標(biāo)指定方法，3. ViLa 自然地支持視覺反饋和閉環(huán)控制。

A. ViLa 能深刻理解視覺世界中的常識

語言和圖像作為不同的信號類型，各具獨(dú)特性質(zhì)：語言由人類生成，富含語義，但在表達(dá)全面信息方面有限；相比之下，圖像作為自然信號，包含細(xì)致的低層次特征，一張圖像便能夠捕捉場景的全部信息。在難以用語言簡單概括的復(fù)雜場景下，這種差異尤為突出。通過將視覺圖片直接結(jié)合到推理過程中，ViLa 可以理解視覺世界的常識知識，擅長處理需要全面了解空間布局或物體屬性的復(fù)雜任務(wù)。

空間布局

用簡單的語言描述復(fù)雜的空間布局，尤其是物體定位、位置關(guān)系和環(huán)境限制，是非常困難的。通過直接將視覺融入推理過程，ViLa 可以精確地識別物體在場景中的位置，以及它們之間的關(guān)系。

在 “拿可樂罐” 任務(wù)中，ViLa 發(fā)現(xiàn)可樂罐不在視線中，于是聰明地打開了冰箱并找到了它。而基線方法則會在可樂罐不在視線中的情況下給出” 拿起可樂罐 “的錯誤指令。

在 “拿空盤子” 任務(wù)中，ViLa 知道在拿起藍(lán)色盤子之前，需要先把它上面的蘋果和香蕉移走。而基線方法則忽視了盤子上的物體，直接給出” 拿起藍(lán)色盤子 “的錯誤指令。

物體屬性

物體的定義涵蓋多個屬性，包括形狀、顏色、材質(zhì)、功能等。然而，自然語言的表達(dá)能力有限，因此在全面?zhèn)鬟_(dá)這些屬性方面顯得笨拙。此外，物體的屬性與特定任務(wù)密切相關(guān)。以上原因使得過去的算法難以處理需要深入理解復(fù)雜物體屬性的場景。然而，得益于對視覺和語言的聯(lián)合推理，ViLa 對于物體在特定場景中的屬性有深入的理解。

在 “準(zhǔn)備美術(shù)課” 任務(wù)中，ViLa 認(rèn)為螺絲刀和水果刀是危險物品，于是移走了它們；考慮到桌上的剪紙，ViLa 認(rèn)為剪刀對美術(shù)課是必要的物品，于是留下了它。而基線方法則忽視了桌上的剪紙和美術(shù)課這一特定場景，認(rèn)為剪刀也是危險物品，選擇將其移走。

在 “挑選新鮮水果” 任務(wù)中，ViLa 可以精確地挑選出新鮮且完整的水果。而基線方法認(rèn)為剝了一半的橘子和腐爛的香蕉都是完整且新鮮的水果。

作者團(tuán)隊在 8 個相關(guān)任務(wù)上進(jìn)行了充分的定量實驗。如表一所示，ViLa 在理解空間布局和物體屬性任務(wù)上顯著超過了基線方法。