谷歌可能不太符合其對(duì)虛擬和增強(qiáng)現(xiàn)實(shí)產(chǎn)品的承諾,但幾乎具有諷刺意味的是,它一直在開發(fā)可以推動(dòng)這些市場發(fā)展的技術(shù)。谷歌特別在計(jì)算機(jī)視覺和機(jī)器學(xué)習(xí)方面投入了大量資金,它們不需要卸載到運(yùn)行在云上的強(qiáng)大服務(wù)器上。它的最新研究項(xiàng)目,如果它真的成功的話,可以讓手部和手指追蹤變得像使用相機(jī)和智能手機(jī)一樣經(jīng)濟(jì)實(shí)惠。
許多 VR 和 AR 系統(tǒng)依靠頭部跟蹤來定位和定位數(shù)字世界中的用戶,但這幾乎是它所能做的。在嘗試在虛擬世界中重現(xiàn)正常的手部運(yùn)動(dòng)和手勢(shì)時(shí),大多數(shù)系統(tǒng)都需要額外的傳感器、攝像頭和設(shè)備。相比之下,Google Research 的 MediaPipe 框架只需要一部智能手機(jī)。
與任何谷歌魔術(shù)一樣,秘密與機(jī)器學(xué)習(xí)和人工智能有關(guān)。研究人員試圖將這個(gè)過程濃縮為更容易理解的概念,但這一切都?xì)w結(jié)為使用計(jì)算機(jī)視覺首先檢測(cè)和分析手掌。其他一切,包括手指的位置,都是根據(jù)手的初始邊界框計(jì)算和預(yù)測(cè)的。MediaPipe 然后繼續(xù)識(shí)別由早期過程產(chǎn)生的 21 個(gè) 3D 關(guān)鍵點(diǎn)的手勢(shì)。
使所有這些更令人印象深刻的是執(zhí)行所有這些操作所需的硬件。MediaPipe 的目標(biāo)是在設(shè)備上實(shí)時(shí)提供手勢(shì)識(shí)別系統(tǒng),在本例中為智能手機(jī)。除了隱私和性能影響之外,它還簡化了在任何設(shè)備上進(jìn)行準(zhǔn)確手部識(shí)別的要求。
這種框架的應(yīng)用實(shí)際上可能相當(dāng)驚人。智能手機(jī)無需像 Project Soli 這樣的專用傳感器即可實(shí)現(xiàn)手勢(shì)控制。無論如何,智能眼鏡和 XR 耳機(jī)都可以使用它們已有的相同攝像頭和處理器。剩下的就是讓谷歌開發(fā)真正的 VR 和 AR 生態(tài)系統(tǒng),并在未來幾年堅(jiān)持下去。