今天晚上,OpenAI的CEO Sam Altman突然放出了大家期待已久的大招:
ChatGPT將在未來(lái)幾周內(nèi)開(kāi)放語(yǔ)音和視覺(jué)功能,也就是官方形容的,ChatGPT現(xiàn)在能看,能聽(tīng),能說(shuō)了。
并且放出了一個(gè)非常直觀的視頻,展示ChatGPT的視覺(jué)能力
自動(dòng)播放AI相關(guān)的自媒體迅速行動(dòng)起來(lái)?yè)専狳c(diǎn),這是難得的爆炸新聞,還有官方的視頻素材,(可惜TechVerse今天推送過(guò)文章,所以只能在今天凌晨發(fā)出這篇文章)。
但是,在無(wú)法第一時(shí)間搶熱點(diǎn)的焦慮中度過(guò)一段時(shí)間后,我發(fā)現(xiàn),除了自媒體們,大家并沒(méi)有想象的激動(dòng),我也沒(méi)有在朋友圈看到刷屏的自行車(chē)。沒(méi)有了轉(zhuǎn)發(fā)的“魔法”,“革命”,”太強(qiáng)了“, AI也開(kāi)始經(jīng)歷Web3的旅程,變得沒(méi)人關(guān)心了。
這其中的原因,被大家討論過(guò)很多遍了,過(guò)高的預(yù)期和今天AI的能力限制的矛盾,讓越來(lái)越多的人不再那么興奮,可是今天這樣的大招都沒(méi)能掀起刷屏,也著實(shí)讓人驚訝,AI涼的速度之快。但是,科技的浪潮就是在這樣的泡沫和低谷中交替前進(jìn)的,今天發(fā)布的新功能,可能正是解鎖LLM場(chǎng)景的一把鑰匙:
概括一下ChatGPT發(fā)布的功能:
OpenAI正在ChatGPT中推出新的語(yǔ)音和圖像功能。這些新功能提供了更直觀的交互方式,允許用戶(hù)與ChatGPT進(jìn)行語(yǔ)音對(duì)話(huà)或向其展示正在討論的內(nèi)容。
主要值得關(guān)注的點(diǎn)包括:
用戶(hù)現(xiàn)在可以與ChatGPT進(jìn)行語(yǔ)音交談,它可以回復(fù)你。這個(gè)新功能由文本轉(zhuǎn)語(yǔ)音模型提供支持,可以從文本和少量語(yǔ)音樣本生成逼真的語(yǔ)音。
用戶(hù)現(xiàn)在可以在ChatGPT中展示一張或多張圖像,以獲取相關(guān)幫助和見(jiàn)解。在移動(dòng)應(yīng)用上,可以使用繪圖工具聚焦圖像的特定部分。這些視覺(jué)能力由多模態(tài)GPT-3.5和GPT-4提供支持。
OpenAI正逐步推出這些新功能,以進(jìn)行改進(jìn)和風(fēng)險(xiǎn)緩解,并準(zhǔn)備用戶(hù)使用更強(qiáng)大的系統(tǒng)??紤]到語(yǔ)音和視覺(jué)能力帶來(lái)的新風(fēng)險(xiǎn),這種漸進(jìn)策略尤為重要。
其中,官方給出了一些可能的應(yīng)用場(chǎng)景:
當(dāng)旅行時(shí),拍下一處地標(biāo)的圖片,并就其有趣之處進(jìn)行語(yǔ)音交談。
在家時(shí),拍下冰箱和食品柜的圖片,弄清做什么晚餐(并提出后續(xù)問(wèn)題獲取步驟式食譜)。
晚餐后,通過(guò)拍照、圈畫(huà)題目,并與孩子共享提示,幫助孩子解決數(shù)學(xué)問(wèn)題。
也包括視頻中的案例,指導(dǎo)用戶(hù)選擇正確的工具調(diào)節(jié)自行車(chē)座椅的高度。
這些場(chǎng)景,實(shí)際上就是一個(gè)原生的AR AI助手需要的功能!如果用戶(hù)佩戴一副有攝像頭的智能眼鏡,今天,LLM第一次可以就像一個(gè)萬(wàn)能的助理,通過(guò)自己的眼睛和用戶(hù)分享同樣的信息,并且直接提供幫助。而語(yǔ)音的交互,可能更好的在這種場(chǎng)景實(shí)現(xiàn)輸入和輸出。
隨著今年下半年Meta Quest3的發(fā)貨和明年Vision Pro的發(fā)布,這也許會(huì)讓LLM在XR設(shè)備中發(fā)揮更大的作用。讓人類(lèi)向虛擬世界更進(jìn)一步了!
AI,涼一點(diǎn),才有點(diǎn)靠譜的味道。