距離 OpenAI 亮出 Sora 這張王牌,已經(jīng)快一個(gè)月了。
東西么,是一直沒大規(guī)模開放使用,但熱度,卻從來不缺。
反正光是靠著在 TikTok 上更新 Sora 的視頻, OpenAI 的官方賬號就已經(jīng)漲了數(shù)十萬粉。
像什么搞房屋設(shè)計(jì)。
外星人在紐約化身 gai 溜子。
博物館一鏡到底。
還有一男一女在鐵磁流體餐廳里賽博約會(huì)。
看看這絲滑程度,相比之下,原本那些被吹上天的 “AI 視頻老網(wǎng)紅們 ” ,多少有點(diǎn)汗流浹背了。
有網(wǎng)友銳評:xx 剛出來的時(shí)候很感動(dòng),現(xiàn)在怎么不敢動(dòng)了?
其實(shí)吧, Sora 的那些友商們,并沒大伙兒想得這么慫包,他們的更新頻率好像還更快了。
世超甚至覺得,經(jīng)過 Sora 這么一番轟炸, AI 視頻生成的戰(zhàn)場,才真正熱了起來。
先是 Stability AI 帶頭發(fā)起沖鋒,把 Stable Video 拿出來公測,接著包括 Pika 、谷歌還有阿里在內(nèi)的好幾家公司,也都坐不住了。
咱也先講講劍走偏鋒的兩位,阿里 EMO 和 Pika 。
他們沒選擇和 Sora 硬剛,而主打?qū)谛?,基本等于明牌暗示大家?“ 你們以后用 Sora 生成的視頻,可以用我來配音對口型噢 ~~ 。
就拿 EMO 為例,上傳一張照片和一段音頻,就能讓照片里的人開口唱歌、說話。像什么小李子唱 Rap ,還有蒙娜麗莎開口說話都不在話下。
看看這個(gè) Sora 皮衣女士,一開口就是樂壇老炮兒了。
另外,跟 EMO 發(fā)布差不多時(shí)間,國內(nèi)的 Pika 也小小更新了一波。
新上了個(gè) Lip Sync 功能,說白了就是給視頻配音對口型。
現(xiàn)在分幣不花就能用,但估計(jì)太多人把服務(wù)器給干崩了,世超每次都卡在了最后一步。。。
但同樣都是對口型, EMO 的效果明顯要比 Pika 強(qiáng)不少。Pika 的口型雖然是對上了,但根據(jù)創(chuàng)作者 @ 數(shù)字生命卡茲克的測試,說話的時(shí)候嘴還是沒法子避免亂動(dòng)的毛病。
尋找配音、對口型這種 AI 視頻生成領(lǐng)域的小切口,確實(shí)是一種思路。
同樣,為了和 Sora 打出差異化,以色列有家公司,就在內(nèi)測一個(gè)叫做 LTX Studio 的 AI 電影制作平臺(tái)。
而他的思路則是:大而全。
根據(jù)官方的說法,它能生成超過 25 秒的視頻,但最重要的,它把視頻生成、編輯、旁白配音一條龍全給包了。
就比如生成個(gè)畫面你不是很滿意,那你可以切個(gè)機(jī)位或者換個(gè)光線,或者把畫面里的東西給換掉。
特別是,官方聲稱能保證角色的一致性。
以往的文生視頻,保不齊上一幀還是吳彥祖,下一幀可能就變成宋小寶了。
如果 LTX Studio 真能把角色一致性給解決,那世超是真 respect 。
而谷歌就更夸張了,號稱是搞了個(gè)世界模型 Genie ,這玩意兒能根據(jù)一張照片或者幾句簡短的描述就生成一個(gè) 2D 游戲出來。。。
雖然畫質(zhì)有點(diǎn)慘不忍睹,但光憑一張圖片就能整個(gè)虛擬世界出來。
果然對谷歌還是激將法更管用。
不過,上面提到的這幾個(gè)應(yīng)用世超幾乎都沒法上手,唯一方便親自體驗(yàn)的,只有 Stability AI 他們家藏了四個(gè)多月的 Stable Video ( 下稱 SV )。
而也和上面幾個(gè)避 Sora 鋒芒、主打各種差異化的老哥不同,Stable Video 是完完全全正面受敵。。
先給大伙兒回憶回憶,當(dāng)時(shí)的 demo 是這樣的。
模型能力評估,還超過了 Runway 和 Pika 。
所以這次在 Sora 的節(jié)骨眼上發(fā)布公測,大伙兒還挺期待 SV 能狠狠將 Sora 一軍。
但當(dāng)世超上手試了試之后發(fā)現(xiàn),是我不懂事了。。。
在 SV 官網(wǎng),有圖像生成和文字生成兩個(gè)選擇,我直接把跟 Sora 那個(gè)火出圈的視頻提示詞喂給了 AI 。
它先是根據(jù)提示詞,生成了四張圖像讓我選。
接著,再手動(dòng)把鏡頭運(yùn)動(dòng)的方式也設(shè)置下,等個(gè)十分鐘,就能生成一條4 秒的視頻。
但不知道模型抽哪門子的風(fēng),背景全是亂的。
世超換了種鏡頭運(yùn)動(dòng)方式又試了一次,臉部、背景變形愣是一樣沒落下。。。
難道是因?yàn)樘崾驹~太難了?
不信邪的我又換了幾組簡單的,倒是也有像樣的。
但十個(gè)里起碼七個(gè)都翻車了,甚至還有在圖像生成就開始發(fā)癲的,我說城門樓子,他生成胯骨肘子。。。
這么說吧,SV 給我的感覺就是能跟 Runway 和 Pika 打個(gè)平手,但 Sora ,還是算了吧。
不過測試看多了之后,世超發(fā)現(xiàn) Sora 其實(shí)也并沒有大家伙兒傳得那么不可超越。
有外媒記者在拿到內(nèi)測資格淺試一波之后,專門發(fā)了篇文章吐槽, Sora 生成的視頻讓猴子長出了鸚鵡的尾巴,
還有國外 up 主,拿 Sora 生成了有六根手指頭的人。。。
一句話總結(jié)就是,Sora 對物理世界的很多東西還理解不了,而且生成速度慢得離譜。
而且經(jīng) Sora 這么一攪合,整個(gè) AI 視頻圈子是更加活躍了,保不齊下次誰家更新又來了波大的。
世超也覺得,搞不齊會(huì)和大語言模型圈兒一個(gè)樣, OpenAI 拋玉引玉, AI 視頻生成領(lǐng)域的成果大爆發(fā)就在眼前。
對了,世超最后還想問一嘴, Sora 到底什么時(shí)候才能上手?。?/p>
撰文:西西編輯:江江 & 面線 封面:煥妍