日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>汽車 >內(nèi)容

          Sora能從視頻里總結(jié)出萬有引力公式嗎?

          2024-03-22 09:18:30來源:
          導(dǎo)讀 作者| 劉正Simon Kucher 戰(zhàn)略咨詢顧問無需贅述,2024開年大事件就是Sora,幾乎所有人都見識(shí)了Sora帶來的震撼:極為細(xì)膩,真實(shí)渲染,情...

          作者| 劉正

          Simon Kucher 戰(zhàn)略咨詢顧問

          無需贅述,2024開年大事件就是Sora,幾乎所有人都見識(shí)了Sora帶來的震撼:極為細(xì)膩,真實(shí)渲染,情節(jié)連續(xù),可持續(xù)60秒的視頻,如同這不可能存在的冬日櫻花一樣,模糊了真實(shí)和虛幻的邊界。

          仿佛回到ChatGPT問世的那一天,OpenAI又一次震撼了世界。

          在碾過一整條賽道AI初創(chuàng)公司的同時(shí),連帶著助力NVIDA拿下美股史上最大漲幅(以市值計(jì)算)。看著這一片欣欣向榮的狂歡,仿佛這次真的要被西方先進(jìn)生產(chǎn)力按在地上摩擦了。所以真的有這么可怕嗎?

          從技術(shù)上看,Sora恐怕是過譽(yù)了

          經(jīng)過數(shù)日的挖墳,業(yè)界逐漸了解到Sora是基于紐約大學(xué)助理教授謝賽寧和學(xué)生Bill Peebles (如今任職于OpenAI)共同發(fā)表的Diffusion Transformer(DiT)的思路來開發(fā)的。

          Diffusion是常見的文生圖算法,通過給已標(biāo)注的圖片加噪點(diǎn)直至“擴(kuò)散”成完全的白噪音狀態(tài),那么將這一操作倒過來就實(shí)現(xiàn)了按標(biāo)注從白噪音中生成與文本對(duì)應(yīng)的圖片。在這一點(diǎn)上,Sora和Stable Diffusion, Midjourney以及Open AI自家的DALLE工具沒有太多差別。

          Sora的獨(dú)到之處,是用GPT中常用的Transformer替換此前常用的UNet模型,來生成下一幀圖片。還有,為了把在ChatGPT上玩得爐火純青的Transformer應(yīng)用到視頻上,OpenAI采用了獨(dú)特的時(shí)空補(bǔ)片(Space Patch)方法(對(duì)應(yīng)大語言模型中的Token)。

          通過把視頻理解為三維空間(二維圖像+一維時(shí)間)里堆疊的立方體,將其拆解成隱空間里一個(gè)個(gè)按時(shí)間排序的patch,再套用GPT的Transformer模型進(jìn)行概率預(yù)測分析,最后將其解碼回來即可獲取后續(xù)幀的排列方式。

          在生成過程里,不斷重復(fù)這一步驟1440次,就得到了連續(xù)流暢,時(shí)空一致性極高的60秒視頻。

          無論用了多少工程上的trick,究其本質(zhì),Sora所做的仍然是開局一張圖,后續(xù)全靠猜,不斷輸出下一幀像素的最大可能性組合。只不過OpenAI下的Transformer大力出奇跡,效果之好令人震驚。

          但OpenAI并沒有發(fā)明全新的框架,所以僅僅過了兩周,Stable Diffusion 3就正式發(fā)布了,用了和Sora同款的DiT框架,在進(jìn)度上咬得緊緊的。

          可見,只要顯卡管夠,算法之下眾生平等。這里并不存在去年ChatGPT剛問世時(shí)的技術(shù)代差。

          Sora還不具備理解“因果律”的能力

          OpenAI宣稱Sora是“作為世界模擬的視頻生成模型”,聽起來神乎其神的。如在下面這個(gè)視頻里,在不同角度的鏡頭切換中,人物和背景的細(xì)節(jié)一致性好的出奇,仿佛Sora是先在內(nèi)部構(gòu)建了人物和場景的3D模型,再對(duì)其進(jìn)行“模擬拍攝”而產(chǎn)生的畫面。

          其實(shí),這是人類自欺欺人的幻覺。

          很多人都發(fā)現(xiàn)Sora生成視頻中有些不合理之處,如這個(gè)“考古挖掘”的視頻中,椅子完全不受剛性和重力影響,憑空出現(xiàn),隨風(fēng)飄揚(yáng)和變形。任何一個(gè)人都能看出這里的詭異之處。

          師從丘成桐的顧險(xiǎn)峰教授深刻討論了這些bug背后的真相:Sora其實(shí)完全不理解真實(shí)世界的物理因果律,它只是尋找到了幾何上足夠平滑的點(diǎn)云分布。而且找到的這個(gè)分布基本是局部的最優(yōu)解,缺乏對(duì)長程物理關(guān)系本質(zhì)及表觀的體現(xiàn)。

          比如在下面這個(gè)視頻中,老太太做了吹蠟燭的動(dòng)作,但蠟燭卻沒有被吹滅。這是因?yàn)榇迪ㄏ灎T是三維世界里以看不見的空氣為中介“隔空”發(fā)生的物理作用。而在二維畫面中,蠟燭和人物分屬于隱空間中兩個(gè)無關(guān)的patch,但沒有任何像素來自看不見的空氣,所以Sora無法在蠟燭和人物的畫面間建立起因果關(guān)系,也就預(yù)測不出也畫不出“吹熄”這個(gè)效果。

          這就回到我們一開始所說的,Sora的本質(zhì)是預(yù)測下一幀像素的最大可能性組合。但這種基于歸納的相關(guān)性統(tǒng)計(jì)方法,無法真正理解具有解析解的物理演繹邏輯。

          語言或許可以表征人類能表達(dá)出的所有的知識(shí)和社會(huì)建構(gòu),所以大語言模型在文本生成上如魚得水,分分鐘秒殺人類做題家。

          但真實(shí)的世界是物理的,具有比文本大得多的信息量,無論是圖像還是文本描述都僅僅表征了其很小的側(cè)面。

          Sora能從視頻里總結(jié)出牛頓萬有引力那凝練的公式嗎?有可能是做不到的。

          再深入一層,你會(huì)發(fā)現(xiàn)Sora生成的視頻都具有時(shí)空的連續(xù)性。所有的畫面都是圍繞同一元素和風(fēng)格產(chǎn)生的連續(xù)畫面(即便有分鏡,背景也是一致的),沒有突變點(diǎn)。這也很好理解,Sora的本質(zhì)是預(yù)測下一幀像素的最大可能性組合,它先天就無法創(chuàng)造“不連續(xù)”的東西,盡管不連續(xù)才是物理世界的常態(tài)。

          人對(duì)混沌和臨界點(diǎn)具有先天的認(rèn)知,Sora似乎還不能領(lǐng)悟這一點(diǎn)。Sora所呈現(xiàn)的,僅僅是在提示詞限定下最具合理性的世界擬像,而非世界本身。

          正如圖靈獎(jiǎng)得主楊立昆(Yann LeCun)指出,Sora并不真正具有AGI(通用人工智能)所需的“世界模型”,它也無法去創(chuàng)造新的世界。

          當(dāng)人類開始沉迷幻境,拒絕現(xiàn)實(shí)

          當(dāng)然,對(duì)于影視業(yè)而言,Sora已經(jīng)產(chǎn)生了足夠的沖擊和恐慌。皮克斯這樣的影視后期巨頭,當(dāng)年為了展現(xiàn)動(dòng)畫中的毛發(fā)紋理,需要“肝”幾個(gè)月才能搞定物理建模和光追渲染的種種細(xì)節(jié)。如今看看Sora一鍵生成的高清片段,那真是一口老血噴出來。

          上次ChatGPT已經(jīng)讓編劇工會(huì)集體了,很想知道好萊塢的美工和后期程序員們會(huì)不會(huì)再次揭竿而起。

          我毫不懷疑Sora會(huì)對(duì)未來的工作和生活產(chǎn)生巨大的影響,尤其是當(dāng)它與元宇宙和AR結(jié)合起來。盡管Sora并不具有創(chuàng)造世界的真正智能,但其對(duì)世界的無限擬像,已經(jīng)足夠把大部分人玩得團(tuán)團(tuán)轉(zhuǎn)了。

          比起抖音上美顏開到最大的小姐姐,給每個(gè)人定制的Sora視頻 + Apple Vision Pro的裝備,可以帶來好一萬倍的夢幻體驗(yàn),是真正的造夢機(jī)器。和影像有關(guān)的一切產(chǎn)業(yè)都將被重塑,未來能享受的娛樂生活將變得無比激動(dòng),像美劇《西部世界》里那樣瘋狂。

          但Sora只是照著人的期望值繪出了最可能的那個(gè)“夢境”,而真實(shí)世界往往不按照你覺得最合理的樣子運(yùn)行。Sora帶來的既是一個(gè)美夢,也是一個(gè)陷阱。

          如果戴上AR眼鏡就可以獲得Sora為你量身定制的故事,你還會(huì)出門旅行嗎?畢竟Sora可以給你360度展現(xiàn)地球上從未存在的美景。進(jìn)一步思考,如果每個(gè)人都能活在專屬自己的影像空間里,而這一切的邊際成本接近于零,那什么才是現(xiàn)實(shí)?在這種情況下,現(xiàn)實(shí)反而是會(huì)被拒絕的存在,因?yàn)槟抢镉刑嗟牟淮_定性和變化,更不符合人的期望。

          Sora可能并沒有我們想象的那么神奇和智慧,但人確實(shí)足夠愚蠢。很快我們就能看到有人用Sora來對(duì)老年人進(jìn)行視頻詐騙了,而這僅僅是個(gè)開始。

          但這并非Sora的錯(cuò),而是人的錯(cuò)。在《哈利波特》第一部中有一面厄里斯魔鏡 (The Mirror of Erised),站在鏡子前的人會(huì)發(fā)現(xiàn),自己的一切渴望都會(huì)在鏡中展現(xiàn)并滿足——但僅僅在鏡中。

          而世界上最幸福的人,在鏡子里看見的就是自己的模樣。

          本文系鳳凰網(wǎng)評(píng)論部特約原創(chuàng)稿件,僅代表作者立場。

          編輯|劉軍

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

          猜你喜歡

          最新文章