日韩免费在线观看成人,骚碰成人免费视频,电影院摸湿嗯…啊h

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<th id="csp5n"></th>

<menu id="csp5n"></menu>

<tt id="csp5n"><i id="csp5n"></i></tt>

<label id="csp5n"><menuitem id="csp5n"><ins id="csp5n"></ins></menuitem></label>

<td id="csp5n"><form id="csp5n"><big id="csp5n"></big></form></td>

<label id="csp5n"></label>

<dfn id="csp5n"><dd id="csp5n"><input id="csp5n"></input></dd></dfn>

<dfn id="csp5n"></dfn>

您的位置：首頁>互聯(lián)網(wǎng) >內(nèi)容

今年不懂這個詞，你有可能失業(yè)

2024-02-19 16:49:20來源：

導(dǎo)讀Sora顯著提高了AI文字生成視頻的能力上限兩只金毛犬在山頂上錄制播客，會是一個怎樣的場景？北京時間2月16日，網(wǎng)友在社交媒體上寫下對AI模...

Sora顯著提高了AI文字生成視頻的能力上限

兩只金毛犬在山頂上錄制播客，會是一個怎樣的場景？

北京時間2月16日，網(wǎng)友在社交媒體上寫下對AI模型Sora的這一文字提示，OpenAI首席執(zhí)行官山姆·奧特曼將其輸入Sora，生成了一個10秒的高清視頻，并將其發(fā)布在社交平臺。畫面中，兩只金毛犬頭戴耳機，面前立著兩個話筒，放松地蹲坐在山間一塊紅白相間的野餐布上。金毛犬的毛發(fā)光澤、周圍的山頂環(huán)境非常逼真，幾乎和電視紀(jì)錄片別無二致。

Sora根據(jù)“兩只金毛犬在山頂上錄制播客”生成的視頻圖源：視頻截圖

Sora根據(jù)“兩只金毛犬在山頂上錄制播客”生成的視頻圖源：視頻截圖

繼AI生成文字和圖片后，OpenAI正式涉足視頻生成領(lǐng)域。北京時間2月16日凌晨，OpenAI發(fā)布首個AI 文字生成視頻模型Sora，使用者只需用文字描述一個場景，Sora便可生成一個時長最高可達(dá)1分鐘的視頻。OpenAI僅在官網(wǎng)發(fā)布數(shù)十個Sora視頻，目前，該功能尚未向公眾開放，僅面向安全人員，還將向特定藝術(shù)家、設(shè)計師提供訪問權(quán)限。但Sora視頻對文字提示的超高還原，迅速引爆網(wǎng)絡(luò)。有網(wǎng)友感慨，“Sora要革影視行業(yè)的命”“它將把視頻內(nèi)容帶入‘零基礎(chǔ)創(chuàng)作’時代”。AI和現(xiàn)實的界限已很難分清，“現(xiàn)實，不存在了”。

英偉達(dá)的工程師王帥在Sora發(fā)布后驚嘆，這是“又一個ChatGPT 時刻”。他在接受《中國新聞周刊》采訪時提到，Sora顯著提高了AI文字生成視頻的能力上限，這無疑是業(yè)內(nèi)共識。但Sora的產(chǎn)品和商業(yè)化路徑是什么，產(chǎn)品如何產(chǎn)生價值，目前業(yè)內(nèi)仍有分歧。“技術(shù)能力提高，并不意味著它能解決所有問題，幫好萊塢導(dǎo)演直接拍電影，不需要攝像，還遠(yuǎn)沒有到那一步?！?/p>

Sora效果為何遠(yuǎn)超其他模型？

即使不關(guān)注大模型技術(shù)的人，這兩天也會注意到這個社交網(wǎng)絡(luò)上廣為流傳的59秒視頻：一位戴墨鏡、身穿紅裙皮衣、踩著皮靴的女人，漫步在東京街頭，鏡頭流暢地推到了她的臉部，你可以清晰地看到她臉上的雀斑和皮膚紋理。這個一鏡到底的視頻不需要人來拍攝和剪輯，只要把一段描述輸入Sora后由AI直接生成。

自動播放

由Sora生成的視頻，提示詞為：一位時尚女性走在充滿溫暖霓虹燈和動畫城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長裙和黑色靴子，拎著黑色錢包。她戴著太陽鏡，涂著紅色口紅。她走路自信又隨意。街道潮濕且反光，在彩色燈光的照射下形成鏡面效果。許多行人走來走去。圖源：OpenAI官網(wǎng)

1分鐘的視頻并不長，但對于AI文字生成視頻可以算是巨大飛躍。過去一年多，ChatGPT、Midjourney等現(xiàn)象級爆款應(yīng)用橫空出世，AI 生成文字、生成圖片技術(shù)的飛速發(fā)展讓人興奮，相比之下，AI生成視頻領(lǐng)域雖有Runway、Pika 、Meta、谷歌等多個明星公司入局，但因技術(shù)難度更大，發(fā)展仍處于早期。2023年12月，谷歌團(tuán)隊發(fā)布視頻生成模型VideoPoet，一次能生成10秒超長、連貫大動作的視頻，超過其他智能生成3～4秒的模型，已足以讓業(yè)內(nèi)振奮。

清華大學(xué)智能產(chǎn)業(yè)研究院首席研究員聶再清向《中國新聞周刊》解釋，在此之前，文字生成視頻的時長短，原因在于，AI不知道接下來要發(fā)生什么，因而不知道該生成怎樣的內(nèi)容。

Sora的視頻更長，觀眾也明顯感受到其更加符合邏輯，因為它一定程度上“展現(xiàn)”了對現(xiàn)實世界的理解能力。在OpenAI公開發(fā)布的一個視頻中，復(fù)古SUV在陡峭的山路上行駛，車身自然顛簸，輪胎揚起灰塵，因此，更讓人信服。OpenAI將這一能力稱為“世界模型的雛形”。英偉達(dá)人工智能研究院首席研究科學(xué)家Jim Fan也在社交平臺感嘆，Sora并不只是創(chuàng)意玩具，而是一個數(shù)據(jù)驅(qū)動的物理引擎，可以對真實或虛擬世界進(jìn)行模擬。

由Sora生成的視頻截圖。提示詞為：鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV，它在陡峭的山坡上一條被松樹環(huán)繞的陡峭土路上加速行駛，輪胎揚起灰塵，陽光照射在SUV上行駛土路，給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠(yuǎn)方，看不到其他汽車或車輛。道路兩旁都是紅杉樹，零星散落著一片片綠意。從后面看，這輛車輕松地沿著曲線行駛，看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈，上面是清澈的藍(lán)天和縷縷云彩。

由Sora生成的視頻截圖。提示詞為：鏡頭跟隨一輛帶有黑色車頂行李架的白色老式SUV，它在陡峭的山坡上一條被松樹環(huán)繞的陡峭土路上加速行駛，輪胎揚起灰塵，陽光照射在SUV上行駛土路，給整個場景投射出溫暖的光芒。土路緩緩地蜿蜒延伸至遠(yuǎn)方，看不到其他汽車或車輛。道路兩旁都是紅杉樹，零星散落著一片片綠意。從后面看，這輛車輕松地沿著曲線行駛，看起來就像是在崎嶇的地形上行駛。土路周圍是陡峭的丘陵和山脈，上面是清澈的藍(lán)天和縷縷云彩。

聶再清介紹說，世界模型可以簡單理解為，AI對真實世界建模，能還原對現(xiàn)實世界中人和物的理解，“比如拿一個紙杯，AI‘知道’很輕，如果這個杯子是鐵做的，它會很重，如果一個人開車逆行，其他車輛會嚇得減速或避讓”。

Sora能做到準(zhǔn)確理解文字含義，并呈現(xiàn)逼真的畫面，在于和ChatGPT一樣的邏輯，即“大力出奇跡”。聶再清提到，此前，文字生成視頻的挑戰(zhàn)在于，用于練習(xí)模型的視頻，需要將分辨率、長寬比、時長等調(diào)整為統(tǒng)一格式，便捷性不夠。Sora提出用時空視覺patch（補?。⒉煌囊曨l數(shù)據(jù)轉(zhuǎn)化成統(tǒng)一的視覺數(shù)據(jù)表示，patch即相當(dāng)于訓(xùn)練ChatGPT過程中用到的token（文本的最小單元），每個視頻不用修改格式，而是先壓縮，提取時間和空間節(jié)點的數(shù)據(jù)，直接輸入模型學(xué)習(xí)。OpenAI官方介紹，Sora可以采樣寬屏1920x1080p、垂直1080x1920p以及介于兩者之間的所有視頻。采樣更加靈活，視頻的數(shù)據(jù)量也會增加。

此外，訓(xùn)練文本生成視頻，需要大量帶有字幕的視頻數(shù)據(jù)。OpenAI利用了DALL·E 3和GPT模型，為訓(xùn)練的視頻集中生成字幕，可以提高文本保真度以及視頻的整體質(zhì)量。

但在王帥看來，模型技術(shù)實際上是個公開的秘密，Sora的能力之所以如此驚艷，更關(guān)鍵的是OpenAI喂給模型的數(shù)據(jù)，“他們到底用了多大規(guī)模的數(shù)據(jù)，數(shù)據(jù)如何選擇，這些在OpenAI的報告中只是點到為止，幾乎沒有任何細(xì)節(jié)，但只有業(yè)內(nèi)人士知道，這才是關(guān)鍵”。

紐約大學(xué)計算機科學(xué)助理教授謝賽寧是機器學(xué)習(xí)領(lǐng)域知名學(xué)者，他是擴散模型（diffusion）一篇重要論文的主要作者之一，Sora便是一個擴散模型，同時結(jié)合了ChatGPT使用的底層模式Transformer，在視覺領(lǐng)域?qū)崿F(xiàn)突破。謝賽寧在社交媒體上也直言，OpenAI完全沒有談?wù)摂?shù)據(jù)來源和構(gòu)建，這可能暗示數(shù)據(jù)才是Sora成功最關(guān)鍵的因素。他猜測，OpenAI可能用到了游戲引擎數(shù)據(jù)，以及電影、紀(jì)錄片、電影長鏡頭等，數(shù)據(jù)的質(zhì)量非常重要。

Sora仍存在明顯弱點

“你可以準(zhǔn)確地畫出你的想法，然后將其變?yōu)楝F(xiàn)實?！闭鐓⑴c設(shè)計Sora的OpenAI工程師蒂姆·布魯克斯所言，Sora降低了視頻制作的技術(shù)門檻，但對于講故事能力的要求有所提高。人們不免擔(dān)憂，Sora的出現(xiàn)，對于好萊塢電影工業(yè)會產(chǎn)生重大影響，導(dǎo)演、攝像、化妝、道具、剪輯、配音等批從業(yè)人員或?qū)⑹I(yè)。

一位不愿具名的AI產(chǎn)業(yè)研究者在接受《中國新聞周刊》采訪時提到，生成視頻工具不等于會講故事的導(dǎo)演、編劇，就像印刷術(shù)不能替代李白、杜甫，所以視頻的大規(guī)模生成，只是顯著降低批量生產(chǎn)的門檻與成本，視頻作品的創(chuàng)意性、故事性、藝術(shù)性，將在更加海量的作品競爭中要求越來越高。

現(xiàn)階段，Sora仍存在明顯的弱點。在社交媒體上，蒂姆·布魯克斯根據(jù)提示語“人們在海灘放松，然后一條鯊魚從水中跳了出來，讓所有人大吃一驚”，發(fā)布了由Sora生成的視頻。視頻中，一位女性看到鯊魚后扭頭求救，但因扭頭角度過大，被網(wǎng)友戲謔是“做了驅(qū)魔人式的180度旋轉(zhuǎn)”。OpenAI也公開承認(rèn)Sora當(dāng)前的局限性，它不能時刻準(zhǔn)確模擬物理世界的交互規(guī)律。比如，在它生成的視頻中，一個人在跑步機上反向跑步，一些實體場景中，人或動物會自發(fā)冒出來，甚至AI將一把椅子建模成了一個柔性的物體。

OpenAI科學(xué)家蒂姆·布魯克斯在社交媒體發(fā)布的由Sora生成的視頻截圖，由于視頻中女性扭頭角度過大，被網(wǎng)友戲謔是“做了驅(qū)魔人式的180度旋轉(zhuǎn)”。圖源：視頻截圖

OpenAI科學(xué)家蒂姆·布魯克斯在社交媒體發(fā)布的由Sora生成的視頻截圖，由于視頻中女性扭頭角度過大，被網(wǎng)友戲謔是“做了驅(qū)魔人式的180度旋轉(zhuǎn)”。圖源：視頻截圖

在聶再清看來，現(xiàn)在人們看到的都是由OpenAI挑選后發(fā)出的視頻，大家覺得很驚艷，但到底還有多少不完善之處，不能完全確定，還要等發(fā)布更多視頻才知道真正效果。

不同于一些技術(shù)從業(yè)者的樂觀和興奮，王帥對Sora模型的認(rèn)知更為冷靜。他更在意Sora這類模型如何落地。最近有人向他詢問，Sora生成的視頻中，人和車輛那么自然，模型是怎么控制每個物體的？但實際上，模型運行的方式與人類思考的方式截然不同，模型根本不知道有物體存在，是大數(shù)據(jù)告訴它每一部分要做成什么樣子。生成視頻依靠的是巨大的數(shù)據(jù)，如果有足夠數(shù)據(jù)，便會更好生成視頻。但未來在編輯視頻時，可能會出現(xiàn)數(shù)據(jù)分布之外的情況，如果數(shù)據(jù)沒有覆蓋到，生成效果可能不盡如人意。

王帥進(jìn)一步解釋說，不只是要數(shù)據(jù)規(guī)模大，還要有更好的數(shù)據(jù)細(xì)節(jié)，“人們使用模型生成了一個效果很好的60秒視頻，但這還沒有結(jié)束，人們后期如果想做視頻編輯，比如摘掉那位東京街頭漫步的女士的墨鏡，如果訓(xùn)練數(shù)據(jù)中沒包含這一動作的視頻，或很少見，模型可能做不到這一指令，或者做得效果很差。因此，在測試時，需要做非常多的調(diào)試工作，是非常耗時耗力的事情。”王帥提到，Sora的學(xué)習(xí)邏輯與ChatGPT是相通的，模型學(xué)到了足夠多的數(shù)據(jù)，因而掌握了數(shù)據(jù)間的規(guī)律。但這仍和通用人工智能有區(qū)別—— Sora本質(zhì)上還是在模仿訓(xùn)練數(shù)據(jù)中的視頻。

“一段文字提示，模型中可能會對應(yīng)由上千萬的視頻，目前OpenAI呈現(xiàn)了一個看起來足夠好的視頻，大家就覺得這個模型很厲害，但你不知道它能不能很好地生成其他視頻。”王帥提到，這就像是一個問題有100個答案，但它只給出一個正確答案，這意味著大模型就會做這個題了嗎？不是，除非它也能把剩下99個答案都告訴你，才說明它的理解沒有問題。

至于是否會顛覆影視行業(yè)，在王帥看來，大家現(xiàn)在猜測一些大方向，但很可能答案是在意料之外。“谷歌剛成立時，人們不會想到它會以做廣告盈利，人們最初對Facebook改變社交方式寄予厚望，但不會想到它未來泄露用戶數(shù)據(jù)隱私的丑聞，AI技術(shù)亦是如此。多位技術(shù)人員認(rèn)為只要解決技術(shù)難題就可以了，不是這樣的。技術(shù)在商業(yè)和社會層面將會帶來怎樣的影響，是一個極其復(fù)雜的系統(tǒng)，很難單獨用技術(shù)邏輯來理解。”

（王帥為化名。）

記者：楊智杰

編輯：杜瑋

運營編輯：馬曉軼

免責(zé)聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標(biāo)簽：

猜你喜歡

最新文章

感谢您访问我们的网站，您可能还对以下资源感兴趣：

日韩免费在线观看成人

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<td id="lktat"><thead id="lktat"><pre id="lktat"></pre></thead></td>

<menuitem id="lktat"><code id="lktat"><ins id="lktat"></ins></code></menuitem>