你應該在短視頻平臺刷到過各種 AI 配音:猴哥、紫薇、四郎......
初聽有趣,但聽多了容易膩,因為真人不這么講話,原型也不是每時每刻都處在半死不活或者被掐著脖子的狀態(tài)。
尤其當它們都在說「家人們誰懂啊」,會讓不慎刷到的人暴躁到崩潰,上演猴哥甩頭表情包:煩死了·GIF。
其實,AI 配音未必都這么有特點,而是越來越像你我一樣普通,難以和真人分辨開來,這或許才是更可怕、也更有意思的。
不獨立行走的 AI,把人類嚇壞了
前段時間,X 上有個超火的「帶貨視頻」,一個女子坐在汽車前排,直視著鏡頭,手舞足蹈、眉飛色舞地推銷濕巾。
大多數(shù)網(wǎng)友的關(guān)注點,不在于她帶了什么貨,而是判斷她是不是真人。
他們看她的手和口型,數(shù)她瞪白眼的時間,甚至觀察她的發(fā)絲、面部肌肉、臉頰光影,勢要找出證據(jù)把 AI 錘死。
為技術(shù)焦慮的悲觀主義者說,AI 都這么真實了,人類要完蛋了。對技術(shù)半信半疑但維權(quán)意識強烈的網(wǎng)友說,這是真人的素材被盜了。
然而,兩種說法都不對,事情走向了最平淡的結(jié)局:視頻主角真實存在,她叫 Ariel Marie,今年 24 歲,自愿給 AI 打工。
去年 12 月,Marie 通過零工平臺 Fiverr 接單,向法國 AI 公司 Arcads 提供了自己的聲音和肖像,按照對方的要求,錄制了 9 個不同場景的視頻,包括邊走邊說的、坐在車里的。
最近爆火的視頻,她沒能第一個知道。等到出圈之后,朋友的朋友發(fā)來視頻,問她是不是被 AI 偷臉了,她才了解到網(wǎng)友們都在關(guān)心自己是否是人類的一份子。
打開視頻的瞬間,連 Marie 自己都愣了一下,冷靜下來細看,這個數(shù)字人是她又不是她,她不會這么推銷產(chǎn)品。
Ariel Marie 本人
所以,視頻并非純 AI,而是基于真人演員的預錄制,再使用了 DeepFake、AI 配音、口型匹配等技術(shù)。
AI 是否獨立行走,或許不重要,哪怕沒有從頭到尾使用 AI,只要最終效果逼真,也是成功的「造假」。網(wǎng)友們第一反應里的疑惑和惶恐,已經(jīng)說明了問題所在。
AI 甚至不需要比真人做得更好,水平相當就能過關(guān),比如作為綠幕素材視頻,反而讓人覺得是刻意為之,粗制濫造的效果別有風味。
畢竟,我們刷短視頻時,可能正處在最分心的狀態(tài),坐在沙發(fā),躺在床上,或者在廁所蹲坑,注意力不足以識別是不是 AI。
Marie 為 AI 拍攝的 5 個視頻,報價和接臺的普通視頻差不多,15 秒廣告的起價約為 70 美元,60 秒廣告的起價約為 130 美元。
同時,Arcads 的套餐收費不低,每月 100 歐元 10 個視頻,但創(chuàng)作者們還是能節(jié)省時間、金錢和精力。
他們輸入文字內(nèi)容、挑選符合風格的演員,幾分鐘就能生成視頻素材,比招聘真人要便宜,還不需要反復溝通和寄出產(chǎn)品。
圖片來自:YouTube@Alex Cooper
自從 Marie 走紅,更多 AI 公司向她拋去了橄欖枝。人類成為 AI 產(chǎn)品的素材,或許也是一條短暫可行的生財之道。
AI 的言行舉止,更像普通人了
同在 AI 視頻領(lǐng)域,之前讓霉霉說中文爆火的 HeyGen,最近也整了新活。
他們的 AI 角色 Nik,在陽光正好的公園里步履款款,邊走邊說左手插兜右手自然擺動,甚至還會走累了坐下,絲滑切換英語、德語和西班牙語。
效果已經(jīng)有些難辨真假,不是只能在鏡頭前面正襟危坐、除了對口型八風不動的狀態(tài)了。
這說明 AI 角色在兩個方面取得了進步,一是可以識別和跟蹤用戶的身體動作,包括手部,二是在保持口型同步的同時,切換語言還能克隆用戶的語音語調(diào)。
其實,HeyGen 的 AI 角色也是取材于真人演員,默認的 AI 角色有上百個,擁有不同種族、年齡、手勢。
同時,HeyGen也支持我們定制自己的 AI 角色,但是對拍攝設備和場地的要求稍高。
所以在不久的未來,我們應該可以創(chuàng)建自己的數(shù)字替身,讓它精準地自己的動作和說話方式,同時又無痛掌握多國語言。
雖然最新的功能還沒有開放使用,但 HeyGen 放出了 Demo,歡迎網(wǎng)友們輸入文本隨意嘗試口型同步功能,我便讓 Nik 讀《岳陽樓記》,4 分鐘左右就生成完畢,效果有些幽默。
Nik 在普通話里混了外國口音,謫守的謫、浩浩湯湯的湯沒讀對,口型似乎對上了又沒有完全對上,更沒有投入什么感情,看著他皺起的眉頭,仿佛他自己也越念越疑惑。
值得一提的是,HeyGen 背后有 OpenAI 的支持,他們的視頻翻譯,使用了 OpenAI 前不久官宣的語音模型「Voice Engine」,既可以把聲音翻譯成多種語言,還保留母語的口音。
官宣,但不是對外發(fā)布,OpenAI 的理由是擔心濫用,畢竟門檻太低了——使用文本輸入和一個 15 秒音頻樣本,他們的模型就能生成與原始說話者非常相似的自然語音。
但 OpenAI 的普通話說得還不夠好,咬字奇怪,聲調(diào)讀不準,當然,考慮到是外國友人,帶點口音才顯得純正。
微軟,OpenAI 的金主,也在擬人語音方面頗有建樹,最近推出了 9 種更真實的 AI 語音,主要服務于對話場景,這和 ChatGPT 等更加通用的產(chǎn)品不同,更加強調(diào)人情味。
其中還有兩段中文,領(lǐng)先了 OpenAI,甚至不遜色普通話一級甲等的國人。
字正腔圓,沒有一點雜音,像播音主持專業(yè)畢業(yè)生坐在錄音棚聊天,咬字、語氣、笑聲、停頓都非常像真人,聽起來確實非常自然,在抖音和視頻號前途無量。
以后我們看的五分鐘電影解說里的「注意看這個男人叫小帥」,或許不再那么有機器味了。而在一些露臉的視頻里,博主們也完全可以用自己的數(shù)字替身代勞。
那些相貌出眾但不真實的 AI 顏值博主會過時,難以分辨的 AI 普通人博主才是職業(yè)生涯長青的賽博打工人。
與其焦慮被偷家,不如自己擁抱數(shù)字替身
面對越來越「普通人」的 AI,深感焦慮的,除了怕被詐騙的大眾,還有從業(yè)者們,這直接關(guān)乎到他們的飯碗。
克隆聲音,從文本生成音頻,用你的聲音說出你不會說的話,正在變得越來越容易。OpenAI 語音模型所需的樣本,只有短短的 15 秒,短視頻都比這長。
行業(yè)頭部或許還站如松坐如鐘,但剛?cè)胄?、不出名、充當背景板的配音演員們懸起了心。
配音演員 Jared Butler 就是其中一位,他擅長模仿名人的聲音,曾是德普的「嘴替」,在《加勒比海盜 3:世界的盡頭》等大片為杰克船長配過音。
然而,比他更會模仿聲音的 AI 來了。Jared Butler 深感打擊:「你可能覺得,它們聽起來是糟糕的客服機器人,但我必須說,這項技術(shù)的準確性讓人恐懼?!?/p>
但也因為沒有什么可以失去,對于一些配音演員來說,AI 反而是個就業(yè)機會。AI 公司們和這些配音演員,屬于雙向奔赴。
當對數(shù)據(jù)質(zhì)量的要求越來越高,同時公開來源的數(shù)據(jù)搜集是否道德、是否經(jīng)過本人同意存在輿論爭議,AI 公司和專業(yè)人士達成你情我愿的合作,成了最穩(wěn)妥的方式。
Replica Studio 是較為出名的一家 AI 語音技術(shù)公司,已經(jīng)搭建起了一個游戲角色語音庫。
與之合作的一位配音演員透露,對于每個角色,他都會錄制不同情緒的臺詞,快樂的、悲傷的、壓力山大的。每種情緒大約有 7000 個單詞,最終的音頻數(shù)據(jù)集長達幾個小時。
雖然在短視頻之外,AI 配音還不那么普及,但嗅到危機的一些配音演員決定主動出擊,變相轉(zhuǎn)行,翻身做老板,手把手教 AI 代替自己。
為《博德之門 3》等游戲大作配過音的配音演員 Cissy Jones,發(fā)現(xiàn)自己被偷了聲音對方還不道歉之后,怒而開了一家 AI 語音初創(chuàng)公司 Morpheme。
她保證和那些小偷的道德標準不一樣,在爭得演員同意之后,才創(chuàng)建他們的數(shù)字替身,讓他們從中盈利,演員們也可以選擇結(jié)束合作。
與此同時,Cissy Jones 自己也想省力,讓 AI 幫自己做最累的配音部分,尖叫聲、沉重的呼吸聲,諸如此類。
說回文章開頭提到的 AI 帶貨視頻,起初,Ariel Marie 對 AI 只有一個模糊的概念。在貢獻自己的聲音和肖像之后,她問 Arcads 這些素材會用來做什么。
對方回答,你的肖像會被放在網(wǎng)站上,讓別人輸入他們想說的話,然后你說給他們聽。這個簡單的答案,反而打動了 Ariel Marie,她覺得有點可怕,但更多是覺得,這太酷了。
AI 不會倒退,詐騙等負面影響可能也很難禁絕,但同時 AI 只會變得更好、更快、更便宜、更接近人類。
站在原地討論人的創(chuàng)造力和人性如何保留,或許是蒼白而無力的。我們在一次次案例里被迫承認,AI 在某些方面已超過普通人,比如我們無法在思考幾秒之后,就字正腔圓、情緒飽滿地說出幾十秒的話。
但在人與人之間,起跑線或許差別不大,焦慮的情緒彼此共鳴,如何讓 AI 為自己所用,如何避免 AI 剝奪自己,不排斥看到新的世界的機會,也是人類創(chuàng)作力的體現(xiàn) 。