6月20日消息,人工智能領(lǐng)域的專家預(yù)測,隨著越來越多的人工智能生成的內(nèi)容在網(wǎng)上發(fā)布,未來接受這些數(shù)據(jù)訓(xùn)練的人工智能最終將陷入混亂。
一群英國和加拿大的科學(xué)家在5月發(fā)表了一篇論文,試圖了解幾代AI相互訓(xùn)練后會發(fā)生什么。在一個例子中,經(jīng)過九次迭代的人工智能系統(tǒng)會喋喋不休地談?wù)撘巴茫畛醯脑疾牧鲜顷P(guān)于中世紀(jì)建筑的。
該研究的作者之一、劍橋大學(xué)教授羅斯·安德森(Ross Anderson)在闡述關(guān)于研究結(jié)果的博客文章中寫道,數(shù)據(jù)表明,“經(jīng)過幾次迭代后,人工智能輸出的文字就變成了垃圾,圖像也會變得無法理解”。這些科學(xué)家們的論文尚未經(jīng)過同行評審,他們稱這種現(xiàn)象為“模型崩潰”。
聊天機(jī)器人ChatGPT背后的大語言模型(LLM)通常需要從互聯(lián)網(wǎng)上抓取大量數(shù)據(jù)進(jìn)行訓(xùn)練,這些數(shù)據(jù)多為人類生成。但隨著人們對這些工具的使用越來越多,人工智能生成的內(nèi)容正被大量添加到在線數(shù)據(jù)池中,未來的LLM將從中學(xué)習(xí)。
科學(xué)家們說,利用人工智能生成內(nèi)容對人工智能系統(tǒng)進(jìn)行迭代訓(xùn)練,意味著錯誤和無意義的例子會不斷增加,使后來的人工智能無法區(qū)分事實和虛構(gòu)內(nèi)容。他們擔(dān)憂道,人工智能將“通過強(qiáng)化自己的信念,開始曲解他們認(rèn)為是真實的東西”。
安德森用莫扎特(Mozart)和另一位音樂家安東尼奧·薩列里(Antonio Salieri)的作品來闡釋這個問題。
他寫道:“如果你用莫扎特的作品來訓(xùn)練某個音樂模型,你可以期待輸出的音樂風(fēng)格有點(diǎn)像莫扎特,但不會有太多亮點(diǎn),我們可以稱之為‘薩列里’。然后再利用‘薩列里’訓(xùn)練下一代人工智能系統(tǒng),如此反復(fù)下去,第五代或第六代模型會是什么樣子?”
這項研究的第一作者、牛津大學(xué)教授亞·舒馬伊洛夫(Ilia Shumailov)說,問題在于人工智能在接受早期人工智能生成內(nèi)容的訓(xùn)練后對概率的感知。不太可能發(fā)生的事件越來越不可能反映在它的輸出中,從而縮小了下一代人工智能(根據(jù)這種輸出進(jìn)行訓(xùn)練)所能理解的可能性。
在論文中給出的一個例子中,人類生成的關(guān)于中世紀(jì)建筑的文本通過人工智能語言模型輸入,然后該模型的輸出用于訓(xùn)練下一代人工智能。最初的文本巧妙地處理了相互競爭的建筑理論,并經(jīng)過了多次這樣的循環(huán)。
到了第九次迭代,這些文字就變成了毫無意義的胡言亂語。上面寫著:“建筑是世界上最大的黑長耳大野兔、白長耳大野兔、藍(lán)長耳大野兔、紅長耳大野兔、黃長耳大野兔的家園。 ”
安德森將“模型崩潰”比作大規(guī)模污染,他寫道:“就像我們在海洋里撒滿了塑料垃圾,在大氣中放滿了二氧化碳,我們即將讓互聯(lián)網(wǎng)上充滿胡言亂語?!?/p>
人工智能生成的內(nèi)容已經(jīng)在網(wǎng)上大規(guī)模出現(xiàn)。今年5月,在線虛假信息監(jiān)管機(jī)構(gòu)NewsGuard警告稱,它發(fā)現(xiàn)49個新聞網(wǎng)站似乎完全由人工智能撰寫內(nèi)容。
據(jù)報道,市場營銷和公關(guān)機(jī)構(gòu)越來越多地將文案外包給聊天機(jī)器人,從而搶走了人類創(chuàng)作者的工作。但是,根據(jù)舒馬伊洛夫和安德森的發(fā)現(xiàn),希望不被人工智能打敗的人類創(chuàng)作者還不應(yīng)該開香檳慶祝。
舒馬伊洛夫說,對于訓(xùn)練人工智能來說,人工生成的數(shù)據(jù)并不是絕對必要的,它之所以有用,是因為我們的語言產(chǎn)生了大量的自然變化、錯誤和不可預(yù)測的結(jié)果。
“所以,人類肯定會提供幫助,”他說?!芭c此同時,這也表明,在訓(xùn)練人工智能時,人類數(shù)據(jù)的需求不會非常龐大?!保ㄐ⌒。?/p>