·“數(shù)據(jù)質(zhì)量的差別是主要瓶頸之一。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開源程度較低,導(dǎo)致中文數(shù)據(jù)集的規(guī)模相對(duì)較小。此外,英文作為科研主流語言,在學(xué)術(shù)界和工業(yè)界中得到廣泛應(yīng)用,積累了大量高質(zhì)量的語料數(shù)據(jù),這為英文自然語言處理的研究提供了極大的優(yōu)勢(shì)?!?br/>2月20日晚間,復(fù)旦大學(xué)邱錫鵬教授團(tuán)隊(duì)發(fā)布國(guó)內(nèi)首個(gè)類ChatGPT模型MOSS,引發(fā)各界人士參與內(nèi)測(cè)的熱情。一個(gè)顯著的反饋是,MOSS的英文回答水平比中文高,這在公眾與ChatGPT的互動(dòng)中也有類似體現(xiàn)。為何如此?
位于深圳的粵港澳IDEA研究院認(rèn)知計(jì)算與自然語言中心文本生成算法團(tuán)隊(duì)負(fù)責(zé)人王昊對(duì)澎湃科技(.thepaper.cn)表示,“數(shù)據(jù)質(zhì)量的差別是主要瓶頸之一。相較于英文數(shù)據(jù),中文數(shù)據(jù)的開源程度較低,導(dǎo)致中文數(shù)據(jù)集的規(guī)模相對(duì)較小。此外,英文作為科研主流語言,在學(xué)術(shù)界和工業(yè)界中得到廣泛應(yīng)用,積累了大量高質(zhì)量的語料數(shù)據(jù),這為英文自然語言處理的研究提供了極大的優(yōu)勢(shì)?!?br/>MOSS研究團(tuán)隊(duì)也坦誠(chéng),“MOSS的英文回答水平比中文高,因?yàn)樗哪P突鶎W(xué)習(xí)了3000多億個(gè)英文單詞,中文詞語只學(xué)了約300億個(gè)。”
王昊認(rèn)為,對(duì)于中文來說,高質(zhì)量無監(jiān)督語料和指令數(shù)據(jù)尤其嚴(yán)重不足。因此,中文自然語言處理領(lǐng)域需要更多的投入和努力來積累高質(zhì)量的數(shù)據(jù),并將其開源,以促進(jìn)中文自然語言處理的發(fā)展。
清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系長(zhǎng)聘副教授、聆心智能創(chuàng)始人黃民烈曾制定了全球首個(gè)《AI對(duì)話系統(tǒng)分級(jí)定義》,他在接受澎湃科技(.thepaper.cn)采訪時(shí)表示,“從數(shù)據(jù)和應(yīng)用的角度來說,中國(guó)的科技企業(yè)目前來看有比較大的優(yōu)勢(shì)。從數(shù)據(jù)角度來說,國(guó)內(nèi)其實(shí)是產(chǎn)出了大量數(shù)據(jù)的,但數(shù)據(jù)的準(zhǔn)確性和可靠性如果能夠提上去,對(duì)于模型的學(xué)習(xí)和生成來說都會(huì)幫助很大?!?br/>“而國(guó)內(nèi)的應(yīng)用場(chǎng)景和市場(chǎng)其實(shí)是更加廣闊的,在新聞、廣告、教育等等領(lǐng)域,而應(yīng)用市場(chǎng)越廣帶來的優(yōu)質(zhì)數(shù)據(jù)也會(huì)越高,這樣其實(shí)是能夠?qū)崿F(xiàn)雙飛輪的運(yùn)轉(zhuǎn),從而加速AIGC領(lǐng)域的成長(zhǎng)?!秉S民烈接著說道。
2月20日晚,MOSS發(fā)布至公開平臺(tái)(https://moss.fastnlp.top/),邀公眾參與內(nèi)測(cè)。當(dāng)晚,社交媒體上出現(xiàn)截圖,顯示該平臺(tái)“服務(wù)器流量過載,請(qǐng)明天上午重試”。隨后,該平臺(tái)官網(wǎng)發(fā)布一則公告,解釋稱“計(jì)算資源不足以支持如此大的訪問量”,“給大家造成非常不好的體驗(yàn)和第一印象”,并致以真誠(chéng)的歉意。
復(fù)旦MOSS團(tuán)隊(duì)回應(yīng)體驗(yàn)“非常不好”:距離ChatGPT還有很長(zhǎng)的路。
在公告中,MOSS研究團(tuán)隊(duì)稱,“MOSS只是想在百億規(guī)模參數(shù)上探索和驗(yàn)證ChatGPT的技術(shù)路線,并且實(shí)現(xiàn)各種對(duì)話能力?!?br/>那么AI對(duì)話技術(shù)發(fā)展到今天經(jīng)過了哪些關(guān)鍵節(jié)點(diǎn),當(dāng)下的“技術(shù)路線”又是什么?
黃民烈解答道,回顧早期聊天機(jī)器人的對(duì)話,大部分都是基于規(guī)則的,第二代在技術(shù)上混合了一些規(guī)則和機(jī)器學(xué)習(xí)的方法。到了第三代,就是以Transformer為基本架構(gòu)的大模型作為技術(shù)底座,實(shí)際上還是在一個(gè)新的神經(jīng)網(wǎng)絡(luò)架構(gòu)下,結(jié)合大量的數(shù)據(jù)和算力優(yōu)化去做到的,所以技術(shù)上有了顯著的一些進(jìn)步。由于對(duì)話本身就是在語言處理中最重要也是最難的任務(wù),也就是最近一兩年,才因?yàn)榇竽P偷陌l(fā)展使得聊天機(jī)器人在性能上有接近人類的表現(xiàn)。
復(fù)旦大學(xué)計(jì)算機(jī)科學(xué)技術(shù)學(xué)院教授邱錫鵬此前在接受澎湃新聞采訪時(shí)表示,“GPT-3的In-context learning是一個(gè)我覺得有變革性的范式。不再需要調(diào)參,給一些提示,就可以去做任務(wù)了。這個(gè)目前雖然說質(zhì)量并沒有調(diào)參的好,但也能達(dá)到一個(gè)不錯(cuò)的效果,這個(gè)會(huì)讓大模型看起來更加智能。”
什么是In-context learning(上下文學(xué)習(xí))?“以前的方式是基于模型參數(shù)調(diào)整的,比如說要識(shí)別貓,然后看模型能不能檢測(cè)到貓的位置。如果標(biāo)的不對(duì),再通過誤差反過來去調(diào)整參數(shù),使得預(yù)測(cè)和正確位置對(duì)應(yīng)起來。上下文學(xué)習(xí)則是圈出來貓的位置,然后再給它一張另外的圖片,問它貓?jiān)谀睦铮克湍軌蛘_圈出來。這個(gè)任務(wù)它之前沒有見過,但是通過這樣的方式就學(xué)會(huì)了?!鼻皴a鵬講解道。
調(diào)參極耗費(fèi)人力和時(shí)間成本,尤其是GPT-3這樣的超大模型。碳同化系統(tǒng)Carbontracker估計(jì),訓(xùn)練GPT-3一次所需的電量與丹麥126戶家庭每年使用的電量相同。而In-context learning可以讓一個(gè)未經(jīng)進(jìn)一步調(diào)參的預(yù)訓(xùn)練大模型,通過給其恰當(dāng)?shù)膁emonstration(示例)學(xué)會(huì)完成目標(biāo)任務(wù)。
黃民烈也提到上下文理解技術(shù)?!癈hatGPT最大的特點(diǎn)是通用任務(wù)助理,也就是在一個(gè)模型之內(nèi)可以完成如此之多的開放任務(wù),同時(shí)它在生成任務(wù)、上下文理解、安全倫理方面也有相當(dāng)好的表現(xiàn)?!笨偨Y(jié)而言,黃民烈認(rèn)為,這里面的技術(shù)突破是一個(gè)技術(shù)、工程、數(shù)據(jù)的綜合性工程創(chuàng)新,是一個(gè)長(zhǎng)期積累從量變到質(zhì)變的過程。比如從GPT-3到代碼,到加instruct,到RL,以及數(shù)據(jù)和模型之間的飛輪,造成了這些質(zhì)變。