出品|虎嗅科技組
作者|齊健
編輯|陳伊凡
頭圖|FlagStudio
“OpenAI會(huì)再開源大模型嗎?”
當(dāng)智源研究院理事長(zhǎng)張宏江向線上參加2023年智源大會(huì)的OpenAI首席執(zhí)行官Sam Altman問及開源問題時(shí),Sam Altman微笑表示,OpenAI未來會(huì)開放更多代碼,但沒有具體的開源時(shí)間表。
這樣的討論來自這次智源大會(huì)的話題之一——開源大模型。
6月9日,2023年智源大會(huì)在北京舉行,座無虛席。在大會(huì)現(xiàn)場(chǎng),“算力”、“大模型”“生態(tài)”等與AI相關(guān)的詞時(shí)不時(shí)出現(xiàn)在參會(huì)者的聊天中,還有這個(gè)產(chǎn)業(yè)鏈上的各家公司。
本次大會(huì)上,智源研究院發(fā)布了全面開源的悟道3.0。包括視覺大模型系列“視界”,語言大模型系列“天鷹”,以及獨(dú)創(chuàng)的大模型評(píng)測(cè)體系“天秤”。
大模型開源,就意味著公開模型代碼,供AI開發(fā)者研究。悟道3.0中的“天鷹”基礎(chǔ)層語言模型還是一款可商用的模型,每個(gè)人都可以這款大模型。
“目前,國(guó)際上有三家機(jī)構(gòu)在AI領(lǐng)域處在前沿地位,微軟的深度合作伙伴OpenAI,谷歌,以及BAAI?!蔽④浛偛肂rad Smith在不久前的一次采訪中,曾提到一家與OpenAI、谷歌齊名的中國(guó)“最強(qiáng)”AI研究機(jī)構(gòu)BAAI,這家機(jī)構(gòu)就是北京智源人工智能研究院。這樣一家研究院舉辦的人工智能大會(huì),被眾多業(yè)內(nèi)人士視為行業(yè)的風(fēng)向標(biāo)。
被微軟總裁高度認(rèn)可的智源研究院,早在2020年10月已啟動(dòng)了AI大模型“悟道”項(xiàng)目,并先后發(fā)布了悟道大模型1.0和2.0兩個(gè)版本。其中悟道2.0官方公布的參數(shù)規(guī)模達(dá)到1.7萬億。彼時(shí),OpenAI公布1750億參數(shù)的GPT-3模型也才一年時(shí)間。
不過,就是這樣一個(gè)AI大模型的先行者,在最近半年的AI大模型熱潮中,卻異常低調(diào)。
當(dāng)大廠和創(chuàng)業(yè)公司中,大模型層出不窮時(shí),智源在過去三個(gè)多月里,對(duì)外一直保持“靜默”狀態(tài),除了4月上旬與Meta的摳圖AI“SAM”撞車的“SegGPT”,幾乎沒有向公眾透露任何有關(guān)AI大模型的信息。
對(duì)此,AI行業(yè)內(nèi)外的很多人都有疑問,在AI大模型領(lǐng)域領(lǐng)先的智源研究院,為什么在大模型的時(shí)刻似乎來遲了?
開源模型要拆了OpenAI的護(hù)城河嗎?
“雖然現(xiàn)在的大模型競(jìng)爭(zhēng)火熱,但無論是OpenAI還是谷歌,都沒有護(hù)城河,因?yàn)椤_源’正在AI大模型領(lǐng)域崛起?!?/strong>
在一份谷歌泄露的文件中,谷歌內(nèi)部研究人員認(rèn)為,開源模型或?qū)⒁I(lǐng)大模型發(fā)展的未來,這份文件中提到“開源模型的迭代速度更快,可定制性更強(qiáng),更有私密性,而當(dāng)免費(fèi)的、不受限制的替代品質(zhì)量相當(dāng)時(shí),人們不會(huì)為受限制的模型付費(fèi)。”這或許也是智源選擇開發(fā)開源大模型的原因之一。
目前,開源的商用大模型并不多,智源研究院對(duì)目前已發(fā)布的部分AI大模型進(jìn)行了一個(gè)調(diào)查,在國(guó)外發(fā)布的39個(gè)開源語言大模型中,可商用的大模型有16個(gè)。國(guó)內(nèi)已發(fā)布的28個(gè)大語言模型中,開源模型有11個(gè),其中開源可商用的模型僅有1個(gè)。
智源此次發(fā)布的大語言模型是開源且可商用的模型,也是目前為數(shù)不多的可商用開源大語言模型之一,這也決定了這樣的模型在發(fā)布之前需要更加謹(jǐn)慎。
“就智源來說,肯定不希望開源模型太難看,所以會(huì)謹(jǐn)慎發(fā)布?!敝窃创髸?huì)現(xiàn)場(chǎng)的一位AI研究員表示,開源模型難免要被反復(fù)驗(yàn)證,被大量開發(fā)者挑bug,為了保證開源模型的質(zhì)量,智源的研發(fā)進(jìn)度可能被“開源”拖慢了一些。
智源研究院院長(zhǎng)黃鐵軍認(rèn)為,目前我國(guó)市場(chǎng)上大模型的開源開放力度遠(yuǎn)遠(yuǎn)不夠,“我們應(yīng)該進(jìn)一步加強(qiáng)開源開放。開源開放也是競(jìng)爭(zhēng),真有水平、真有好算法,拿出來評(píng)測(cè)、去比,才能證明技術(shù)水平。”
目前國(guó)內(nèi)的大模型技術(shù)透明度不高,不少國(guó)內(nèi)廠商在大模型發(fā)布之初,都曾被質(zhì)疑模型是否自研。有人說他們是API調(diào)用ChatGPT,也有人說他們用Meta泄露的LLaMA模型+ChatGPT的答案數(shù)據(jù)訓(xùn)練而來,開源模型則從源頭上斷絕了這些質(zhì)疑。
不過,開源模型,提高技術(shù)透明度并不是為了自證清白,而是真的要“集中力量辦大事”。據(jù)智源數(shù)據(jù)顯示,天鷹大語言模型每天的訓(xùn)練成本在10萬元以上,而在國(guó)內(nèi)“百模大戰(zhàn)”甚至“千模大戰(zhàn)”的大勢(shì)下,很多行業(yè)中都在進(jìn)行大量不必要的重復(fù)訓(xùn)練,導(dǎo)致的重復(fù)開支可能是個(gè)天文數(shù)字。
而開源模型可以減少重復(fù)訓(xùn)練,對(duì)于有模型需求的企業(yè)來說,直接利用開源可商用的AI大模型,結(jié)合自身數(shù)據(jù)進(jìn)行訓(xùn)練,或許是AI落地和行業(yè)應(yīng)用的最優(yōu)解。
開源的另一方面考慮,在于前期積累用戶和開發(fā)者,以便構(gòu)建良好生態(tài),并實(shí)現(xiàn)未來的商業(yè)化。一位國(guó)內(nèi)大模型公司創(chuàng)始人告訴虎嗅,“OpenAI的GPT-1和GPT-2都是開源的大模型,這是為了積累用戶,提高模型的認(rèn)可度。等到GPT-3的模型能力涌現(xiàn)出來,就會(huì)開始考慮商業(yè)化,模型也會(huì)逐漸走向封閉。因此,開源模型一般不會(huì)允許商用,這也是出于后續(xù)商業(yè)化的考慮?!?/p>
但顯然,智源作為非營(yíng)利的研究機(jī)構(gòu),在開源問題上,并沒有商業(yè)化的考慮。對(duì)于智源而言,在模型開源方面,一方面是希望通過對(duì)底層模型等開源開放,促進(jìn)AI大模型行業(yè)的科研創(chuàng)新,加速產(chǎn)業(yè)落地。另一方面,或許也是想要基于開源模型積累更多的用戶反饋,提升大模型在工程上的可用性。
不過,模型開源也并非“完美”。
一位大廠AI技術(shù)總監(jiān)告訴虎嗅,目前的AI大模型的商業(yè)化市場(chǎng)可以分為三層,第一層是完全具備自研模型能力的頭部大玩家,第二層是需要根據(jù)特定場(chǎng)景訓(xùn)練專有模型的企業(yè),第三層則是只需要通用模型能力,使用API接口調(diào)用即可滿足需求的中小客戶。
在這個(gè)背景下,開源模型對(duì)于有自研能力的頭部玩家來說,可以幫助他們省去了大量研發(fā)模型的時(shí)間和成本。但對(duì)于第二層和第三層企業(yè)來說,則需要他們自己組建技術(shù)團(tuán)隊(duì)去對(duì)模型進(jìn)行訓(xùn)練和調(diào)優(yōu),而這對(duì)于很多技術(shù)實(shí)力不那么雄厚的企業(yè)來說,反而把落地流程變得更加復(fù)雜了,開源對(duì)他們來說似乎有一些“免費(fèi)的東西最貴”的感覺。
此“悟道”已非彼“悟道”
智源的悟道3.0,是一套完全重新開發(fā)的大模型系列,這也是其“遲發(fā)”的原因之一。
既然已經(jīng)有了悟道2.0的基礎(chǔ),智源為什么要重新開發(fā)一套模型體系?一方面是模型的技術(shù)方向調(diào)整,另一方面則是由于模型底層訓(xùn)練數(shù)據(jù)的“換血”。
“悟道2.0的研發(fā)是在2021年,所以無論是語言模型(如GLM)還是文生圖模型(如CogView),其所基于的算法架構(gòu)從現(xiàn)在來看是比較早的。在過去一年多,相關(guān)領(lǐng)域的模型架構(gòu)已經(jīng)有了更多的驗(yàn)證、或演進(jìn)。例如,語言模型中采用decoder only的架構(gòu),已經(jīng)證實(shí),加以更高質(zhì)量的數(shù)據(jù),可以在大規(guī)模參數(shù)的基礎(chǔ)模型中,獲得更好的生成性能。在文生圖模型中,我們改用了基于difussion來進(jìn)行進(jìn)一步的創(chuàng)新。所以在悟道3.0中,我們對(duì)語言大模型、文圖生成大模型等都采用了這些更新的架構(gòu)來重新開發(fā)。”在智源研究院副院長(zhǎng)兼總工程師林詠華表示,基于過去模型的研究,悟道3.0在很多方向進(jìn)行了重構(gòu)。
另外,悟道3.0還對(duì)底層模型的訓(xùn)練數(shù)據(jù)進(jìn)行了全面優(yōu)化升級(jí),訓(xùn)練數(shù)據(jù)中使用了更新的悟道中文數(shù)據(jù),包括2021年到現(xiàn)在的,并進(jìn)行了更嚴(yán)格的質(zhì)量清洗;另一方面,增加了大量的高質(zhì)量中文,包括中文書籍、文獻(xiàn)等;此外還增加了高質(zhì)量的代碼數(shù)據(jù)集等,因此基礎(chǔ)模型也發(fā)生了很大的改變。
在此之前,很多國(guó)內(nèi)模型對(duì)中文理解能力不行的問題,就源自底層模型訓(xùn)練的數(shù)據(jù)不是原生中文。國(guó)外的AI大模型,以及部分國(guó)內(nèi)模型都采用了大量國(guó)外開源數(shù)據(jù)進(jìn)行訓(xùn)練。其中主要的來源包括著名的開源數(shù)據(jù)集Common Crawl。
智源對(duì)100萬條Common Crawl網(wǎng)頁數(shù)據(jù)進(jìn)行分析,可以提取出中文的網(wǎng)頁有39052個(gè)。從站源角度來看,可以提取出中文的網(wǎng)站共有25842個(gè),其中IP在中國(guó)內(nèi)地的,只有4522個(gè),占比僅為17%。這樣不僅中文數(shù)據(jù)的準(zhǔn)確性大打折扣,安全性也很低。
“訓(xùn)練基礎(chǔ)模型的語料很大程度會(huì)影響AIGC應(yīng)用、微調(diào)后的模型等內(nèi)容生成的合規(guī)、安全和價(jià)值觀?!绷衷伻A表示,天鷹基礎(chǔ)模型的中文能力不是簡(jiǎn)單的翻譯,而是把足夠多中文的知識(shí)“壓到這個(gè)模型里”,它的中文互聯(lián)網(wǎng)數(shù)據(jù)99%來自國(guó)內(nèi)網(wǎng)站,企業(yè)可以放心地基于它做持續(xù)訓(xùn)練。
同時(shí),通過大量對(duì)數(shù)據(jù)、數(shù)字的精細(xì)化處理和清洗,達(dá)到用少的數(shù)據(jù)量來訓(xùn)練出一樣性能甚至性能更好的模型,這個(gè)數(shù)據(jù)甚至低到30%、40%的數(shù)據(jù)量就能趕上或者超過現(xiàn)有的開源模型了。
如今看來,這條路徑對(duì)于智源來說,也許是個(gè)更優(yōu)解。因?yàn)樵谟?xùn)練數(shù)據(jù)方面,智源與互聯(lián)網(wǎng)廠商相比存在短板?;ヂ?lián)網(wǎng)大廠不僅擁有大量來自用戶側(cè)的交互數(shù)據(jù),還擁有很多可用于訓(xùn)練的版權(quán)數(shù)據(jù)。就在不久前,阿里達(dá)摩院剛剛發(fā)布來一款視頻語言數(shù)據(jù)集Youku-mPLUG,其中的所有內(nèi)容均來自阿里旗下的視頻平臺(tái)優(yōu)酷。
由于智源沒有深厚的用戶基礎(chǔ),所以在訓(xùn)練數(shù)據(jù)方面,只能通過與版權(quán)方協(xié)商獲得授權(quán),并通過一些公益數(shù)據(jù)項(xiàng)目一點(diǎn)點(diǎn)采集積累。
但是,目前智源的中文數(shù)據(jù)集還只能做到部分開源,其主要原因是,中文數(shù)據(jù)的版權(quán)分散在各個(gè)機(jī)構(gòu)手中,目前智源的訓(xùn)練數(shù)據(jù)是在多方協(xié)調(diào)下,獲得的針對(duì)開源模型研究開放的使用權(quán)限。大部分?jǐn)?shù)據(jù)只能應(yīng)用到智源的模型中,而沒有開放二次使用的權(quán)利。
“國(guó)內(nèi)很有必要建立針對(duì)數(shù)據(jù)集的產(chǎn)業(yè)聯(lián)盟,把版權(quán)所有方聯(lián)合在一起,對(duì)人工智能方面的訓(xùn)練數(shù)據(jù)進(jìn)行統(tǒng)一規(guī)劃,但這需要頂層設(shè)計(jì)的智慧。”林詠華告訴虎嗅。
國(guó)內(nèi)大模型行業(yè)的黃埔軍校
悟道3.0正在講一個(gè)與悟道2.0不同的故事,研發(fā)團(tuán)隊(duì)的變化是其中之一。作為AI大模型行業(yè)的先驅(qū),智源研究院就像是國(guó)內(nèi)AI大模型的黃埔軍校。上到智源學(xué)者,下至基層工程師,在今天的大模型熱潮中,都成了行業(yè)里的香餑餑,智源的原始團(tuán)隊(duì)中,也孵化了幾個(gè)大模型的創(chuàng)業(yè)團(tuán)隊(duì)。
在悟道3.0之前,一個(gè)大模型系列是由多個(gè)外部實(shí)驗(yàn)室聯(lián)合發(fā)布的研究成果的組合,而這次的悟道3.0是由智源團(tuán)隊(duì)完全自研的系列模型。
2021年發(fā)布的悟道2.0模型,其中包括:文源、文瀾、文匯、文溯。其中,兩個(gè)核心模型分別由清華的兩個(gè)實(shí)驗(yàn)室主力完成。而如今這兩個(gè)團(tuán)隊(duì)都已成立了自己的創(chuàng)業(yè)公司,并沿著CPM和GLM的研發(fā)路徑形成了自己的獨(dú)立產(chǎn)品。
其中,GLM的主力研發(fā)團(tuán)隊(duì)清華大學(xué)知識(shí)工程研究室(KEG),就與智譜AI一同推出了開源模型ChatGLM-6B,并得到了業(yè)界的廣泛認(rèn)可;CPM的主力研發(fā)團(tuán)隊(duì),清華大學(xué)計(jì)算機(jī)系自然語言處理與社會(huì)人文計(jì)算實(shí)驗(yàn)室(THUNLP)中的部分成員組成的深言科技,成立一年就受到了各家資本的青睞,今年的兩輪融資中分別出現(xiàn)了騰訊投資、紅杉中國(guó)、奇績(jī)創(chuàng)壇等基金的身影。
有接近智源研究院的人士告訴虎嗅,自從國(guó)內(nèi)AI大模型升溫以來,智源團(tuán)隊(duì)成為了人才大戰(zhàn)的“圍獵目標(biāo)”,“整個(gè)研發(fā)團(tuán)隊(duì)都被其他公司或獵頭盯上”。
當(dāng)下國(guó)內(nèi)AI大模型行業(yè),最不缺的是錢,最缺的就是人。在獵聘、脈脈、BOSS直聘三個(gè)平臺(tái)搜索ChatGPT,碩博學(xué)歷職位的月薪普遍高于3萬,最高達(dá)9萬。“在薪酬方面IT大廠并不會(huì)占多少便宜,AI大模型的研發(fā)都是高舉高打,創(chuàng)業(yè)公司給出的薪酬可能更有競(jìng)爭(zhēng)力?!蔽骱某紺OO俞佳對(duì)虎嗅表示,人才大戰(zhàn)在AI行業(yè)里將會(huì)越來越激烈。
“薪酬double,在智源的很多員工看來根本就沒有競(jìng)爭(zhēng)力。因?yàn)楝F(xiàn)在都是拿著五倍甚至十倍工資來挖人。即使你再有理想,對(duì)未來再有規(guī)劃,也很難頂住過百萬年薪的誘惑?!币晃唤咏窃吹娜耸扛嬖V虎嗅,由于智源是一家非營(yíng)利研究機(jī)構(gòu),薪酬水平很難與互聯(lián)網(wǎng)大廠或者是背后有大量資本支持的創(chuàng)業(yè)公司相比。
虎嗅從獵頭處了解到NLP(自然語言識(shí)別)研究專家的年薪目前起步都會(huì)超過100萬。對(duì)于一些工作年限長(zhǎng),工資不高的員工來說,面對(duì)幾倍的薪水很難不動(dòng)搖。
不過,從目前智源的公開數(shù)據(jù)來看,智源研究院的各個(gè)核心項(xiàng)目團(tuán)隊(duì)帶頭人,多數(shù)還在全職負(fù)責(zé)智源研究院的研發(fā)項(xiàng)目。
“悟道3.0的模型全部是智源自己的研究人員開發(fā)的,包括天鷹、天秤,以及視界。”林詠華表示,智源研究院目前的研發(fā)實(shí)力在行業(yè)中一直是頂尖的。