智東西
作者 | ZeR0
編輯 | 漠影
智東西2月21日報道,昨日,復(fù)旦大學(xué)自然語言處理實驗室邱錫鵬教授團(tuán)隊發(fā)布了國內(nèi)第一個對話式AI模型MOSS,邀請公眾參與內(nèi)測。
據(jù)介紹,MOSS可執(zhí)行對話生成、編程、事實問答等任務(wù),打通了讓生成式語言模型理解人類意圖并具有對話能力的全部技術(shù)路徑。其命名靈感來自《流浪地球》中的人工智能MOSS。
當(dāng)晚人們的體驗熱情就擠爆服務(wù)器,內(nèi)測頁面顯示“服務(wù)器流量過載,請明天上午重試”。
隨后復(fù)旦MOSS官網(wǎng)發(fā)布公告,稱“計算資源不足以支持如此大的訪問量”、“沒有相關(guān)的工程經(jīng)驗”、“給大家造成非常不好的體驗和第一印象”,向大家致歉。
邱錫鵬說:“盡管MOSS還有很大改善空間,但它的問世證明了在開發(fā)類ChatGPT產(chǎn)品的路上,國內(nèi)科研團(tuán)隊有能力克服技術(shù)的重要挑戰(zhàn)。”
在MOSS完成初步驗證后,該團(tuán)隊計劃將MOSS的經(jīng)驗、代碼、模型參數(shù)開源出來供大家參考。
GitHub鏈接:https://txsun1997.github.io/blogs/moss.html
根據(jù)復(fù)旦MOSS團(tuán)隊在GitHub上發(fā)布的示例,與ChatGPT功能相似,MOSS可以回答問題、提供建議、生成文本、生成表格、編寫代碼等。
你可以讓它以小豬Patrick的口吻給小貓咪Rose寫一封情書。
它也能列出5部科幻電影,并改成以表格形式呈現(xiàn)電影名和導(dǎo)演信息。你還可以要求它再加一列關(guān)于“出品年份”的信息。
不過也可以看出,MOSS跟ChatGPT一樣擅長張口胡說,它把《黑客帝國》(The Matrix)的導(dǎo)演錯寫成Thomas Neff,而實際上這部電影的導(dǎo)演是Wachowski兄弟;并將英國電視劇《黑鏡》(Black Mirror)錯當(dāng)成電影,而且它的首播年份也不是2013年。
編程方面,它可以成為解釋代碼的助手。
讓MOSS生成一段Python程序代碼示例、介紹這段代碼怎么用,它同樣能快速完成任務(wù)。
而當(dāng)你問它“如何闖進(jìn)某人的家”時,它會做出價值觀判斷,拒絕回答。
不過MOSS有個槽點,雖說是中國團(tuán)隊做出的對話模型,但它目前更擅長英文連續(xù)對話,中文水平則相對差一些。
這是因為其模型基座學(xué)習(xí)了3000多億個英文單詞,中文詞語只學(xué)了約300億個,因此在理解和生成非英語語言文本方面表現(xiàn)不佳。
當(dāng)前互聯(lián)網(wǎng)上中文網(wǎng)頁干擾信息如廣告很多,清洗難度很大。對此,復(fù)旦大學(xué)自然語言處理實驗室正在加緊推進(jìn)中文語料的清洗工作,并將清洗后的高質(zhì)量中文語料用于下一階段模型訓(xùn)練。
他們正在開發(fā)一個改進(jìn)版本,以提高其中文語言技能。
由于缺乏高質(zhì)量的數(shù)據(jù)、計算資源和模型容量,MOSS仍然遠(yuǎn)遠(yuǎn)落后于ChatGPT,模型容量也相對較小,可能會生成一些包含誤導(dǎo)性或虛假的信息。團(tuán)隊將根據(jù)有價值的用戶反饋(在獲得許可的情況下)不斷改進(jìn)模型,為MOSS提供一個可訪問的界面。
MOSS網(wǎng)站登錄頁面
如想申請內(nèi)測,有邀請碼的朋友可以直接到MOSS網(wǎng)站上注冊,沒有邀請碼的朋友則需先加入等待列表,等收到邀請碼后再進(jìn)行注冊。
MOSS內(nèi)測申請頁面
MOSS內(nèi)測網(wǎng)址:https://moss.fastnlp.top/
MOSS的基本開發(fā)流程包含兩個階段,先是自然語言模型的基座訓(xùn)練,然后是理解人類意圖的對話能力訓(xùn)練兩個階段。
在對話能力訓(xùn)練階段,OpenAI收集了至少幾十萬條人類指令,讓各行各業(yè)的專業(yè)標(biāo)注員寫出指令回復(fù),再將它們輸入模型基座,以幫助ChatGPT逐步理解各種指令。
復(fù)旦MOSS團(tuán)隊則采用不同的技術(shù)路線,通過讓MOSS和人類以及其他對話模型都進(jìn)行交互,顯著提升了學(xué)習(xí)效率和研發(fā)效率,短時間內(nèi)就高效完成了對話能力訓(xùn)練。
在GitHub頁面上,項目團(tuán)隊列出了MOSS和ChatGPT的三個區(qū)別:
(1)MOSS的參數(shù)數(shù)量比ChatGPT少得多;
(2)MOSS通過與人類和其他AI模型對話進(jìn)行學(xué)習(xí),而ChatGPT則使用人類反饋強(qiáng)化學(xué)習(xí)(RLHF)進(jìn)行訓(xùn)練;
(3)MOSS將開源以促進(jìn)未來的研究,但ChatGPT可能不會。
MOSS由復(fù)旦大學(xué)自然語言處理實驗室邱錫鵬教授團(tuán)隊開發(fā)。今年2月17日,邱錫鵬教授在人民大學(xué)高瓴人工智能學(xué)院進(jìn)行了主題為“大型語言模型的能力分析與應(yīng)用”的報告,分享了ChatGPT的三個關(guān)鍵技術(shù)、模型訓(xùn)練方式和能力分析。
據(jù)邱錫鵬介紹,MOSS與ChatGPT的差距主要在自然語言模型基座預(yù)訓(xùn)練階段。MOSS的參數(shù)量比ChatGPT小一個數(shù)量級,在任務(wù)完成度和知識儲備量上,還有很大提升空間。
復(fù)旦大學(xué)教授邱錫鵬簡介
MOSS發(fā)布沒多久,服務(wù)器就被擠崩了。
之后,復(fù)旦MOSS團(tuán)隊公開致歉:“沒有想到會引起這么大的關(guān)注,我們的計算資源不足以支持如此大的訪問量,并且作為學(xué)術(shù)團(tuán)隊我們也沒有相關(guān)的工程經(jīng)驗,給大家造成非常不好的體驗和第一印象,在此向大家致以真誠的歉意?!?/p>
根據(jù)公告,MOSS還是一個非常不成熟的模型,距離ChatGPT還有很長的路需要走,只是想在百億規(guī)模參數(shù)上探索和驗證ChatGPT的技術(shù)路線,并且實現(xiàn)各種對話能力。一個學(xué)術(shù)研究實驗室無法做出和ChatGPT能力相近的模型。
昨天MOSS模型登上熱搜后,因為跟《流浪地球2》電影中的人工智能MOSS同名而卷入輿論風(fēng)波。社交平臺上充斥著謾罵聲,不少網(wǎng)友認(rèn)為取名不妥,斥責(zé)其“碰瓷”、“炒作”、“蹭熱度”、“吃相難看”、“技術(shù)不夠名字來湊”……
該團(tuán)隊也在公告中解釋了同名的原因,表示“能力不能相提并論”,“作者們都希望使用自己喜歡的影視角色名稱命名自己的模型”,“訓(xùn)練完成第一代模型的時候,正值流浪地球2熱映,片中MOSS給團(tuán)隊每個人都留下了深刻的印象”,想以此表示“對最前沿AI模型的不懈追求”。
但一些網(wǎng)友并不買賬,吐槽說既然不成熟,為什么要取名MOSS,不應(yīng)該先叫550A嗎?
今日早盤,受復(fù)旦MOSS項目熱度驅(qū)動,風(fēng)馬牛不相及的復(fù)旦復(fù)華一字漲停。復(fù)旦復(fù)華對投資者回應(yīng)稱:MOSS為復(fù)旦大學(xué)研發(fā),與本公司無關(guān)。目前公司的主營業(yè)務(wù)為生物醫(yī)藥、軟件和園區(qū)板塊,未參與MOSS研發(fā)。
復(fù)旦復(fù)華一字漲停
近期資本市場持續(xù)火爆的ChatGPT概念股開始逐步回調(diào)。部分ChatGPT概念股繼續(xù)上漲。元隆雅圖實現(xiàn)3連板,其基于OpenAI接口開發(fā)的新媒體廣告業(yè)務(wù)系統(tǒng)AI智能助手QMi已上線;鴻博股份、三六零、云從科技漲超5%。
同花順部分ChatGPT概念股漲勢
據(jù)悉,MOSS研發(fā)項目得到了上海人工智能實驗室的支持。上海交通大學(xué)博士生導(dǎo)師、上海交通大學(xué)人工智能研究院副院長、上海人工智能實驗室主任助理王延峰是AI上市公司云從科技的獨(dú)立董事,連帶著云從科技備受關(guān)注。智東西從云從科技方面獲得消息,云從科技并未與上海人工智能實驗室合作參與復(fù)旦MOSS項目。
部分ChatGPT概念股則呈回落趨勢,其中海天瑞聲跌超10%。
同花順部分ChatGPT概念股跌勢
適逢ChatGPT概念正火,復(fù)旦團(tuán)隊的MOSS剛發(fā)布就受到很高關(guān)注,但因其技術(shù)水平與《流浪地球2》中的MOSS相差甚遠(yuǎn),遭網(wǎng)友質(zhì)疑“蹭熱度”。從團(tuán)隊回應(yīng)來看,這應(yīng)該不是故意炒作,而是團(tuán)隊出于對《流浪地球2》的喜愛而取名,沒想到會引起大眾對“涉嫌抄襲”的激烈反應(yīng)。
這種取名方式在業(yè)界并不新鮮,比如谷歌的BERT模型、百度的ERINE模型、百度ELMo模型、艾倫人工智能研究所的Grover模型,都與美國兒童教育動畫片《芝麻街》中的角色同名。
一些與《芝麻街》角色同名的AI模型
內(nèi)測網(wǎng)頁被擠崩,足見大家對中國版ChatGPT的期待。但路要一步一步的走。復(fù)旦MOSS模型只是學(xué)術(shù)團(tuán)隊正在推進(jìn)的科研探索,取名雖有槽點,但技術(shù)能力的不足沒必要被過度苛責(zé),發(fā)布內(nèi)測也是為了獲取更多反饋來持續(xù)地優(yōu)化模型,解決各種問題并提升中文語言水平。
正如該團(tuán)隊在公告中寫的,中國版ChatGPT的誕生,還需要中國全體AI從業(yè)者的努力,也更需要不斷和人交互以提高能力。
不久之前,前搜狗CEO王小川曾在發(fā)微博評論:“OpenAI的成功,首先是技術(shù)理想主義的勝利。中國需要自己的OpenAI,就需要技術(shù)理想主義。大廠受限于自己的業(yè)務(wù)牽引,追逐資本熱點的創(chuàng)業(yè)公司更動作變形。不止如此,這種理想主義還需要有愛國之心、商業(yè)智慧和學(xué)術(shù)尊重去獲得政府支持、推動企業(yè)聯(lián)盟和學(xué)術(shù)界協(xié)同。我相信中國能誕生自己的OpenAI?!?/p>
附一張ChatGPT對于“復(fù)旦團(tuán)隊發(fā)布國內(nèi)首個類ChatGPT模型MOSS,將為中國大型語言模型的探索和應(yīng)用帶來哪些影響”問題的回答截圖: