本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創(chuàng)內容,未經賬號授權,禁止隨意轉載。
作者 | ZeR0
編輯 | 漠影
智東西6月16日報道,在今日舉行的人工智能框架生態(tài)峰會2023上,中國科學院自動化研究所所長徐波正式發(fā)布紫東太初2.0全模態(tài)大模型。
相比以前的大模型,紫東太初2.0新增了視頻、傳感信號、3D點云等模態(tài),擁有了更強的認知、理解、創(chuàng)作能力。
它不僅有和ChatGPT類似的多輪問答、文本創(chuàng)作能力,還實現(xiàn)了全模態(tài)輸入,支持視頻、圖像、音樂、3D、信號的理解,并能夠實現(xiàn)圖文音搜索、圖像生成、音樂生成、信號分析等功能。
智東西拿到了內測資格,并第一時間對紫東太初2.0的音樂能力、信號類能力、視頻能力、跨模態(tài)能力、圖像能力、語言能力等進行體驗。
一、能力詳解,從生成音樂、看懂視頻到推理分析
1、音樂及信號類能力:生成、識別、多模問答
紫東太初2.0可以通過給定的文本提示,可控生成高保真的音樂,并支持即興創(chuàng)作多種風格類型和多種樂器演奏的音樂。
8c16a582594_8c16a58254b_屏幕錄制2023-06-16-13.11.17
比如,上傳一段音樂文件,讓紫東太初2.0識別這個音樂是什么,它能識別出這是貝多芬的交響曲,并分享了這段音樂表達了怎樣的感情。
你還可以詢問這段音樂是用什么樂器演奏的,讓紫東太初2.0根據這段音樂作詩,或者追問貝多芬的生平是怎樣的。
紫東太初2.0也支持雷達信號鑒別與知識交互,可借助模型快速掌握信號基本來源及參數(shù)等。
上傳一段信號后,你可以向它詢問這段信號的相關信息。
2、視頻能力:理解、描述、搜索
視頻能力方面,紫東太初2.0能基于用戶上傳的視頻素材,準確理解并回答視頻識別、視頻描述類問題,同時支持上下文信息理解和多輪問答。
比如,上傳一段唱歌跳舞的視頻,問紫東太初2.0這段視頻描述了什么、對視頻中音樂的感受、是否認可等問題。
此外,紫東太初2.0擁有海量的高質視頻素材庫,具備視頻素材檢索能力。
比如讓它找一個踢足球的視頻。
你還可以針對視頻內容進一步發(fā)問,讓紫東太初2.0結合動作和音樂分析視頻,或是根據視頻內容預測后面可能發(fā)生什么事。
3、跨模態(tài)能力:“圖像+音頻+視頻”理解與分析
紫東太初2.0能結合多個圖像、音頻、視頻文件,進行綜合理解與創(chuàng)作。
上傳兩個視頻,問這兩個視頻的共同特點是什么?對此,紫東太初2.0能夠結合視頻的畫面和聲音,分析出共通之處以及各自的差異點。
另一個例子是圖像+音頻。
上傳一張圖書館的圖片和一段鼓掌聲音頻,問這段音頻有沒有可能出現(xiàn)在圖片里的場景中?
紫東太初2.0給出答案:不太可能,原因是圖片中的場景沒有慶?;驓g迎的氛圍。
或者,上傳一張足球場的圖片+一段鼓掌聲音頻,讓紫東太初2.0結合圖片和音頻,分析一下場景的氛圍。
通過綜合理解圖像、音頻、視頻信息,紫東太初2.0“拼出”一個完整的信息描述,或者將這些內容串聯(lián)形成一段流暢的故事。
4、圖像與3D場景能力:描述、目標檢測、檢索、生成
紫東太初2.0能基于用戶上傳的圖片素材,準確理解并回答圖片識別類問題,包括識別圖像主體、背景、動作、顏色等等,同時支持上下文信息理解和多輪問答。
比如問“圖里有幾只動物”、“小狗和小貓在做什么”,紫東太初2.0給出了具體的描述。
你還可以針對這張圖片,詢問更多細節(jié),比如小動物的毛色、它們在什么地方玩。
上傳風車的圖片,問“這個裝置的作用是什么”,紫東太初2.0給的回答包括“風力發(fā)電站”。
接著追問“為什么要在圖中位置建設這樣的裝置”,它馬上給出回答:“為了讓它更加接近自然環(huán)境,以便更好地利用風能?!?/p>
此外,紫東太初2.0具備基于點云數(shù)據的3D場景理解和物體感知能力。你可以讓它描述從這張三維圖里看到了什么信息。
不過在理解梗圖方面,紫東太初2.0的能力還沒有開發(fā)出來,并不能弄明白下圖好笑在哪兒。
除了搜視頻,紫東太初2.0也能被用于搜圖。比如讓它生成一張熊貓的圖片。
在生成圖像方面,紫東太初2.0可以生成指定風格的圖。比如我要求“用中國畫風格畫一只慵懶的貓”,紫東太初2.0立刻畫出了一張臥著的虎皮貓。
5、語言與編程:問答、創(chuàng)作、查錯、寫代碼
在語言能力方面,和多數(shù)大型語言模型一樣,紫東太初2.0支持中文問答、邏輯推理、文本摘要、文本續(xù)寫、文本創(chuàng)作、標題生成、語法分析、機器翻譯等等。
它能準確理解用戶輸入的問題語境,并能做出準確的知識性問答,包括生活常識、工作技能、醫(yī)學知識、歷史人文等知識領域。
給紫東太初2.0一篇文章,它能快速理解文章的核心觀點,根據長文本提取簡潔而準確的摘要。
它也能寫一個擁有出人意料結局的推理。
寫個快速排序代碼,同樣不在話下。
綜合來看,紫東太初2.0在圖文音多模態(tài)能力的基礎之上,增加了對視頻、3D場景和信號等模態(tài)的理解,用更多模態(tài)信息來彌補單模態(tài)的局限性,更好地增強了對多種模態(tài)的綜合理解和認知。
二、突破多項多模態(tài)關鍵技術,完成跨模態(tài)對齊
徐波說,中科院早在2008年就開始推進圖文音的單獨攻關,2020年1月啟動多模態(tài)聯(lián)合攻關,從2021年1月做出百億模型到2021年9月發(fā)布全球首個千億參數(shù)圖文音三模態(tài)大模型紫東太初1.0,再到推出紫東太初2.0,以昇騰AI硬件及昇思MindSpore AI框架為基礎,依托武漢人工智能計算中心算力支持,利用預訓練+微調技術,在大的神經網絡上,把多個場景的知識和數(shù)據都吸納到一個模型上。
但物理世界的信息種類遠多于圖文音,有大量結構化、半結構化、非結構化數(shù)據,包括溫度、深度、壓力信號、3D超聲波指紋、脈搏波、降水量、人體紅外、3D激光等等諸多形式。
基于這樣的認識,面向數(shù)字物聯(lián)時代,紫東太初2.0推出實現(xiàn)了能接入非結構化、半結構化、結構化等數(shù)據的全模態(tài)大模型開放系統(tǒng)架構。
面對全模態(tài)數(shù)據,紫東太初2.0率先實現(xiàn)了認知增強的多模態(tài)關聯(lián),在全模態(tài)理解能力、生成能力、對齊能力上實現(xiàn)了躍升。
研究團隊重點研究突破了多模態(tài)分組認知編碼、全模態(tài)認知對齊和融合、多模態(tài)分組認知解碼等關鍵技術,使多模態(tài)關聯(lián)的認知能力大幅提高。
通過完成音樂、圖像、視頻等數(shù)據之間的跨模態(tài)對齊,紫東太初2.0可處理音樂視頻分析、三維導航等多模態(tài)關聯(lián)應用應用需求,并可實現(xiàn)音樂、視頻等多模態(tài)內容生成。
由此,紫東太初2.0打通了感知、認知乃至決策的交互屏障,具有全模態(tài)能力的涌現(xiàn),使得人工智能進一步感知、認知世界,從而延伸出更加強大的通用能力。
三、落地進展:助攻顱內手術,研判違規(guī)行為,溯源敏感信息
徐波說,紫東太初底座大模型正賦能千行百業(yè),包括布匹紡織及缺陷檢測、文旅導游、柔性手術機器人、AI手語老師等。
例如在醫(yī)療場景,基于紫東太初打造的顱內手術多模態(tài)智能助手可實現(xiàn)不同模態(tài)的高效協(xié)同與轉換,尤其是視覺、觸覺的跨模態(tài)融合,解決了機器人輔助手術中觸覺缺失的國際性難題。
協(xié)和醫(yī)院用到紫東太初2.0在全模態(tài)方面的推理功能,去嘗試在醫(yī)療診斷方面做一些有挑戰(zhàn)性的工作,尤其是在心、腦、腎三個罕見病中,利用多種醫(yī)療模態(tài)和患者病例特點,生成擬診討論,在診斷、鑒別診斷和治療計劃給出一些建議。
在交通場景,以前智能系統(tǒng)更多關注識別到比較常見的交通違規(guī)行為,但實際場景中會有很多細碎的違規(guī)行為,比如壓實線、摩托車不戴頭盔、三輪車違法載人等等。只需輸入對違規(guī)行為的文字描述,再給1~2張圖片,紫東太初就能實現(xiàn)對違規(guī)行為認知級別的研判。
在互聯(lián)網短視頻場景中,有些短視頻的標題和簡介文本沒有問題,但視頻內容包含敏感信息。利用多模態(tài)融合感知技術,可以對視頻進行溯源,及時發(fā)現(xiàn)風險內容。
在大模型的基礎上,中科院也研發(fā)了紫東太初開放服務平臺,以惠及更多用戶。
結語:邁向通用人工智能的三條路徑
徐波說,大模型成為人工智能發(fā)展的里程碑和分水嶺,以ChatGPT為代表的“大算力+大數(shù)據+大模型”標志著通用人工智能時代的來臨,大模型將實現(xiàn)對勞動力、資本等生產要素的智能替代和功能倍增,促進全要素生產率的提高。
人類的學習和交互過程中充滿了多模態(tài)信息,包括自然語言、視覺、聽覺、觸覺、嗅覺/味覺、生理信號等等。以嬰兒早期發(fā)育為例,它通過多種模態(tài)信息可以很容易地感知和學習世界,基于這一認識,紫東太初大模型從一開始走的就是多模態(tài)技術路線。
據徐波分享,通過可自主進化通用人工智能有三條路徑:類腦智能、信息智能、博弈智能。
他認為,目前全模態(tài)的信息智能走得更快,但它一定會吸納類腦智能在極低功耗及演化機制方面的優(yōu)勢,也一定會吸納博弈智能與環(huán)境交互產生自適應能力的機制,融合起來,才是更強的通用人工智能。