日韩免费在线观看成人,骚碰成人免费视频,电影院摸湿嗯…啊h

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

您的位置：首頁>企業(yè)要聞 >內容

1000億參數(shù)全模態(tài)大模型發(fā)布，能看懂視頻、繪畫作曲、分析信號

2023-06-19 17:11:59來源：

導讀本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創(chuàng)內容，未經賬號授權，禁止隨意轉載。作者 | ZeR0編輯 | 漠影智東西6月1...

本文系網易新聞?網易號特色內容激勵計劃簽約賬號【智東西】原創(chuàng)內容，未經賬號授權，禁止隨意轉載。

作者 | ZeR0
編輯 | 漠影

智東西6月16日報道，在今日舉行的人工智能框架生態(tài)峰會2023上，中國科學院自動化研究所所長徐波正式發(fā)布紫東太初2.0全模態(tài)大模型。

相比以前的大模型，紫東太初2.0新增了視頻、傳感信號、3D點云等模態(tài)，擁有了更強的認知、理解、創(chuàng)作能力。

它不僅有和ChatGPT類似的多輪問答、文本創(chuàng)作能力，還實現(xiàn)了全模態(tài)輸入，支持視頻、圖像、音樂、3D、信號的理解，并能夠實現(xiàn)圖文音搜索、圖像生成、音樂生成、信號分析等功能。

智東西拿到了內測資格，并第一時間對紫東太初2.0的音樂能力、信號類能力、視頻能力、跨模態(tài)能力、圖像能力、語言能力等進行體驗。

一、能力詳解，從生成音樂、看懂視頻到推理分析

1、音樂及信號類能力：生成、識別、多模問答

紫東太初2.0可以通過給定的文本提示，可控生成高保真的音樂，并支持即興創(chuàng)作多種風格類型和多種樂器演奏的音樂。

8c16a582594_8c16a58254b_屏幕錄制2023-06-16-13.11.17

比如，上傳一段音樂文件，讓紫東太初2.0識別這個音樂是什么，它能識別出這是貝多芬的交響曲，并分享了這段音樂表達了怎樣的感情。

你還可以詢問這段音樂是用什么樂器演奏的，讓紫東太初2.0根據這段音樂作詩，或者追問貝多芬的生平是怎樣的。

紫東太初2.0也支持雷達信號鑒別與知識交互，可借助模型快速掌握信號基本來源及參數(shù)等。

上傳一段信號后，你可以向它詢問這段信號的相關信息。

2、視頻能力：理解、描述、搜索

視頻能力方面，紫東太初2.0能基于用戶上傳的視頻素材，準確理解并回答視頻識別、視頻描述類問題，同時支持上下文信息理解和多輪問答。

比如，上傳一段唱歌跳舞的視頻，問紫東太初2.0這段視頻描述了什么、對視頻中音樂的感受、是否認可等問題。

此外，紫東太初2.0擁有海量的高質視頻素材庫，具備視頻素材檢索能力。

比如讓它找一個踢足球的視頻。

你還可以針對視頻內容進一步發(fā)問，讓紫東太初2.0結合動作和音樂分析視頻，或是根據視頻內容預測后面可能發(fā)生什么事。

3、跨模態(tài)能力：“圖像+音頻+視頻”理解與分析

紫東太初2.0能結合多個圖像、音頻、視頻文件，進行綜合理解與創(chuàng)作。

上傳兩個視頻，問這兩個視頻的共同特點是什么？對此，紫東太初2.0能夠結合視頻的畫面和聲音，分析出共通之處以及各自的差異點。

另一個例子是圖像+音頻。

上傳一張圖書館的圖片和一段鼓掌聲音頻，問這段音頻有沒有可能出現(xiàn)在圖片里的場景中？

紫東太初2.0給出答案：不太可能，原因是圖片中的場景沒有慶?；驓g迎的氛圍。

或者，上傳一張足球場的圖片+一段鼓掌聲音頻，讓紫東太初2.0結合圖片和音頻，分析一下場景的氛圍。

通過綜合理解圖像、音頻、視頻信息，紫東太初2.0“拼出”一個完整的信息描述，或者將這些內容串聯(lián)形成一段流暢的故事。

4、圖像與3D場景能力：描述、目標檢測、檢索、生成

紫東太初2.0能基于用戶上傳的圖片素材，準確理解并回答圖片識別類問題，包括識別圖像主體、背景、動作、顏色等等，同時支持上下文信息理解和多輪問答。

比如問“圖里有幾只動物”、“小狗和小貓在做什么”，紫東太初2.0給出了具體的描述。

你還可以針對這張圖片，詢問更多細節(jié)，比如小動物的毛色、它們在什么地方玩。

上傳風車的圖片，問“這個裝置的作用是什么”，紫東太初2.0給的回答包括“風力發(fā)電站”。

接著追問“為什么要在圖中位置建設這樣的裝置”，它馬上給出回答：“為了讓它更加接近自然環(huán)境，以便更好地利用風能?！?/p>

此外，紫東太初2.0具備基于點云數(shù)據的3D場景理解和物體感知能力。你可以讓它描述從這張三維圖里看到了什么信息。

不過在理解梗圖方面，紫東太初2.0的能力還沒有開發(fā)出來，并不能弄明白下圖好笑在哪兒。

除了搜視頻，紫東太初2.0也能被用于搜圖。比如讓它生成一張熊貓的圖片。

在生成圖像方面，紫東太初2.0可以生成指定風格的圖。比如我要求“用中國畫風格畫一只慵懶的貓”，紫東太初2.0立刻畫出了一張臥著的虎皮貓。

5、語言與編程：問答、創(chuàng)作、查錯、寫代碼

在語言能力方面，和多數(shù)大型語言模型一樣，紫東太初2.0支持中文問答、邏輯推理、文本摘要、文本續(xù)寫、文本創(chuàng)作、標題生成、語法分析、機器翻譯等等。

它能準確理解用戶輸入的問題語境，并能做出準確的知識性問答，包括生活常識、工作技能、醫(yī)學知識、歷史人文等知識領域。

給紫東太初2.0一篇文章，它能快速理解文章的核心觀點，根據長文本提取簡潔而準確的摘要。

它也能寫一個擁有出人意料結局的推理。

寫個快速排序代碼，同樣不在話下。

綜合來看，紫東太初2.0在圖文音多模態(tài)能力的基礎之上，增加了對視頻、3D場景和信號等模態(tài)的理解，用更多模態(tài)信息來彌補單模態(tài)的局限性，更好地增強了對多種模態(tài)的綜合理解和認知。

二、突破多項多模態(tài)關鍵技術，完成跨模態(tài)對齊

徐波說，中科院早在2008年就開始推進圖文音的單獨攻關，2020年1月啟動多模態(tài)聯(lián)合攻關，從2021年1月做出百億模型到2021年9月發(fā)布全球首個千億參數(shù)圖文音三模態(tài)大模型紫東太初1.0，再到推出紫東太初2.0，以昇騰AI硬件及昇思MindSpore AI框架為基礎，依托武漢人工智能計算中心算力支持，利用預訓練+微調技術，在大的神經網絡上，把多個場景的知識和數(shù)據都吸納到一個模型上。

但物理世界的信息種類遠多于圖文音，有大量結構化、半結構化、非結構化數(shù)據，包括溫度、深度、壓力信號、3D超聲波指紋、脈搏波、降水量、人體紅外、3D激光等等諸多形式。

基于這樣的認識，面向數(shù)字物聯(lián)時代，紫東太初2.0推出實現(xiàn)了能接入非結構化、半結構化、結構化等數(shù)據的全模態(tài)大模型開放系統(tǒng)架構。

面對全模態(tài)數(shù)據，紫東太初2.0率先實現(xiàn)了認知增強的多模態(tài)關聯(lián)，在全模態(tài)理解能力、生成能力、對齊能力上實現(xiàn)了躍升。

研究團隊重點研究突破了多模態(tài)分組認知編碼、全模態(tài)認知對齊和融合、多模態(tài)分組認知解碼等關鍵技術，使多模態(tài)關聯(lián)的認知能力大幅提高。

通過完成音樂、圖像、視頻等數(shù)據之間的跨模態(tài)對齊，紫東太初2.0可處理音樂視頻分析、三維導航等多模態(tài)關聯(lián)應用應用需求，并可實現(xiàn)音樂、視頻等多模態(tài)內容生成。

由此，紫東太初2.0打通了感知、認知乃至決策的交互屏障，具有全模態(tài)能力的涌現(xiàn)，使得人工智能進一步感知、認知世界，從而延伸出更加強大的通用能力。

三、落地進展：助攻顱內手術，研判違規(guī)行為，溯源敏感信息

徐波說，紫東太初底座大模型正賦能千行百業(yè)，包括布匹紡織及缺陷檢測、文旅導游、柔性手術機器人、AI手語老師等。

例如在醫(yī)療場景，基于紫東太初打造的顱內手術多模態(tài)智能助手可實現(xiàn)不同模態(tài)的高效協(xié)同與轉換，尤其是視覺、觸覺的跨模態(tài)融合，解決了機器人輔助手術中觸覺缺失的國際性難題。

協(xié)和醫(yī)院用到紫東太初2.0在全模態(tài)方面的推理功能，去嘗試在醫(yī)療診斷方面做一些有挑戰(zhàn)性的工作，尤其是在心、腦、腎三個罕見病中，利用多種醫(yī)療模態(tài)和患者病例特點，生成擬診討論，在診斷、鑒別診斷和治療計劃給出一些建議。

在交通場景，以前智能系統(tǒng)更多關注識別到比較常見的交通違規(guī)行為，但實際場景中會有很多細碎的違規(guī)行為，比如壓實線、摩托車不戴頭盔、三輪車違法載人等等。只需輸入對違規(guī)行為的文字描述，再給1~2張圖片，紫東太初就能實現(xiàn)對違規(guī)行為認知級別的研判。

在互聯(lián)網短視頻場景中，有些短視頻的標題和簡介文本沒有問題，但視頻內容包含敏感信息。利用多模態(tài)融合感知技術，可以對視頻進行溯源，及時發(fā)現(xiàn)風險內容。

在大模型的基礎上，中科院也研發(fā)了紫東太初開放服務平臺，以惠及更多用戶。

結語：邁向通用人工智能的三條路徑

徐波說，大模型成為人工智能發(fā)展的里程碑和分水嶺，以ChatGPT為代表的“大算力+大數(shù)據+大模型”標志著通用人工智能時代的來臨，大模型將實現(xiàn)對勞動力、資本等生產要素的智能替代和功能倍增，促進全要素生產率的提高。

人類的學習和交互過程中充滿了多模態(tài)信息，包括自然語言、視覺、聽覺、觸覺、嗅覺/味覺、生理信號等等。以嬰兒早期發(fā)育為例，它通過多種模態(tài)信息可以很容易地感知和學習世界，基于這一認識，紫東太初大模型從一開始走的就是多模態(tài)技術路線。

據徐波分享，通過可自主進化通用人工智能有三條路徑：類腦智能、信息智能、博弈智能。

他認為，目前全模態(tài)的信息智能走得更快，但它一定會吸納類腦智能在極低功耗及演化機制方面的優(yōu)勢，也一定會吸納博弈智能與環(huán)境交互產生自適應能力的機制，融合起來，才是更強的通用人工智能。

免責聲明：本文由用戶上傳，如有侵權請聯(lián)系刪除！

標簽：

猜你喜歡

最新文章

感谢您访问我们的网站，您可能还对以下资源感兴趣：

日韩免费在线观看成人

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>