日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>汽車 >內(nèi)容

          “GPT-4只是在壓縮數(shù)據(jù)”,馬毅團隊造出白盒Transformer,可解釋的大模型要來了嗎?

          2023-11-26 17:38:55來源:
          導讀 機器之心報道編輯:PandaAGI 到底離我們還有多遠?在 ChatGPT 引發(fā)的新一輪 AI 爆發(fā)之后,一部分研究者指出,大語言模型具備通過觀察...

          機器之心報道

          編輯:Panda

          AGI 到底離我們還有多遠?

          在 ChatGPT 引發(fā)的新一輪 AI 爆發(fā)之后,一部分研究者指出,大語言模型具備通過觀察進行因果歸納的能力,但缺乏自己主動推理新的因果場景的能力。相比于持樂觀預測的觀點,這意味著 AGI 仍然是一個復雜而遙遠的目標。

          一直以來,AI 社區(qū)內(nèi)有一種觀點:神經(jīng)網(wǎng)絡的學習過程可能就只是對數(shù)據(jù)集的壓縮。

          近日,伯克利和香港大學的馬毅教授領導的一個研究團隊給出了自己的最新研究結(jié)果:包括 GPT-4 在內(nèi)的當前 AI 系統(tǒng)所做的正是壓縮。

          通過新提出的深度網(wǎng)絡架構(gòu) CRATE,他們通過數(shù)學方式驗證了這一點。

          而更值得注意的是,CRATE 是一種白盒 Transformer,其不僅能在幾乎所有任務上與黑盒 Transformer 相媲美,而且還具備非常出色的可解釋性。

          基于此,馬毅教授還在 Twitter 上分享了一個有趣的見解:既然當前的 AI 只是在壓縮數(shù)據(jù),那么就只能學習到數(shù)據(jù)中的相關性 / 分布,所以就并不真正具備因果或邏輯推理或抽象思考能力。因此,當今的 AI 還算不是 AGI,即便近年來在處理和建模大量高維和多模態(tài)數(shù)據(jù)方面,深度學習在實驗中取得了巨大的成功。

          但很大程度上,這種成功可以歸功于深度網(wǎng)絡能有效學習數(shù)據(jù)分布中可壓縮的低維結(jié)構(gòu),并將該分布轉(zhuǎn)換為簡約的(即緊湊且結(jié)構(gòu)化的)表征。這樣的表征可用于幫助許多下游任務,比如視覺、分類、識別和分割、生成。

          表征學習是通過壓縮式編碼和解碼實現(xiàn)的

          為了更形式化地表述這些實踐背后的共同問題,我們可以將給定數(shù)據(jù)集的樣本看作是高維空間 ?^D 中的隨機向量 x。

          通常來說,x 的分布具有比所在空間低得多的內(nèi)在維度。一般來說,學習某個表征通常是指學習一個連續(xù)的映射關系,如 f (?),其可將 x 變換成另一個空間 ?^d(通常是低維空間)中的所謂特征向量 z。人們希望通過這樣一種映射:

          能以一種緊湊且結(jié)構(gòu)化的方式找到 x 的低維內(nèi)在結(jié)構(gòu)并使用 z 來表示它,然后借此幫助分類或生成等后續(xù)任務。特征 z 可被視為原始數(shù)據(jù) x 的(學習到的)緊湊編碼,因此映射 f 也稱為編碼器。

          這樣一來,表征學習的基礎問題(也即這份研究關注的核心問題)便成了:

          為了衡量表征的優(yōu)劣,有什么有數(shù)學原理保證且有效的衡量方法?

          從概念上講,表征 z 的質(zhì)量取決于它為后續(xù)任務找到 x 的最相關和充分信息的程度以及它表示該信息的效率。

          長期以來,人們都相信:所學習到的特征的「充分性」和「優(yōu)良度」應當根據(jù)具體任務而定義。舉個例子,在分類問題中,z 只需足以用于預測類別標簽 y 即可。

          為了理解深度學習或深度網(wǎng)絡在這種類型的表征學習中的作用,Tishby and Zaslavsky (2015) 在論文《Deep learning and the information bottleneck principle》中提出了信息瓶頸框架,其提出:衡量特征優(yōu)良度的一種方法是最大化 z 和 y 之間的互信息,同時最小化 z 和 x 之間的互信息。

          然而,近年來普遍通行的做法是首先預訓練一個大型深度神經(jīng)網(wǎng)絡(有些時候也被稱為基礎模型)來學習與任務無關的表征。之后再針對多個具體任務對學習到的表征進行微調(diào)。研究表明這種方法能有效且高效地處理許多不同數(shù)據(jù)模態(tài)的實踐任務。

          請注意,這里的表征學習與針對特定任務的表征學習非常不同。對于針對特定任務的表征學習,z 只需能預測出特定的 y 就足夠了。在與任務無關的情況下,所學到的表征 z 需要編碼幾乎所有與數(shù)據(jù) x 的分布有關的關鍵信息。也就是說,所學習到的表征 z 不僅是 x 的內(nèi)在結(jié)構(gòu)的更緊湊和結(jié)構(gòu)化表征,而且還能以一定的可信度恢復出 x。

          因此,在與任務無關的情況下,人們自然會問:對于學習到的(特征)表征,一個衡量其優(yōu)良度的有原理保證的度量應該是什么?

          研究者認為,一種有效方法(可能是唯一方法)是:為了驗證表征 z 是否已經(jīng)編碼了有關 x 的足夠信息,可以看通過如下(逆)映射(也被稱為解碼器或生成器)能從 z 多好地恢復出 x:

          由于編碼器 f 通常是有損壓縮,因此我們不應期望其逆映射能精確地恢復出 x,而是會恢復出一個近似

          我們通常會尋找最優(yōu)的編碼和解碼映射,使得解碼得到的

          與 x 最接近 —— 無論是樣本方面(例如,通過最小化預期均方誤差)還是在寬松的分布意義上。

          研究者將上述這個過程稱為壓縮式編碼和解碼或壓縮式自動編碼。這一思想與自動編碼器的原始目標高度兼容,而自動編碼器則可被看作是經(jīng)典的主成分分析泛化用于 x 有線性的低維結(jié)構(gòu)的情況。

          過去十一年來,大量實驗已經(jīng)清楚地表明:深度網(wǎng)絡能夠非常有效地建模非線性編碼和解碼映射。

          深度學習的幾乎所有應用都依賴于實現(xiàn)這樣的編碼或解碼方案,其方式是部分或完全地學習 f 或 g,當然它們可以分開或一起學習。

          盡管從概念上講,解碼器 g 應該是編碼器 f 的「逆」映射,但在實踐中,我們一直不清楚編碼器和解碼器的架構(gòu)有何關聯(lián)。在許多案例中,解碼器的架構(gòu)設計與編碼器的關聯(lián)不大,通常是通過實驗測試和消融實驗選取的。

          可以想見,一個優(yōu)秀的表征學習理論框架應能清楚地揭示編碼器和解碼器架構(gòu)之間的關系。而這正是這項研究希望達成的目標。

          研究者總結(jié)了之前提出的相關方法,并將其分成了以下幾種情況:

          通過壓縮打開現(xiàn)代深度網(wǎng)絡的黑盒。

          Transformer 模型和壓縮。

          去噪擴散模型和壓縮。

          促進低維度的度量:稀疏性和率下降。

          展開優(yōu)化:一個用于網(wǎng)絡解釋和設計的統(tǒng)一范式。

          詳情參看原論文。

          這項研究的目標和貢獻

          他們搭建了理論和實踐之間的橋梁。為此,這項研究提出了一個更加完整和統(tǒng)一的框架。

          一方面,這個新框架能對基于深度網(wǎng)絡的許多看似不同的方法提供統(tǒng)一的理解,包括壓縮式編碼 / 解碼(或自動編碼)、率下降和去噪擴散。

          另一方面,該框架可以指導研究者推導或設計深度網(wǎng)絡架構(gòu),并且這些架構(gòu)不僅在數(shù)學上是完全可解釋的,而且在大規(guī)?,F(xiàn)實世界圖像或文本數(shù)據(jù)集上的幾乎所有學習任務上都能獲得頗具競爭力的性能。

          基于以上觀察,他們提出了一個白盒深度網(wǎng)絡理論。更具體而言,他們?yōu)閷W習緊湊和結(jié)構(gòu)化的表征提出了一個統(tǒng)一的目標,也就是一種有原理保證的優(yōu)良度度量。對于學習到的表征,該目標旨在既優(yōu)化其在編碼率下降方面的內(nèi)在復雜性,也優(yōu)化其在稀疏性方面的外在復雜性。他們將該目標稱為稀疏率下降(sparse rate reduction)。圖 3 給出了這一目標背后的直觀思想。

          為了優(yōu)化這個目標,他們提出可以學習一個增量映射序列,其能模擬展開目標函數(shù)的某些類似梯度下降的迭代優(yōu)化方案。這自然地會得到一個類似 Transformer 的深度網(wǎng)絡架構(gòu),并且它完全是一個「白盒」—— 其優(yōu)化目標、網(wǎng)絡算子和學習到的表征在數(shù)學上是完全可解釋的。

          他們將這個白盒深度架構(gòu)命名為 CRATE 或 CRATE-Transformer,這是 Coding-RATE transformer 的縮寫。他們還通過數(shù)學方式證明這些增量映射在分布的意義上是可逆的,并且它們的逆映射本質(zhì)上由同一類數(shù)學算子構(gòu)成。

          因此,可以將幾乎完全一樣的 CRATE 架構(gòu)用于編碼器、解碼器或自動編碼器。如圖 4 給出了一個自動編碼過程,其中每個編碼層 f^?? 和解碼層 g^{L-??} 是(部分)可逆的。

          下圖給出了 CRATE 白盒深度網(wǎng)絡設計的「主循環(huán)」。

          在將輸入數(shù)據(jù) X 預處理為一系列 token Z^1 后,CRATE 會構(gòu)建一個深度網(wǎng)絡,其可將數(shù)據(jù)轉(zhuǎn)換為低維子空間的規(guī)范配置,其做法是針對分布的局部模型進行連續(xù)壓縮生成 Z^{?+1/2},以及針對一個全局詞典執(zhí)行稀疏化,得到 Z^{?+1}。通過重復堆疊這些模塊并使用反向傳播訓練模型參數(shù),可以得到強大且可解釋的數(shù)據(jù)表征。

          下面則給出了 CRATE 編碼器架構(gòu)的一層。其完整架構(gòu)就是將這些層串連起來,再加上一些初始 token 化器、預處理頭和最后的針對具體任務的頭。

          下圖對比了編碼器層和解碼器層,可以看到兩者是部分可逆的。

          更多理論和數(shù)學描述請參閱原論文。

          實驗評估

          為了證明這個框架確實能將理論和實踐串連起來,他們在圖像和文本數(shù)據(jù)上執(zhí)行了廣泛的實驗,在傳統(tǒng) Transformer 擅長的多種學習任務和設置上評估了 CRATE 模型的實際性能。

          下表給出了不同大小的 CRATE 在不同數(shù)據(jù)集上的 Top-1 準確度。

          表 2 給出了 CRATE-Base 模型與 MAE-Base 模型在訓練和驗證集上的平均重建損失。

          令人驚訝的是,盡管其概念和結(jié)構(gòu)很簡單,但 CRATE 在所有任務和設置上都足以與黑盒版的對應方法媲美,這些任務包括通過監(jiān)督學習進行圖像分類、圖像和語言的無監(jiān)督掩碼補全、圖像數(shù)據(jù)的自監(jiān)督特征學習、通過下一詞預測的語言建模。

          此外,CRATE 模型在實踐上還有其它優(yōu)勢,每一層和網(wǎng)絡算子都有統(tǒng)計和幾何意義、學習到的模型的可解釋性顯著優(yōu)于黑盒模型、其特征具有語義含義(即它們可輕松用于將對象從背景中分割出來以及將其分成共享部件)。

          下圖便給出了在每層 ? 的逐層 token Z^? 表征的可視化。

          下圖展示了來自監(jiān)督式 CRATE 的自注意力圖。

          注意由于資源限制,他們在實驗中沒有刻意追求當前最佳,因為那需要大量工程開發(fā)或微調(diào)。

          盡管如此,他們表示這些實驗已經(jīng)令人信服地驗證了新提出的白盒深度網(wǎng)絡 CRATE 模型是普遍有效的,并為進一步的工程開發(fā)和改進奠定了堅實的基礎。

          免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

          猜你喜歡

          最新文章