機器之心報道
機器之心編輯部
這就是 GPT 的「抽象」,和人類的抽象不太一樣。
雖然 ChatGPT 似乎讓人類正在接近重新創(chuàng)造智慧,但迄今為止,我們從來就沒有完全理解智能是什么,不論自然的還是人工的。
認識智慧的原理顯然很有必要,如何理解大語言模型的智力?OpenAI 給出的解決方案是:問問 GPT-4 是怎么說的。
5 月 9 日,OpenAI 發(fā)布了最新研究,其使用 GPT-4 自動進行大語言模型中神經(jīng)元行為的解釋,獲得了很多有趣的結(jié)果。
可解釋性研究的一種簡單方法是首先了解 AI 模型各個組件(神經(jīng)元和注意力頭)在做什么。傳統(tǒng)的方法是需要人類手動檢查神經(jīng)元,以確定它們代表數(shù)據(jù)的哪些特征。這個過程很難擴展,將它應用于具有數(shù)百或數(shù)千億個參數(shù)的神經(jīng)網(wǎng)絡(luò)的成本過于高昂。
所以 OpenAI 提出了一種自動化方法 —— 使用 GPT-4 來生成神經(jīng)元行為的自然語言解釋并對其進行評分,并將其應用于另一種語言模型中的神經(jīng)元 —— 此處他們選擇了 GPT-2 為實驗樣本,并公開了這些 GPT-2 神經(jīng)元解釋和分數(shù)的數(shù)據(jù)集。
這項技術(shù)讓人們能夠利用 GPT-4 來定義和自動測量 AI 模型的可解釋性這個定量概念:它用來衡量語言模型使用自然語言壓縮和重建神經(jīng)元激活的能力。由于定量的特性,我們現(xiàn)在可以衡量理解神經(jīng)網(wǎng)絡(luò)計算目標的進展了。
OpenAI 表示,利用他們設(shè)立的基準,用 AI 解釋 AI 的分數(shù)能達到接近于人類的水平。
OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman 也表示,我們邁出了使用 AI 進行自動化對齊研究的重要一步。
具體方法
使用 AI 解釋 AI 的方法包括在每個神經(jīng)元上運行三個步驟:
步驟一:用 GPT-4 生成解釋
給定一個 GPT-2 神經(jīng)元,通過向 GPT-4 展示相關(guān)文本序列和激活來生成對其行為的解釋。
模型生成的解釋:對電影、角色和娛樂的引用。
步驟二:使用 GPT-4 進行模擬
再次使用 GPT-4,模擬被解釋的神經(jīng)元會做什么。
步驟三:對比
根據(jù)模擬激活與真實激活的匹配程度對解釋進行評分 —— 在這個例子上,GPT-4 的得分為 0.34。
主要發(fā)現(xiàn)
使用自己的評分方法,OpenAI 開始衡量他們的技術(shù)對網(wǎng)絡(luò)不同部分的效果,并嘗試針對目前解釋不清楚的部分改進技術(shù)。例如,他們的技術(shù)對較大的模型效果不佳,可能是因為后面的層更難解釋。
OpenAI 表示,雖然他們的絕大多數(shù)解釋得分不高,但他們相信自己現(xiàn)在可以使用 ML 技術(shù)來進一步提高他們產(chǎn)生解釋的能力。例如,他們發(fā)現(xiàn)以下方式有助于提高分數(shù):
OpenAI 表示,他們正在將 GPT-4 編寫的對 GPT-2 中的所有 307,200 個神經(jīng)元的解釋的數(shù)據(jù)集和可視化工具開源。同時,他們還提供了使用 OpenAI API 上公開可用的模型進行解釋和評分的代碼。他們希望研究界能夠開發(fā)出新的技術(shù)來生成更高分的解釋,同時開發(fā)出更好的工具來通過解釋探索 GPT-2。
他們發(fā)現(xiàn),有超過 1000 個神經(jīng)元的解釋得分至少為 0.8 分,這意味著根據(jù) GPT-4,它們占據(jù)了神經(jīng)元的大部分頂級激活行為。這些得到很好解釋的神經(jīng)元中的大多數(shù)都不是很有趣。然而,他們也發(fā)現(xiàn)了許多有趣但 GPT-4 并不理解的神經(jīng)元。OpenAI 希望隨著解釋的改進,他們可能會迅速發(fā)現(xiàn)對模型計算的有趣的定性理解。
以下是一些不同層神經(jīng)元被激活的例子,更高的層更抽象:
看起來,GPT 理解的概念和人類不太一樣?
OpenAI 未來工作
目前,該方法還存在一些局限性,OpenAI 希望在未來的工作中可以解決這些問題:
該方法專注于簡短的自然語言解釋,但神經(jīng)元可能具有非常復雜的行為,因而用簡潔地語言無法描述;
OpenAI 希望最終自動找到并解釋整個神經(jīng)回路實現(xiàn)復雜的行為,神經(jīng)元和注意力頭一起工作。目前的方法只是將神經(jīng)元的行為解釋為原始文本輸入的函數(shù),而沒有說明其下游影響。例如,一個在周期(period)上激活的神經(jīng)元可以指示下一個單詞應該以大寫字母開頭,或者增加句子計數(shù)器;
OpenAI 解釋了神經(jīng)元的這種行為,卻沒有試圖解釋產(chǎn)生這種行為的機制。這意味著即使是得高分的解釋在非分布(out-of-distribution)文本上也可能表現(xiàn)很差,因為它們只是描述了一種相關(guān)性;
整個過程算力消耗極大。
最終,OpenAI 希望使用模型來形成、測試和迭代完全一般的假設(shè),就像可解釋性研究人員所做的那樣。此外,OpenAI 還希望將其最大的模型解釋為一種在部署前后檢測對齊和安全問題的方法。然而,在這之前,還有很長的路要走。
參考內(nèi)容:
https://openai.com/research/language-models-can-explain-neurons-in-language-models
https://news.ycombinator.com/item?id=35877402
https://.reddit.com/r/MachineLearning/comments/13d4b3o/language_models_can_explain_neurons_in_language/
https://techcrunch.com/2023/05/09/openais-new-tool-attempts-to-explain-language-models-behaviors/