日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁(yè)>科技 >內(nèi)容

          BERT是一種基于變壓器的模型 其特點(diǎn)是具有獨(dú)特的自我關(guān)注機(jī)制

          2019-09-16 16:53:45來(lái)源:
          導(dǎo)讀BERT是一種基于變壓器的模型,其特點(diǎn)是具有獨(dú)特的自我關(guān)注機(jī)制,迄今為止已被證明是處理自然語(yǔ)言處理(NLP)任務(wù)中的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的有效

          BERT是一種基于變壓器的模型,其特點(diǎn)是具有獨(dú)特的自我關(guān)注機(jī)制,迄今為止已被證明是處理自然語(yǔ)言處理(NLP)任務(wù)中的遞歸神經(jīng)網(wǎng)絡(luò)(RNN)的有效替代方案。盡管它們具有優(yōu)勢(shì),但到目前為止,很少有研究人員深入研究這些基于BERT的架構(gòu),或者試圖了解其自我關(guān)注機(jī)制有效性的原因。

          意識(shí)到文獻(xiàn)中存在的這種差距,馬薩諸塞州洛厄爾大學(xué)自然語(yǔ)言處理文本機(jī)器實(shí)驗(yàn)室的研究人員最近開(kāi)展了一項(xiàng)研究,研究自我關(guān)注的解釋?zhuān)@是BERT模型中最重要的組成部分。這項(xiàng)研究的主要研究者和資深作者分別是Olga Kovaleva和Anna Rumshisky。他們的論文預(yù)先發(fā)布在arXiv上并將在EMNLP 2019會(huì)議上發(fā)表,它表明在不同的BERT子組件中重復(fù)有限的注意模式,暗示他們過(guò)度參數(shù)化。

          “BERT是最近在NLP社區(qū)取得突破的模式,在多個(gè)任務(wù)中接管排行榜。受到這一趨勢(shì)的啟發(fā),我們很想調(diào)查它是如何以及為什么有效的,”研究團(tuán)隊(duì)通過(guò)電子郵件告訴TechXplore。“我們希望找到自我關(guān)注,BERT主要潛在機(jī)制與給定輸入文本中語(yǔ)言可解釋關(guān)系之間的相關(guān)性。”

          基于BERT的體系結(jié)構(gòu)具有層結(jié)構(gòu),其每個(gè)層由所謂的“頭”組成。為了使模型起作用,對(duì)這些頭中的每一個(gè)進(jìn)行訓(xùn)練以編碼特定類(lèi)型的信息,從而以其自己的方式對(duì)整個(gè)模型做出貢獻(xiàn)。在他們的研究中,研究人員分析了這些個(gè)體頭部編碼的信息,重點(diǎn)關(guān)注其數(shù)量和質(zhì)量。

          研究人員解釋說(shuō):“我們的方法專(zhuān)注于檢查個(gè)體頭部及其產(chǎn)生的注意模式。” “從本質(zhì)上講,我們?cè)噲D回答這個(gè)問(wèn)題:”當(dāng)BERT對(duì)一個(gè)句子中的單個(gè)單詞進(jìn)行編碼時(shí),它是否會(huì)以對(duì)人類(lèi)有意義的方式關(guān)注其他單詞?“

          研究人員使用基本的預(yù)訓(xùn)練和微調(diào)BERT模型進(jìn)行了一系列實(shí)驗(yàn)。這使他們能夠收集許多與基于BERT架構(gòu)核心的自我關(guān)注機(jī)制有關(guān)的有趣觀察。例如,他們觀察到一組有限的注意模式經(jīng)常在不同的頭部重復(fù),這表明BERT模型過(guò)度參數(shù)化。

          “我們發(fā)現(xiàn)BERT往往過(guò)度參數(shù)化,并且它編碼的信息存在大量冗余,”研究人員說(shuō)。“這意味著訓(xùn)練如此大型模型的計(jì)算足跡并不合理。”

          馬薩諸塞州洛厄爾大學(xué)的研究人員團(tuán)隊(duì)收集的另一個(gè)有趣的發(fā)現(xiàn)是,根據(jù)BERT 模型所解決的任務(wù),隨機(jī)關(guān)閉一些頭部可以改善而不是降低性能。此外,研究人員沒(méi)有發(fā)現(xiàn)任何在確定BERT在下游任務(wù)中的表現(xiàn)特別重要的語(yǔ)言模式。

          “深入學(xué)習(xí)可解釋對(duì)于基礎(chǔ)研究和應(yīng)用研究都很重要,我們將繼續(xù)朝著這個(gè)方向努力,”研究人員說(shuō)。“最近發(fā)布了基于BERT的新模型,我們計(jì)劃擴(kuò)展我們的方法以對(duì)其進(jìn)行調(diào)查。”

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

          猜你喜歡

          最新文章