您的位置：首頁>科技 >內(nèi)容

新技術(shù)是神經(jīng)語言假體的跳板

2019-06-27 09:21:15來源：

導讀由神經(jīng)科學家創(chuàng)建的最先進的腦機接口可以通過使用大腦活動來控制虛擬聲道來產(chǎn)生自然發(fā)聲的合成語音 - 一種解剖學上詳細的計算機模擬，包

由神經(jīng)科學家創(chuàng)建的最先進的腦機接口可以通過使用大腦活動來控制虛擬聲道來產(chǎn)生自然發(fā)聲的合成語音 - 一種解剖學上詳細的計算機模擬，包括嘴唇，下頜，舌頭和喉部。這項研究是在完整言論的研究參與者中進行的，但該技術(shù)有朝一日能夠恢復由于癱瘓或神經(jīng)損傷而失去說話能力的人的聲音

由加州大學舊金山分校神經(jīng)科學家創(chuàng)建的最先進的腦機界面可以通過使用大腦活動來控制虛擬聲道來產(chǎn)生自然合成的合成語音 - 一種解剖學上詳細的計算機模擬，包括嘴唇，下巴，舌頭，和喉。這項研究是在完整言語的研究參與者中進行的，但該技術(shù)有朝一日可以恢復由于癱瘓和其他形式的神經(jīng)損傷而失去說話能力的人的聲音。

中風，創(chuàng)傷性腦損傷和神經(jīng)退行性疾病如帕金森病，多發(fā)性硬化癥和肌萎縮側(cè)索硬化癥(ALS或Lou Gehrig病)常常導致不可逆轉(zhuǎn)的說話能力喪失。一些患有嚴重語言障礙的人會學習使用輔助設(shè)備逐字拼出他們的想法，這些輔助設(shè)備可以跟蹤非常小的眼睛或面部肌肉運動。然而，與每分鐘100-150字的自然語音相比，用這樣的設(shè)備產(chǎn)生文本或合成語音是費力的，容易出錯并且痛苦地緩慢，通常允許每分鐘最多10個字。

新系統(tǒng)正在醫(yī)學博士Edward Chang的實驗室中開發(fā) - 描述于2019年4月24日的自然- 表明可以創(chuàng)建一個人的聲音的合成版本，可以通過他們大腦的語音中心的活動來控制。作者說，未來這種方法不僅可以恢復與嚴重言語殘疾的個人的流暢溝通，還可以重現(xiàn)一些傳達說話者情緒和個性的人聲的音樂性。

“這項研究首次表明，我們可以根據(jù)個人的大腦活動生成完整的口語句子，”神經(jīng)外科教授，加州大學舊金山分校威爾神經(jīng)科學研究所成員Chang說。“這是一個令人振奮的原理證據(jù)，即已經(jīng)觸手可及的技術(shù)，我們應該能夠構(gòu)建一種在語言丟失患者中具有臨床可行性的設(shè)備。”

虛擬聲樂改進自然語音合成

該研究由語言科學家Gopala Anumanchipalli博士和Chang實驗室的生物工程研究生Josh Chartier領(lǐng)導。它建立在最近的一項研究基礎(chǔ)上，該研究對象首次描述了人類大腦的語音中心如何編排嘴唇，下巴，舌頭和其他聲道成分的運動，以產(chǎn)生流暢的語音。

通過這項工作，Anumanchipalli和Chartier意識到，之前直接解碼大腦活動語音的嘗試可能只取得了有限的成功，因為這些大腦區(qū)域并不能直接代表語音的聲學特性，而是協(xié)調(diào)運動所需的指令。演講期間口和喉嚨。

“聲道運動與產(chǎn)生的語音之間的關(guān)系是一個復雜的關(guān)系，”Anumanchipalli說。“我們推斷如果大腦中的這些語音中心是編碼動作而不是聲音，我們應該嘗試在解碼這些信號時做同樣的事情。”

在他們的新研究中，Anumancipali和Chartier要求在加州大學舊金山分校癲癇中心接受治療的五名志愿者 - 患有完整言語的患者，他們的大腦中暫時植入電極來繪制他們的癲癇發(fā)作來源以準備神經(jīng)外科手術(shù) - 閱讀數(shù)百句話當研究人員從已知涉及語言生產(chǎn)的大腦區(qū)域記錄活動時，大聲說出來。

基于參與者聲音的錄音，研究人員使用語言學原理對產(chǎn)生這些聲音所需的聲道運動進行逆向工程：在這里將嘴唇壓在一起，在那里收緊聲帶，將舌尖移到屋頂上。嘴巴，然后放松，等等。

這種聲音與解剖學的詳細映射使科學家能夠為每個參與者創(chuàng)建一個真實的虛擬聲道，這些聲道可以通過他們的大腦活動來控制。這包括兩個“神經(jīng)網(wǎng)絡”機器學習算法：將語音中產(chǎn)生的大腦活動模式轉(zhuǎn)換為虛擬聲道運動的解碼器，以及將這些聲道運動轉(zhuǎn)換為參與者聲音的合成近似的合成器。

研究人員發(fā)現(xiàn)，這些算法產(chǎn)生的合成語音明顯優(yōu)于直接從參與者大腦活動中解碼的合成語音，而不包括演講者聲帶的模擬。算法產(chǎn)生的句子在亞馬遜機械土耳其人平臺上進行的眾包轉(zhuǎn)錄測試中可以理解為數(shù)百名聽眾。

與自然語言的情況一樣，抄寫員在給予較短的單詞列表可供選擇時更為成功，就像護理人員為患者可能會說出的那些短語或要求做好準備一樣。抄錄員準確地從25個替代詞的列表中識別出69%的合成詞，并且以完美的準確度轉(zhuǎn)錄了43%的句子。有了更具挑戰(zhàn)性的50個單詞可供選擇，抄寫員的整體準確率降至47%，盡管他們?nèi)阅芡昝览斫?1%的合成句子。

“我們?nèi)匀挥修k法完全模仿口語，”Chartier承認。“我們非常擅長合成較慢的語音，如'sh'和'z'，以及保持語音的節(jié)奏和語調(diào)以及說話者的性別和身份，但是一些更突然的聲音，如'b'和'p'得到但是，與目前可用的相比，我們在這里制作的準確度水平將是實時通信的驚人改進。

人工智能，語言學和神經(jīng)科學推動了進步

研究人員目前正在試驗更高密度的電極陣列和更先進的機器學習算法，他們希望這些算法能夠進一步改善合成語音。該技術(shù)的下一個主要測試是確定一個不會說話的人是否可以學習如何使用該系統(tǒng)，而無法用他們自己的聲音進行訓練，并將其推廣到他們想說的任何內(nèi)容。

該團隊的一位研究參與者的初步結(jié)果表明，研究人員基于解剖學的系統(tǒng)可以解碼和合成來自參與者大腦活動的新句子，以及算法訓練的句子。即使研究人員提供了記錄大腦活動數(shù)據(jù)的算法，而一個參與者只是在沒有聲音的情況下說出句子，系統(tǒng)仍然能夠在說話者的聲音中產(chǎn)生可理解的合并版本的混合句子。

研究人員還發(fā)現(xiàn)，聲音運動的神經(jīng)代碼在參與者之間部分重疊，并且一個研究對象的聲道模擬可以適應于響應從另一個參與者的大腦記錄的神經(jīng)指令?？傊?，這些研究結(jié)果表明，由于神經(jīng)功能障礙導致語言障礙的個體可能能夠?qū)W會控制以完整語音的人的聲音為模型的語音假體。

“無法移動手臂和腿的人已經(jīng)學會用大腦控制機器人肢體，”Chartier說。“我們希望有一天，有語言障礙的人能夠?qū)W會用這種腦控制的人工聲道再次說話。”

Anumanchipalli補充道，“我很自豪能夠?qū)⑸窠?jīng)科學，語言學和機器學習的專業(yè)知識作為幫助神經(jīng)殘疾患者的重要里程碑的一部分。”

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標簽：新技術(shù)