2025 03 31 一種用於恢復自然交流的腦到聲傳輸式神經義肢 A streaming brain to voice neuroprosthesis to restore naturalistic communication
自然的口語溝通是瞬間發生的。語音延遲超過幾秒就會擾亂對話的自然流暢性。這使得癱瘓患者難以參與有意義的對話,並可能導致他們感到孤立和沮喪。本研究利用一位患有嚴重癱瘓和構音障礙的臨床試驗參與者的語音感覺運動皮層高密度表面記錄,驅動一個連續流的自然語音合成器。我們設計並使用了深度學習循環神經網路轉換器模型,實現了基於參與者受傷前語音的線上大詞彙量、可理解的流暢語音合成,並以80毫秒為增量進行神經解碼。在離線狀態下,此模型展現出隱式語音偵測能力,並能無限期地持續解碼語音,從而實現解碼器的不間斷使用並進一步提高速度。我們的框架也成功推廣到其他無聲語音接口,包括單細胞記錄和肌電圖。我們的研究成果提出了一種語音神經假體範式,旨在幫助癱瘓患者恢復自然的口語溝通能力。
這篇論文發表於《自然-神經科學》(Nature Neuroscience),標題為〈A streaming brain-to-voice neuroprosthesis to restore naturalistic communication〉(一種用於恢復自然交流的流式腦對語音神經義肢)。
以下是這篇論文的重點內容介紹:
1. 研究背景與目標¶
對於因中風或神經退化疾病導致癱瘓而無法說話(失語症)的患者來說,現有的腦機介面(BCI)雖然能幫助溝通,但通常速度較慢且有明顯的延遲(latency)。過去的技術往往需要等待使用者想完整個句子後才能解碼並輸出,這使得對話變得不自然。這項研究的目標是開發一種「流式」(streaming)系統,能夠在使用者試圖說話的同時,近乎即時地將大腦訊號轉換為語音,從而恢復更自然的溝通體驗。
2. 核心技術與方法¶
-
參與者:研究對象是一位因腦幹中風導致嚴重癱瘓且無法言語的47歲女性。
-
訊號採集:研究團隊在她的大腦言語運動皮層表面植入了高密度的皮層電圖(ECoG)電極陣列。
-
解碼模型:使用深度學習技術,特別是遞歸神經網絡傳感器(RNN-T)架構。這種模型可以每 80 毫秒(ms) 處理一次大腦訊號並進行解碼。
-
語音合成:系統不僅是輸出文字,還能直接生成語音。研究人員利用參與者中風前的錄音樣本,訓練了一個個人化的語音合成器,讓輸出的聲音聽起來像是她原本的聲音。
3. 主要成果¶
-
近乎即時的溝通:該系統實現了低延遲的語音解碼。當參與者試圖說話時,系統幾乎同步(延遲極短)生成語音,這與過去需要數秒鐘延遲的技術相比是巨大的進步。
-
高速度與準確率:在一個包含50個常用詞彙的測試集中,解碼速度達到了每分鐘約 91 個詞(WPM),且錯誤率很低。對於更廣泛的詞彙庫,系統也能保持良好的效能。
-
自然感(Embodiment):由於聲音是即時出現且使用了參與者原本的音色,參與者表示這讓她感覺這聲音真的是「從她自己發出來的」,增強了對義肢的歸屬感(embodiment)。
4. 結論與意義¶
這項研究展示了一種能夠支持「自然對話」的神經義肢技術。通過消除明顯的溝通延遲並結合個人化語音,這項技術讓癱瘓患者不僅能傳達訊息,還能找回更接近常人的交流節奏與自我表達方式。這為未來臨床上開發高性能的語音神經義肢奠定了重要基礎。
https://studyfinds.org/brain-waves-to-voice-revolutionary-technology-gives-speech-to-the-speechless/
這篇文章(以及其對應的 StudyFinds 報導)確實提供了關於該項技術更具體、更通俗的細節。這篇文章的核心在於介紹加州大學柏克萊分校(UC Berkeley)和加州大學舊金山分校(UCSF)開發的「腦對語音」(Brain-to-Voice)神經義肢技術。
這項技術被形容為「革命性的」,主要是因為它解決了過去腦機介面(BCI)最大的痛點——延遲(Latency)。
以下是為您整理的重點研究細節:
1. 核心突破:從「發送整句」到「即時串流」¶
-
過去的技術限制:早期的語音義肢運作方式類似「發簡訊」。使用者必須在腦中完整想好一整句話,系統接收完整訊號後,經過數秒的處理,最後才一次性播放出來。這導致對話過程中有很長的尷尬停頓,無法進行自然的來回交談。
-
這項技術的創新(Streaming):新的系統採用了「串流」(Streaming)技術。它不需要等待整句話想完,而是當使用者正試圖說話的當下,系統就開始解碼並發聲。
-
類比:研究人員將其比喻為手機上的語音助手(如 Siri 或 Alexa),能在接收聲音的同時進行處理,達成近乎同步的效果。
2. 關鍵數據:速度與準確度¶
這篇文章提供了一些具體的性能數據,這在做研究時非常重要:
-
反應速度(延遲):系統在使用者大腦發出「說話意圖」後,僅需 80 毫秒(0.08秒) 就能進行解碼,這意味著聲音幾乎是瞬間出現的。
-
說話速度:
-
在包含 50 個常用詞彙的測試中,解碼速度高達 每分鐘 90.9 個字(WPM)。
-
在更複雜的詞彙測試中,速度約為每分鐘 47.5 個字。
-
對比:早期的設備每分鐘只能解碼約 15 個字,這項新技術將溝通效率提升了數倍,更接近正常人說話的節奏(正常語速約為 150 WPM,這項技術已大幅縮小了差距)。
-
-
準確率:在解碼過程中,系統展現了超過 99% 的解碼成功率。
3. 個人化聲音重建(Voice Cloning)¶
-
情感連結:這項研究不只是恢復「語言」,更是恢復「身份」。參與者(Ann)因中風失去語言能力,研究團隊利用她中風前在婚禮上的演講錄影,提取了她的聲音特徵。
-
成果:義肢發出的聲音不再是冷冰冰的機器人音,而是她原本的音色。這讓使用者感覺這個聲音真的是「屬於她的」,極大提升了使用者的心理歸屬感。
4. 技術原理簡述¶
-
訊號攔截:研究團隊在參與者大腦的運動皮層(Motor Cortex)植入了極薄的電極陣列(253個電極)。
-
解碼邏輯:系統並不是解碼「思維」本身,而是攔截大腦發送給喉嚨、嘴唇和舌頭肌肉的運動指令。當大腦告訴肌肉「該如何移動來發出這個聲音」時,AI 會截取這個指令並直接轉化為合成語音。
總結¶
這篇 StudyFinds 文章強調,這項技術標誌著我們終於能讓癱瘓患者進行「自然、流暢且具備個人特色」的對話,而不僅僅是傳遞文字訊息。這對於改善閉鎖症候群(Locked-in Syndrome)患者的生活品質具有巨大的潛力。