Meta打造英語、台語即時翻譯 台灣鄉土劇「訓練AI」有貢獻

2022-10-21 15:15 / 作者 林昕慧

臉書母公司Meta在19日宣布推出由人工智慧(AI)技術支援的閩南語(台語)、英語即時互譯系統。台灣大學電機系副教授李宏毅20日透露,台灣鄉土劇在訓練機器過程中,扮演一定角色。




圖片
Meta宣布建立一套閩南語 AI 翻譯系統,幕後推手為來自台灣的陳鵬仁。翻攝FB@Meta




網路科技公司Meta宣布建立一套AI系統,可讓台灣常用的閩南語(影片中稱為福建話Hokkien)和英語互譯,引起台灣社會關注。



台灣大學電機工程學系副教授李宏毅參與的研究團隊,收集1500小時的台灣鄉土劇資料,在Meta這次的AI系統中扮演一定角色。李宏毅20日下午接受中央社電訪指出,鄉土劇最大的特色是有閩南語聲音訊號,還有文字字幕可對照,機器可因此學到「成對」的資訊。




圖片
Meta一套AI系統讓閩南語、英語即時互譯,台灣鄉土劇在訓練機器過程中,扮演一定角色。圖為《美麗人生》劇照,僅為示意圖。取自台視




李宏毅解釋,過去AI翻譯做得比較好的,大都是使用人數多、資料量大的語言,例如中文轉英文,會有人願意投入大量資源去收集資料、標註。但對於沒有那麼多人使用的語言,還要投入那麼多的人力,就沒那麼划算。



他指出,Meta技術上的突破,在於讓機器透過大量沒有標註的資料「自監督學習(Self-Supervised Learning)」。就像是人類幼童學習母語,都是先大量聽人說話,在腦中形成一定的概念,等上學後老師提點一下,就能很快學會該語言的系統。



Meta也是先讓機器聽一大堆沒有文字標註的聲音,對語言有一定程度瞭解後,再給予一些「成對」資料提點,進而很快學會這種語言。台灣鄉土劇就是作為提點的關鍵角色之一。



李宏毅解釋,鄉土劇最大的好處,在於除了有聲音訊號,還有文字字幕可以對照,這就是「成對」的資料,對機器來說,這是非常好的教材。Meta也運用了Taiwanese Across Taiwan(TAT)的閩南語語音語料庫來訓練,幫助提高準確率。



李宏毅也指出,Meta技術的一個特點是「語音直接轉語音」,有別於傳統的方法,是先將語音轉換成文字,翻譯成另一種語言的文字後,再套語音模組。傳統方法的最大壞處,就是只要其中一個環節出錯,錯誤就會一路傳遞下去。




圖片
Meta技術的一個特點是「語音直接轉語音」。翻攝FB@Mark Zuckerberg 




他說,「語音轉語音」能減少錯誤傳遞的問題,另一大好處是,人類講話會帶情緒,語氣輕重都會影響意義。因此直接語音轉語音,就能保留這些情緒,讓翻譯更為準確。這項技術特別適合用在無法打字的場合,例如「元宇宙」中;或用於缺乏書寫系統的語言。



不過,李宏毅說,Meta 20日的影片看起來很強,但若認真去看論文並去實際嘗試,就會知道離真正應用到日常生活中,還有一大段距離。如果是娛樂性質,翻錯1、2個字無傷大雅,但若要用在正式溝通場合,就不是目前技術能做到。



李宏毅認為,AI短時間內不能完全取代翻譯的工作,畢竟翻譯是一種「藝術」。但隨著科學發展,AI應可「幫得上忙」,例如先大致翻譯出一個版本,再由人類進一步編修,減輕工作負擔。






林昕慧 收藏文章

本網站使用Cookie以便為您提供更優質的使用體驗,若您點擊下方“同意”或繼續瀏覽本網站,即表示您同意我們的Cookie政策,欲瞭解更多資訊請見