數發部宣布「台灣主權AI訓練語料庫」上線！攜手200機關打造本土語料

2025-12-24 18:16 / 作者戴嘉芬

數發部舉行「打造台灣主權AI 訓練語料資料庫」記者會，由次長侯怡秀（左）主持。數發部提供

數位發展部今日（12/24）發布「台灣主權AI訓練語料庫」，廣納高品質、在地化繁體中文語料，已有超過200個政府機關投入，上架逾2,000筆資料集，內容涵蓋語言、文化、教育、生物、地理環境等領域；可支援AI模型訓練更貼近台灣語言、文化與生活情境，符合我國社會與產業需求。

數發部表示，「台灣主權AI訓練語料庫」收錄各機關具台灣文化特色之高品質資料集，語料已超過6億tokens（詞元），這些資料就像AI的教材，幫助AI模型更了解台灣，學會更自然、更貼近台灣社會的語言表達能力。

為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」，數發部與經濟部智慧財產局合作，共同推出《台灣主權AI訓練語料授權條款－第1版》，讓語料釋出有明確的授權依據，降低個別著作權商議所要付出的龐大行政成本，減少AI訓練資料可能產生的著作權爭議，藉由授權條款先行機制，全力加速主權AI的發展與應用。

值得一提的是，語料庫串接政府資料開放十餘年努力的成果，將過去累積的豐富文本開放資料同步至語料庫，使用者可依需求查詢及下載所需語料資料，讓語料更容易被查找及應用。

數發部表示，語料庫內容未來還會持續擴充，從中央機關一路推廣至地方政府及民間機構，讓更多人一起參與，透過公私協力共同促進主權AI發展。該部邀請AI模型訓練者至語料庫（https://taic.moda.gov.tw）申請，用台灣的語料，打造理解台灣的AI。

#數發部 #主權AI #本土 #語料 #資料庫 #台灣

戴嘉芬收藏文章

數發部宣布「台灣主權AI訓練語料庫」上線！攜手200機關打造本土語料

更多太報報導