快訊

    數發部宣布「台灣主權AI訓練語料庫」上線!攜手200機關打造本土語料

    2025-12-24 18:16 / 作者 戴嘉芬
    數發部舉行「打造台灣主權AI 訓練語料資料庫」記者會,由次長侯怡秀(左)主持。數發部提供
    數位發展部今日(12/24)發布「台灣主權AI訓練語料庫」,廣納高品質、在地化繁體中文語料,已有超過200個政府機關投入,上架逾2,000筆資料集,內容涵蓋語言、文化、教育、生物、地理環境等領域;可支援AI模型訓練更貼近台灣語言、文化與生活情境,符合我國社會與產業需求。

    數發部表示,「台灣主權AI訓練語料庫」收錄各機關具台灣文化特色之高品質資料集,語料已超過6億tokens(詞元),這些資料就像AI的教材,幫助AI模型更了解台灣,學會更自然、更貼近台灣社會的語言表達能力。

    為了讓政府機關與民間能夠「放心釋出資料、安心使用語料」,數發部與經濟部智慧財產局合作,共同推出《台灣主權AI訓練語料授權條款-第1版》,讓語料釋出有明確的授權依據,降低個別著作權商議所要付出的龐大行政成本,減少AI訓練資料可能產生的著作權爭議,藉由授權條款先行機制,全力加速主權AI的發展與應用。

    值得一提的是,語料庫串接政府資料開放十餘年努力的成果,將過去累積的豐富文本開放資料同步至語料庫,使用者可依需求查詢及下載所需語料資料,讓語料更容易被查找及應用。

    數發部表示,語料庫內容未來還會持續擴充,從中央機關一路推廣至地方政府及民間機構,讓更多人一起參與,透過公私協力共同促進主權AI發展。該部邀請AI模型訓練者至語料庫(https://taic.moda.gov.tw)申請,用台灣的語料,打造理解台灣的AI。

    戴嘉芬 收藏文章

    本網站使用Cookie以便為您提供更優質的使用體驗,若您點擊下方“同意”或繼續瀏覽本網站,即表示您同意我們的Cookie政策,欲瞭解更多資訊請見