國科會TAIDE再升級!Llama 3.1為基礎 擴展學華語、醫療衛教
由國科會所打造的「可信任AI對話引擎」TAIDE,自去年5月發表基於Llama 3的商用TAIDE 8B模型後,一度不了了之,總算在今年2月11日升級到以Llama 3.1版本為基礎的商用TAIDE 8B模型,供產業界、學研界投入開發及應用;近期TAIDE正在研發華語教材生成、醫療衛教詢答等應用。
由國科會所打造的「可信任AI對話引擎」TAIDE,自去年5月發表基於Llama 3的商用TAIDE 8B模型後,一度不了了之,總算在今年2月11日升級到以Llama 3.1版本為基礎的商用TAIDE 8B模型,供產業界、學研界投入開發及應用;近期TAIDE正在研發華語教材生成、醫療衛教詢答等應用。
[caption id="attachment_164461" align="alignnone" width="851"]
國科會打造的TAIDE近期升級,釋出基於Llama 3.1商用TAIDE 8B模型,擴展學華語、醫療衛教等應用。(圖/翻攝自TAIDE計畫官網)[/caption]
升級後上下文長度達131K、繁中解碼速度快20%
TAIDE模型以具臺灣主體性的文本為訓練素材,內容涵蓋政府及民間多元領域的資料,包括大量通用文本(如中央社、光華雜誌、公共電視、各部會公開資料、法規資料庫、國家文化記憶庫等)、字辭典(如臺灣語料庫及各領域常用字辭典)及民間出版社提供之文本等。
延伸閱讀:迎頭趕上DeepSeek?數發部拚今年立法、打造主權AI語料庫
TAIDE在去年4月15日公開釋出商用版TAIDE LX-7B模型及學研版TAIDE LX-13B模型,是以Meta開源模型Llama 2為基礎;當年5月再公開基於Llama 3的TAIDE 8B模型,並且於2月11日將 TAIDE 8B 升級至 Llama 3.1版本,進一步擴充效能及精確度。
根據網站介紹,Llama-3.1-TAIDE-LX-8B-Chat使用繁中資料預訓練,並透過指令微調增強辦公室常用任務,以及AI多輪問答能力,適合聊天對話或任務協助的使用情境。
升級後的TAIDE 8B,模型參數量達到8.5B等級、最大內容長度(上下文長度)可達131K,並且利用了NVIDIA H100 GPU訓練2896小時,導入的繁中訓練資料token量達45B。
Llama-3.1-TAIDE-LX-8B-Chat特色包括繁中解碼速度快20%;針對就業摘要、寫信、寫文章、中翻英、中翻中等辦公室常用任務做加強;針對臺灣在地文化、用語、國情等知識做加強;配備多輪問答能力;提升長文處理能力;嚴格把關模型的訓練資料,提升模型產生資料的可信賴性與適用性。
TAIDE應於廣泛 近期研發華語教材生成、醫療衛教詢答
國科會表示,TAIDE模型下載量達17萬次以上,學研、產業界都有延伸應用,包括台南大學的「台語對話生成式AI機器人」、陽明交大建置「台客語TAIDE大語言模型+AI介面」、中興大學的農業知識檢索系統—神農TAIDE」,以及群聯攜手10家以上的國際電腦大廠,推出平民化的生成式AI地端運算平台「aiDAPTIV+平台」。
國科會提到,近期則研發華語教材生成、醫療衛教詢答等應用。華語教材生成方面,TAIDE可依照非母語人士學習華語需要的能力指標及分級標準,照等級、分類等資訊產生課文;醫療衛教詢答方面則透過蒐集肺癌、乳癌、大腸癌3項衛教資訊,導入TAIDE模型以提升相關知識應用,盼降低個案管理師的工作負擔。
國科會預算遭刪 TAIDE執行成效受影響
國科會旗下國研院國網中心副主任姚志民向《中央廣播電台》表示,雖然Meta的Llama模型已經更新到3.3版本,但臺灣不可能每次更新都跟進,還是需要謹慎評估,尤其有些模型參數量需更大更多資料才能訓練好,繁體中文有時資料取得沒那麼容易,國科會將適當評估後,再決定是否針對現有模型重新訓練。
另外,立法院今年嚴審預算,國科會預算遭刪減,是否衝擊TAIDE計畫?國科會回應,資料取得及模型開發都需要經費支持,預算減少,計畫執行成效肯定會受到影響。
※探索職場,透視薪資行情,請參考【科技類-職缺百科】幫助你找到最適合的舞台
這篇文章 國科會TAIDE再升級!Llama 3.1為基礎 擴展學華語、醫療衛教 最早出現於 科技島-掌握科技新聞、科技職場最新資訊。
最新科技新聞
-
-
《怪物彈珠》×動畫《關於我轉生變成史萊姆這檔事》合作活動第2彈再掀旋風!
(10 小時前) -
2歐洲新創公司突破電池材料回收技術 挑戰中國霸位
(11 小時前) -
翁章梁赴德參訪科研創新機構 借鏡德國經驗 推動產業升級新藍圖
(14 小時前) -
全球首台混合量子超級電腦「黎明」在日本啟動 採用獨特架構
(15 小時前)