image
內幕 2024.08.10 21:30 臺北時間

大型語言模型 保護本土文化各國進入軍備競賽!台灣發展國家隊「母湯」也能懂

記者|王詩雅

攝影|呂宏偉

您聽過大型語言模型嗎? 它的縮寫叫LLM(Large Language Model)是一種深度學習模型,透過吸收海量的文本,它能從大量的文章、影音、書籍中、學習知識,然後回答問題、翻譯。除了作為聊天機器人,它運用在醫療、開發軟體和服務業。有人說這些參數就如同汽車的引擎,是生成科技最核心的關鍵驅動素材。 但說到「語言」模型,本身就有文化訊息在裡面,以中文來說,繁體中文的資料比簡體少,使用生成科技的聊天機器人、簡體中文強勢出頭,甚至主導國際對中文世界的瞭解,可說帶有侵略性質;網路素材來源五花八門,一篇小說被貼在網路上討論,原著版權不應該被開放,也不屬於聊天機器人所有,在種種爭議之下,各國爭相開發安全的聊天機器人,進而演變成軍備競賽,台灣更在這波浪潮中打造標幟型的大型繁體中文語言模型,守住繁體中文本土文化。

自從ChatGPT問世、中國百度打造「文心一言」,日韓,越南也開發「國產」聊天機器人,進入軍備競賽狂熱。台灣國科會也投資近台幣兩億,開發TAIDE計劃,希望讓AI說台灣人懂的話,連台語「母湯」也聽得懂,還能讓百工百業使用。同時,像企業和醫院這樣的機構,不能隨意在一般的GPT上洩露病人和客戶資料,使用封鎖型的聊天機器人,能問答,也幫醫生看X光片,做手術前的風險預警,成為醫生好幫手。

不過隱憂也隨之而來,觀察美國幾家巨擘的生成科技平台,他們使用網路的開源資料,你問聊天機器人的話語、也可能被機器人拿來回答未來的使用者,甚至把不該說的洩漏出去,大型語言模型可能洩露隱私嗎?

即時新聞