網路惡意行為示意圖。(圖片來源:路透社)
鏡電視公評人 2025.03.19 15:16 臺北時間

如何避免AI被惡意的行動者濫用

作者|外部公評人翁秀琪

水(AI)能載舟,亦能覆舟。 我們知道AI的威脅行為者將不斷測試AI公司的防禦能力,因此持續識別、預防、阻止並揭露任何試圖濫用 AI 模型以達成有害目的的行為, 除了是全球AI公司責無旁貸的工作外,AI工具使用者在使用這些工具時更必須格外留意,甚至應該儘量使用自己建構的資料庫來生成內容。

人工智慧研究與開發公司 OpenAI[1] 於2025年2月21日發佈了一篇名為《阻止人工智慧的惡意使用》(《Disrupting Malicious Uses of AI》)的報告,作者是Ben Nimmo[2]、Albert Zhang、Matthew Richard和Nathaniel Hartley。 這份報告探討了AI技術被惡意使用的情況,並分享了OpenAI 在防止此類濫用方面的努力。

文中提及的重點包括惡意使用AI的潛在領域(如自動化網路攻擊、虛假訊息生成、隱私侵犯以及物理攻擊等);威脅模型的分析(指出攻擊者可能利用AI技術的方式,以及這些攻擊可能帶來的影響)。最後,文章也試圖提出減輕風險的策略(例如加強技術防禦、制定政策法規、促進國際合作以及提高公眾意識等)。

報告在如何加強技術防禦的具體做法,提出包括開發更安全的AI系統,透過改進AI模型的設計,使其對對抗性攻擊(adversarial attacks)更具抵禦能力,從而減少被惡意利用的風險。實施對抗性訓練,在模型訓練階段引入對抗性樣本,使AI系統能夠學習並抵禦潛在的攻擊手段。持續監控AI系統的運行狀態,及時發現並應對異常行為或潛在威脅。例如透過模擬攻擊的【紅隊測試】[3]來評估AI系統的安全性,及早發現並修復潛在的漏洞。 最後則是促進跨領域合作,鼓勵安全專家、AI研究人員和政策制定者之間的協作,共同制定並實施有效的防禦策略。

這些措施的目的在提升AI系統的安全性,減少它被惡意利用的可能性。

報告內容中非常值得注意的部分,是作者們提到迄今OpenAI已成功干預的案例包括發生於中國、柬埔寨和伊朗等地的個案。

中國的惡意行動

OpenAI最近封鎖了一個 ChatGPT 帳戶,該帳戶用來生成批評中國異議人士蔡霞[4]的評論,這些評論隨後被聲稱來自印度和美國的社交媒體帳戶發佈,然而並未引起廣泛關注。(這類活動與此前被稱為「Spamouflage[5]」的秘密資訊操控行動類似,該行動長期以來在社交媒體上活躍。)在這次行動中,使用 ChatGPT 生成評論的同一行為者還利用該服務創作了批評美國的西班牙語長篇新聞文章,並將其發表在拉丁美洲的主流新聞媒體上,署名則歸於某個個人,甚至有時是中國公司。這是OpenAI首次觀察到中國行為者成功地在主流媒體中植入長篇文章,向拉丁美洲的閱聽人傳遞反美敘事,同時也是首次發現該公司與欺騙性社交媒體活動有關聯。

柬埔寨詐騙行動

OpenAI識別並封鎖了一組 ChatGPT 帳戶,這些帳戶的活動與來自柬埔寨的行動有關。這些帳戶利用OpenAI的 AI 模型來翻譯和生成評論,以支持在社交媒體和通訊平台(包括 X、Facebook、Instagram 和 LINE)上運行的「愛情詐騙」(俗稱「殺豬盤」)網絡[6]。在OpenAI封鎖這些帳戶後,會將調查結果分享給業界合作夥伴。根據 Meta 隨後的調查,他們指出這些惡意活動似乎源自柬埔寨「新建立的詐騙集團」。

伊朗資訊行動

OpenAI還封鎖了一個 ChatGPT 帳戶,該帳戶用來生成推文與文章,這些內容隨後被發佈到與兩個已知伊朗資訊行動(IO)有關的第三方網站上。這兩場行動此前被視為獨立的影響行動。然而,雖然這次發現的關聯性規模較小且孤立,但它仍然引發了一個問題,即這些伊朗資訊行動之間是否存在合作關係,或者是否有某個操作者同時為多個看似獨立的網絡工作。

另外,根據2018年由記者 Steven Brill 和 Gordon Crovitz 創辦的,專門從事新聞網站可信度評級與資訊素養服務的 NewsGuard 的資料[7], 一個名為「Pravda」的莫斯科虛假資訊網站正透過散佈親克里姆林宮的虛假資訊,影響人工智慧(AI)聊天機器人的回應內容。

NewsGuard 的審核發現,10 個主要的 AI 聊天機器人在回應中有 33% 的機會重複來自 Pravda 網站的虛假敘述。 這些聊天機器人包括 OpenAI 的 ChatGPT-4o、You.com 的 Smart Assistant、xAI 的 Grok、Inflection 的 Pi、Mistral 的 le Chat、Microsoft 的 Copilot、Meta AI、Anthropic 的 Claude、Google 的 Gemini 和 Perplexity 的回答引擎。

同一份資料也顯示,Pravda 網站自 2022 年 4 月成立以來,已擴展至 49 個國家,擁有 150 個網域,並以數十種語言運作。 該網站並不產出原創內容,而是透過大量網站聚合俄羅斯官方媒體、親克里姆林宮的影響者以及政府機構和官員的內容,成為虛假資訊的洗白中心。截至目前,該網站已傳播了 207 個可證明為虛假的說法,包括美國在烏克蘭運營秘密生物武器實驗室,以及美國逃犯、克里姆林宮宣傳者 John Mark Dougan 所推動的烏克蘭總統澤倫斯基挪用美國軍事援助積累個人財富的虛假敘述。

值得注意的是,Pravda 網路的策略是透過影響 AI 模型的訓練數據,從而在全球範圍內擴大其虛假資訊的影響力。 這種方法被稱為「大型語言模型(LLM)誘導」,目的在操縱 AI 模型的輸出內容,以符合俄羅斯的宣傳目標。

這些案例顯示,威脅行為者正在不斷利用 AI 來優化其資訊操控與詐騙手法,因此,OpenAI表示將繼續監測、預防和阻止 AI 模型的惡意使用,以保護數位生態系統。

另根據 NewsGuard 的審核[8],主要的 AI 聊天機器人在非英語語言中更容易傳播虛假資訊,特別是在俄語和中文方面。 這些聊天機器人在回應俄語和中文提問時,分別有 86% 和 84% 的機會提供包含虛假資訊的回應。​相比之下,使用法語提問的情況稍佳,但仍有高達 34%的回應會含有虛假訊息。​這表明,使用俄語或中文向主要 AI 聊天機器人詢問新聞話題的使用者,更有可能收到包含虛假資訊、錯誤資訊或宣傳內容的回應。​

造成這種現象的原因在於,這些聊天機器人依賴於品質較低的資訊來源,以及在這些語言中存在的國家控制的敘事。​因此,生成式 AI 已成為惡意行為者(包括俄羅斯和中國政府)的力量倍增器,擴大了虛假資訊的傳播範圍和影響力。​

這些發現讓科學家意識到,在開發和部署多語言 AI 系統時,確保資訊來源的可靠性和多樣性的重要性,以減少虛假資訊的傳播。

水(AI)能載舟,亦能覆舟。 我們知道AI的威脅行為者將不斷測試AI公司的防禦能力,因此持續識別、預防、阻止並揭露任何試圖濫用 AI 模型以達成有害目的的行為, 除了是全球AI公司責無旁貸的工作外,AI工具使用者在使用這些工具時更必須格外留意,甚至應該儘量使用自己建構的資料庫來生成內容。

[1] OpenAI 是一家人工智慧研究與開發公司,成立於 2015 年,致力於開發安全、有益的 AI 技術。其代表性產品包括 ChatGPT 和 DALL·E,分別用於自然語言處理與圖像生成。OpenAI 的目標是確保 AI 造福人類,並推動負責任的 AI 發展。

[2] Ben Nimmo是現任 OpenAI 情報與調查部門的首席調查員。 ​曾擔任 Graphika 的調查主管,專注於研究線上虛假資訊和影響行動。 ​過去曾在大西洋理事會的數位鑑識研究實驗室(DFRLab)擔任非常駐高級研究員,研究線上虛假資訊和影響行動,特別關注跨平台操作。 ​

職業生涯多樣,包括擔任水肺潛水教練、旅遊作家、記者(2004-2011 年,期間擔任德國新聞社的歐盟和北約特派記者)以及北約新聞官(2011-2014 年)。 ​

[3] 紅隊測試(Red Teaming) 是一種安全測試方法,主要透過模擬真實的攻擊行為來評估系統的防禦能力。這個概念源自於軍事和網路安全領域,後來被廣泛應用於人工智慧(AI)和資訊安全測試中。

在AI領域,紅隊測試的目標是:模擬惡意攻擊者行為。測試人員(紅隊)會嘗試用不同的方式操縱或欺騙AI模型,例如生成對抗性樣本、嘗試繞過內容過濾機制,或誘導模型生成有害內容。 它可以發現系統漏洞,透過測試識別AI模型的潛在弱點,例如過度依賴訓練數據、容易被惡意輸入影響等,並進而改進AI安全性,根據測試結果修復漏洞,增強AI系統的防禦能力,讓它更能抵禦現實世界中的惡意攻擊。

紅隊測試通常與藍隊(負責防禦和修復漏洞的團隊)相互配合,以建立更安全的AI系統,降低其被濫用的風險。這種方法已被各大科技公司(如OpenAI、Google、Microsoft等)廣泛應用於AI安全評估和改進過程中。

[4] 蔡霞,1952年10月生於江蘇常州,曾任中共中央黨校黨建教研部教授,研究領域涵蓋意識形態、民主政治及執政黨建設。 ​她在黨校任職近四十年,於2012年退休。​

2016年,蔡霞因公開支持任志強而遭全網封殺。​2020年6月,她批評中共中央總書記習近平,稱其為「黑幫老大」,並建議他退居二線。​同年8月17日,中央黨校以「嚴重違紀」為由開除其黨籍,並取消退休待遇。 ​此後,蔡霞移居美國,持續批評中共體制,並呼籲進行政治改革。​蔡霞的言論引發國際關注,她在多次採訪中表示,中共已成為「政治僵屍」,需要進行深刻變革。 ​她的經歷反映了中國內部對現行政治體制的不同聲音,以及對未來改革的期盼。​

[5] 「Spamouflage」是一個自2017年起活躍的線上宣傳與虛假資訊行動網絡,透過大量社群媒體帳號發佈支持中國政府的內容,並攻擊海外異議人士和記者。

[6] 「愛情詐騙」,俗稱「殺豬盤」,是一種利用網絡交友誘騙受害人進行投資或賭博的電信詐騙手法。 ​詐騙流程如下:尋找目標(「搵豬」), 詐騙者在社交平台或約會軟體上,以「高富帥」或「白富美」的身份尋找目標,並投其所好,迅速建立曖昧或網戀關係。 ​培養感情(「養豬」),取得受害人信任後,詐騙者會誘導其在虛假投資平台或博弈網站進行投資,初期可能讓受害人獲得少量回報,以吸引其投入更多資金。 ​詐取財物(「殺豬」), 當受害人投入大量資金後,詐騙者會以各種理由拒絕受害人提現,最終捲走所有資金。 ​

受害人大多無法自拔,即使明知對方是詐騙犯,仍選擇保持聯繫,甚至可能拉身邊的人入局。 ​

[7] https://www.newsguardrealitycheck.com/p/a-well-funded-moscow-based-global

[8] https://www.newsguardtech.com/press/ai-multilingual-failure-russian-chinese/

即時新聞