AI如何應用於視聽產業？

歐洲廣電聯盟（EBU）2019年的年度新聞報告《下一個新聞編輯室》[1]（EBU News Report 2019 The Next Newsroom）中提到AI是好用的新工具，新聞界應該好好運用（AI is a handy new tool: use it!）。其中並介紹了BBC的一部影片。

這部叫做〈AI met the archive〉的影片是由數學家Dr. Hannah Fry和一位虛擬的主持人共同主持。影片內容主要講述BBC的AI研發團隊如何讓機器學習創造影片。首先，科學家們將影像（video）的模組找出來，共分為1.發現對象（objection detection），2.旁白分析（subtitle analysis），3.視覺動能（visual energy）等三個步驟模組。接著就是讓電腦混合（mixed）BBC數量龐大的影像資料庫上述三類模組的原始資料（raw data）來自我學習如何產製影片。

在第1個步驟「發現對象」階段，機器會辨識影像，並以文字概念登錄下它所掃描過的影片。例如：拿著手機的手、穿黑衣的男人、白色的盒子等。這是運用影像辨識（image recognition）和社會學習理論（social learning theory）達到辨識和記錄的功能。

而第二個步驟的「旁白分析」則是找出旁白中的重點單字（概念），例如：人類，語言戰爭、數學戰爭、戰爭等，以及一些連接詞，像是really, probably；一些動詞，如tell等，這個階段是屬於語料分析。

第三個步驟「視覺動能」中，機器會記錄下影片的能量指數（energy index）和框架活動（frame activity）。[2]我們可以把這個概念譯為視覺動能，它受到影像亮度、色彩、形狀等的影響。在BBC的這個影片中，我們可以看到他們的團隊在讓AI自我學習的過程是提供影片中的「能量指數」和「框架活動」兩組資料。

第四個階段，就進入機器學習的階段，透過BBC的影像資料庫中儲存的原始資料讓AI自我學習，以發現資料的模式（pattern）。

在這部影片中，我們尚未能看到機器自我學習後，能夠創造出任何有意義的影片。其理由，我們可以在另一支BBC的影片〈The Joy of AI〉中找到答案。

簡單地說，截至目前為止，AI發展最大的困難是科學家們還無法找到讓機器可以學習到意識（conscious）、情感（emotion），和產生意義（making sense of）的方法。

〈The Joy of AI〉這支影片是由Jim Al-Khalili教授所主持。他是伊拉克裔英國籍的理論物理學家，作家和主持人，同時也是薩里大學理論物理學教授，並擔任公眾參與科學的主席。他擔任BBC廣播和電視台科學節目的定期播音員和主持人，並且經常在其他英國媒體中評論科學議題。

Al-Khalili教授在影片中說明人類如何創造了可以模擬、強化，甚至超越人類心靈（the human mind）的機器。本片細數了從政治理論家Herbert Simon和數學家Allen Newell二人在1955年聖誕節前後聯合打造了第一台會思考的機器（電腦）開始，到目前科學家如何試圖透過機器人研發來促使AI強化人類智慧，這期間AI研發理論的變化等，是所有想要理解AI是什麼的人都應該看的影片。除了吸取AI相關知識，對製播新聞的人們來說，更能從這支影片中觀摩到如何把一個如此複雜的問題，以不到一小時的時間簡明講述，而且幾乎完全不用CG和字幕。

AI發展的模式，基本上分為兩種。第一種是經典人工智慧（classical AI），它的原理是透過人類教電腦，透過程式寫作提供電腦規則，讓電腦去做模仿人類的事。但是很快的，科學家就發現這種模式行不通――AI無法解決甚至像過馬路這樣簡單的問題。

第二種模式是由電腦自己學習，也就是「機器學習」(machine learning)的模式。原理是提供電腦大量的資料（data），讓電腦從資料中學習，自己發現資料內在模式。影片中用來解釋的例子，就是讓電腦區分正常郵件和垃圾郵件的資料模式，然後減少垃圾郵件的數量。

經典人工智慧模式是一種理性思考模式（rational thinking），而機器學習模式是一種潛意識的學習模式（subconscious learning），亦稱深度學習。在影片中，Google的研究員告訴主持人Al-Khalili教授，只要讓電腦自我學習玩遊戲300次左右，AI玩遊戲的能力即可達到人類的水準；這顯示AI的學習非常快速，玩遊戲時不只可以馬上找到贏的策略，它可以找到甚至人類自己也不知道的策略。

1988年，卡內基梅隆大學移動機器人實驗室主任漢斯．莫拉維克（Hans Moravec）[3]提出了著名的Moraved悖論，內容是說：大量的演算，對於電腦是容易的，對於人腦是困難的；但是如何讓看到的事物產生意義，對於人腦是容易的，對於電腦卻非常困難。例如，一個兩歲的幼童可以辨識的東西（辨識媽媽是否真的在生氣），對於電腦而言卻是無比困難的事。

AI發展到今天，接著要問的問題有：AI可以有真正的情感（emotion）嗎？AI會快樂、悲傷、忌妒、可以有意識地行動嗎？AI科學家認為，下階段的AI研究可能不是去了解成人做什麼，而是去掌握18個月至兩歲的嬰幼兒做什麼和如何做。同時，持續探索如何讓電腦思考趨近於人腦思考的創新模式，也是AI科學家努力的方向。

最知名的AI模擬人腦深度學習的例子，應該是在2016年AlphaGo以五戰四勝打敗南韓棋王李世乭。今天，AlphaGo 已經透過無監督、強化學習(reinforcement learning)的方式升級為AlphaGo Zero。

可以確認的是：會思考的機器的演化，是人類迄今最偉大的發明。

【註解】

[1] EBU News Report 2019 The Next Newsroom, https://www.amic.media/media/files/file_352_2172.pdf

[2] 關於「視覺動能」（visual energy）的簡單介紹可參照此網頁：https://wild-eye.com/understanding-visual-energy/

[3] 著作有《智力後裔：機器人和人類智能的未來》、《機器人：通向非凡思維的純粹機器》等書。