產業分析：用「常識」訓練AI效果顯著

雖然我們知道襯衫應放在衣櫃，但人工智能（AI）曉得嗎？未必。

我們可藉虛擬的環境，讓AI學習並了解真實的世界。「強化學習」（Reinforcement Learning）是AI中的一個技術領域，會使用獎罰機制來訓練。當AI做出正確行為便會得到獎勵；反之，做錯將受到懲罰。因此，AI就會避免犯錯，繼而遵循正確的行為，最終達到最大化的預期效益。

現實中，「強化學習」常用作改善決策系統，在許多行業中都有廣泛的應用。典型的例子包括自動駕駛技術、遙控機械人、圍棋博弈、統計學等。

在現階段，「強化學習」進入了新的領域，除了涉及獎罰的機制之外，研究員正加入「常識」（Common Sense）來訓練AI；將「常識」以「眾包文本」（Crowdsourced Text）的形式，注入AI模型中。藉着「眾包文本」，我們希望AI系統懂得普遍的常識。

為了測試AI在家居層面的應用，研究員參照普通住宅製造一個虛擬場景，其中包括廚房、浴室、睡房等。另外，研究員將「人工智能代理人」（AI Agent）放在虛擬單位中，其任務是要將凌亂的物件放回正確的位置。例如水果要存放在雪櫃內、襯衫應放在衣櫃等。

模仿人類思考模式

研究員發現，經過「常識」訓練的AI代理人表現好過沒有經過訓練的，並可用較少的頻率活動，準確性亦更高；主因「常識」訓練能收窄隨機選擇的範圍，從而更快地幫助AI代理人可將凌亂的物件放回正確位置。另外，「常識」訓練能夠讓AI代理人模仿人類思考模式，在未知領域和現有知識之間找到平衡。

戴劍寒
香港電腦學會人工智能專家小組執行委員會成員

Click here to read the full article on 東方日報 (Chinese only).