從人到人工智慧,破解AI革命的68個核心概念:實戰專家全圖解 × 人腦不被電腦淘汰的關鍵思考

從人到人工智慧,破解AI革命的68個核心概念:實戰專家全圖解 × 人腦不被電腦淘汰的關鍵思考(圖片來源:Computerizer)

遊戲人工智慧
game AI

人工智慧發展最大的潮流之一是,實現「像人類一樣,解讀現實世界、做出決策、採取行動」的智慧。為了達成這項目標,必要的人工智慧基礎有「形成知識、做出決策、採取行動」三個階段。

一九五○年代,夏農(Claude Shannon)製作了三十公分見方的小型「解迷宮機」。那個裝置是讓木製的老鼠從入口走到出口,找不到路則回到入口。那隻老鼠「辨識」迷宮,「決策」路線,「採取行為」實際行動。這推動了一九七○年代後期開始的「電腦鼠」(micromouse)競賽。而一九九○年代前期,開始出現機器人運動會「機器人世界盃」(RoboCup),其中包括機器人組隊踢足球的「機器人世界盃足球賽」(RoboCup Soccer)。這項競賽有用真實機器人比賽的聯盟,以及虛擬的模擬機器人聯盟。近年來,更進一步從實際的足球或冰壺比賽擷取資料,推展研究,建構嶄新的人工智慧。

現實世界面貌多樣,人工智慧的蓬勃發展有著幾個難題,包括符號接地問題(symbol grounding problem)、知識表示(knowledge representation)問題、框架問題(frame problem)和心物問題(mind–body problem)等,這些是古典人工智慧發展階段遇到的問題。當人工智慧朝向現實世界發展,至今未想過的未知問題不斷浮現。因此,這使人工智慧被迫面對遊戲領域受限於小範圍的問題,催生了希望人工智慧能夠進化的想法。

這個領域稱為遊戲人工智慧。遊戲人工智慧包括西洋棋、將棋、圍棋和雙陸棋之類的「桌遊人工智慧」以及「數位遊戲人工智慧」。除了這兩大潮流之外,最近有了新的趨勢,就是以對話為主的「狼人」遊戲(Werewolf)人工智慧,稱為人狼智慧(artificial intelligence based werewolf)。此外,也進行了「合約橋牌」和「大富豪」等紙牌遊戲的人工智慧研究。

一九六○年代,展開了西洋棋等桌遊人工智慧的研究。桌遊大多是對稱型遊戲,所有玩家在相同條件下比賽。在這個領域,目標通常是開發可替代人類玩家的人工智慧。因此,主要的基準是人工智慧是否戰勝了職業棋士、相當於人類棋手的幾段等。

一九七○年代,電視遊樂器也進入一般家庭,但當時是把遊戲裡的動作角色稱為人工智慧,將其視為遊戲整體設計的一部分。電視遊樂器的人工智慧促進了非對稱型遊戲的發展,在這種類型的遊戲中,玩家打倒角色之後才能前進。電視遊樂器人工智慧的基準是角色有多近似真人,或者玩家能否從中得到樂趣。一九九○年代後半開始,才真正展開電視遊樂器人工智慧的研究。

將棋或西洋棋的特徵,包括離散空間(網格分割)、離散時間(輪流制)、完全信息(perfect-information,所有資訊公開揭露)。換言之,某一瞬間的遊戲局面(遊戲狀態)都能完全記錄。玩家選擇下某步棋,局面會轉移到下一個遊戲狀態,將可能的遊戲狀態變化記錄下來,稱為遊戲樹(game tree)。

桌遊人工智慧是依下列步驟建立:

1.辨識局面
2.做出決策從遊戲樹中選擇局面最佳棋步
3.走棋進行「行為生成」

如果遊戲樹包含所有局面變化,就可能做出完美的決策。事實上,西洋棋和井字遊戲便是有必勝解的遊戲。但遊戲的狀態數,將棋是10的220次方,圍棋是10的360次方,實際上不可能考慮所有的狀態。因此,要有效率地只選擇勝率高的局面,需要「搜尋」和「局面評估」的技術,並從過去的棋譜「學習」,提高精確度。但二○○六年以降,蒙地卡羅樹搜尋(Monte Carlo tree search)成為圍棋人工智慧的主流,一口氣大幅推進了研究的進展。這種搜尋法是「選擇一步棋後,其後某種程度隨機落子直到終局為止,反覆進行,計算所得的勝率」。接著二○一六年,AlphaGo戰勝韓國職業棋士,大幅超越截至當時的圍棋人工智慧能力,飛躍提升。將棋則藉由Bonanza法而有了極大的突破,這是評估函數中的參數本身能夠自行做學習的方法。就像在「將棋電腦大賽」中看到的,電腦已經可以完全戰勝職業棋士了。其他亦可見更廣泛的研究,不只是勝敗問題,還包括玩家的認知過程研究、從棋譜學習高手的個性(再現過去的職業棋士)、讓對方覺得有趣的棋法研究等。

從人到人工智慧,破解AI革命的68個核心概念:實戰專家全圖解 × 人腦不被電腦淘汰的關鍵思考

在數位遊戲領域,以動作遊戲為例,它的特徵包括近似於現實的連續空間、連續時間、不完全信息(imperfect-information)。遊戲裡的角色會「辨識」自己周圍的狀況,做出攻擊、逃走、防禦等「決策」,據此讓自己的身體採取行動來進行「行為生成」。此外,數位遊戲的畫面是以每秒三十次或每秒六十次的頻率更新(稱為畫面更新率﹝frame rate﹞)。因此,人工智慧的更新通常與畫面更新率同步。

連續時空讓行動有無限的可能狀況,數位遊戲人工智慧基本上就是對應給定的環境和任務來「創造行動」。要做到這點,基礎工作是「辨識環境」,可以在哪些空間中移動,以及可以如何利用該空間及空間中的物體,變得很重要。例如,使用路徑搜尋(path-finding)技術,在複雜的道路中找出通往目的地的路徑。

數位遊戲人工智慧的決策類型大致分為兩種:「玩家出現時接近他」的反射型,以及「將玩家隊伍追擊至陷阱」的目的型。無論哪一種,都是配合決策,將身體的動作資料組合起來,生成跑步、彈跳、揮舞刀劍等複合動作。數位遊戲是娛樂產品,目的是讓玩家獲得多樣化體驗,感受「原來這個角色這麼聰明呀!」,不過現在仍處於建構基礎理論的階段。除了角色以外的領域,其他部分包括控制遊戲整體流程的後設AI(meta AI),以及自動生成遊戲的程序技術(procedural technology)。

「狼人」是透過對話來找出混入村民中的狼人的遊戲,替代為玩家的人狼智慧,「辨識」對話過程,做出「決策」來決定說話內容,「生成」實際的對話。在這種遊戲中,人工智慧從對話中抽出資訊進行推論,以及透過對話引導進行方向等,都是新的課題。現在是從電腦裡的對話文字資料進行研究,但相信有一天,機器人可以在現實生活中解讀人類的聲音、表情和姿態,與人類侃侃而談,目前正朝這樣的方向研究。

如上所述,遊戲人工智慧的目標是在各種遊戲中獲勝和適應環境,同時希望在「辨識」與「行動」的循環中,更加了解研究的對象領域。

以上內容由臉譜出版授權刊登,未經允許請勿轉載。
◎更多精彩內容,請見:《從人到人工智慧,破解AI革命的68個核心概念