第三章 人機大戰:AI真的會挑戰人類?(1 / 5)

Alpha Go帶來的警示是:如果計算機可以在兩年內實現大多數人預測要花20年或更長時間才能完成的進步,那麼,還有哪些突破會以遠超常人預期的速度來臨?這些突破會不會超出我們對人工智慧的想象,顛覆人類預想中的未來?我們已為這些即將到來的技術突破做好準備了嗎?

<h2>

Alpha Go帶給人類的啟示究竟是什麼?</h2>

2016年3月,李世石與谷歌Alpha Go在圍棋棋盤上鬥智鬥勇、激戰正酣的時候,我也親身參與了新浪體育等媒體主辦的現場直播。當時,我與棋聖聶衛平九段一起出任講解嘉賓,直播了李世石與Alpha Go的第五盤棋賽。圍棋專家如聶衛平九段的評論視角,顯然和我這個電腦科學博士的視角大不相同。但有一點是相通的,那就是絕大多數圍棋界人士和人工智慧界的科研人員此前都沒想到,圍棋程式會在如此短的時間內取得質的突破。

記得我曾在接受媒體採訪時說過:&ldquo;Alpha Go真的讓我很震驚。如果你是兩年前問我計算機何時能戰勝圍棋世界冠軍,我那時的答案大概會是&lsquo;20年後&rsquo;。可計算機在兩年內就做到了我認為需要20年才能做到的事,這樣的速度真的讓人震撼。&rdquo;

Alpha Go橫空出世之前,圍棋界的觀點也大致相同。因為國際象棋與圍棋的複雜度相差甚遠,1997年IBM深藍在國際象棋棋盤上戰勝人類棋王的故事並不足以讓圍棋高手信服。而且,這麼多年來,圍棋AI程式的研發一直舉步維艱。早期基於規則的圍棋程式,比如中山大學陳志行教授20世紀90年代研發的&ldquo;手談&rdquo;,基本上只能和圍棋初學者過招。直到2006年後,隨著蒙特卡洛搜尋演算法在圍棋對弈軟體中的應用,Mo Go、Zen、Crazy Stone等程式的棋力才得到了突飛猛進的提高,在國際對弈平臺KGS上,2006年到2012年,主流圍棋對弈軟體的棋力從業餘二段猛升到業餘五段甚至業餘六段56,但也就此停滯不前。Alpha Go出現前,圍棋界專家對圍棋對弈軟體棋力的評估基本比較一致,大多認為最好的計算機程式已可以和業餘高手過招,但和職業選手之間,還是有著本質的差別。

在今天的圍棋界,業餘高手和職業高手之間存在2子以上的明顯差距,通常,這個差距是職業選手從童年開始,用10年以上的時間刻苦訓練得來的,業餘選手極難彌補。另一方面,在電腦科學界,懂得蒙特卡洛搜尋演算法原理的人都知道,這種演算法主要是利用抽樣統計來提高搜尋效率,單用此演算法確實難有提高空間。這是Alpha Go出現前,圍棋界和電腦科學界兩方面都不敢奢望人機大戰即將到來的根本原因。

深度學習改變了一切。

使用深度學習並結合蒙特卡洛搜尋的Alpha Go已註定被寫入歷史。Alpha Go問世的第一年內,其實進入大家視野的是三個版本:5︰0擊敗樊麾的內測版本,4︰1擊敗李世石的版本,以&ldquo;Master&rdquo;(大師)網名60︰0快棋挑落中日韓高手的版本。三個版本演進脈絡明顯,每次迭代都有重大升級。最後這個網名為&ldquo;Master&rdquo;的版本也基本是2017年Alpha Go挑戰柯潔的一個&ldquo;預覽版&rdquo;。

從圍棋角度說,Alpha Go最震撼的是計算機在人類傳統認為極其玄妙的、電腦無法掌握的&ldquo;大局觀&rdquo;上突飛猛進,遠遠將人類選手甩在身後。電腦計算&ldquo;大局觀&rdquo;的方式,和人類培養&ldquo;大局觀&rdquo;的思路,有根本的差別。人類不可能在這方面趕上電腦。和樊麾對局的棋譜基本上還看不出Alpha Go的大局觀有多強,和李世石對局就下出了聶衛平讚不絕口的五路肩衝,到了Master的60局,大局觀體現在兩個地方:

第一,自始至終對局勢的把握,比如第60局古力用Alpha Go的思路對付Alpha Go,把中央撐得很滿,但Alpha Go不緊不慢,總是恰到好處地保持勝勢。

第二,Alpha Go已經深刻影響人類對佈局的思考,大飛守角之類的變化迅速被人類棋手模仿,這和當年深藍問世後,國際象棋的佈局革命是一樣的。

基於Alpha Go的思路,其他圍棋軟體的水平也突飛猛進。僅2017年年初就有日本研發的Deep Zen Go和騰訊人工智慧實驗室開發的&ldquo;絕藝&rdquo;達到了人類九段或以上的水平。騰訊&ldquo;絕藝&rdquo;不僅面對人類高手保持了絕對優勢,還戰勝了Alpha Go以外的各路圍棋軟體,取得了2017年UEC杯計算機圍棋大賽的冠軍。

以後AI和AI之間的競賽,應該會不斷促進AI提高。人類雖望塵莫及,但可以不斷從AI中學習新的思想。

從人工智慧技術的角度說,Alpha Go用的是AI領域應用非常普遍的演算法:深度學習、蒙特卡洛演算法、增強學習等。可以說,機器視覺相關的深度學習技術,包含環境&mdash;決策&mdash;反饋的智慧系統,裡面都有Alpha Go的影子。當然,直接的程式碼實現層面,肯定沒有複製、貼上這樣直接借用的關係,因為Alpha Go的深度學習模型畢竟是圍繞圍棋的特徵建立的。

那麼,當人機大戰煙塵散盡,公眾的熱情迴歸理性時,Alpha Go究竟為我們人類帶來了什麼?Alpha Go帶來的,僅僅是棋盤上的一張張棋譜,還是《自然》雜誌上那篇劃時代的論文57?是公眾對人工智慧的重新認知,還是人類與機器命運的關鍵轉折點?

我覺得,Alpha Go帶給人類的,更多是一種對未來的警示:如果計算機可以在兩年內實現大多數人此前預測要花20年或更長時間才能完成的進步,那麼,還有哪些突破會以遠超常人預期的速度來臨?這些突破會不會超出我們對人工智慧的想象,顛覆人類預想中的未來?我們已為這些即將到來的技術突破做好準備了嗎?

無論是專業人士還是普通公眾,Alpha Go的出現給每個人提供了一個最好的理由,讓我們有機會重新思考:到底什麼是人工智慧?人工智慧之於人類的意義是什麼?人工智慧與未來人類的關係到底會怎樣?人工智慧真的會在未來挑戰人類嗎?

<h3>

Deep Mind:會打遊戲的人工智慧</h3>

站在Alpha Go背後的,是一個名叫Deep Mind的團隊。這是谷歌公司於2014年收購的英國人工智慧團隊。在所有優秀的人工智慧技術團隊中,Deep Mind無疑是最有潛力之一的。不得不承認,他們是一個真正有夢想也真正關注人類未來的技術團隊。

Deep Mind的創始人戴密斯&middot;哈薩比斯(Demis Hassabis)從小就是一個神童,在棋類遊戲中展示出了非凡的天分。哈薩比斯13歲時就成為國際象棋大師,在當年的國際象棋世界等級分排名中,哈薩比斯位列所有14歲以下選手的第2位,僅次於後來名聲大噪的世界最強女棋手朱迪特&middot;波爾加(Judit Polg&aacute;r,小波爾加)。1997年,哈薩比斯從劍橋大學電腦科學系畢業。1998年,22歲的哈薩比斯創立了Elixir Studios公司,專注於開發電腦遊戲。2005年,哈薩比斯返回校園,在倫敦大學攻讀了認知神經科學的博士學位。2010年,哈薩比斯在倫敦建立了人工智慧技術公司Deep Mind。直到2014年穀歌以4億英鎊收購Deep Mind時,哈薩比斯的團隊還基本不為普通公眾所知。

2015年年初,Deep Mind第一次真正進入公眾視角,是靠一個基於深度學習和增強學習技術驅動的,能自己學習如何打街機遊戲的AI程式。顯然,國際象棋大師和電腦遊戲設計、開發的背景,為哈薩比斯的人工智慧之路,奠定了一個不同尋常的基礎。Deep Mind所研發的深度學習、增強學習等技術,在醫藥、金融、自動控制等眾多領域有著廣泛的應用前景,但這些行業應用離普通公眾較遠,Deep Mind的先進技術難以被大多數人瞭解。哈薩比斯和他的團隊非常聰明地選擇用大眾最熟悉的電子遊戲,來作為Deep Mind核心科技的第一塊&ldquo;試金石&rdquo;。

Deep Mind選取了數十款當年在雅達利(Atari)街機上非常流行的小遊戲,然後用人工智慧程式嘗試&ldquo;理解&rdquo;遊戲當前畫面,控制遊戲操作介面,並根據每次遊戲的輸贏情況,不斷調整策略,自主學習遊戲技巧。2015年2月向公眾展示時,Deep Mind的人工智慧程式在大約四分之三的雅達利街機遊戲中,達到或超過了人類高手的水平。類似技術隨後被Deep Mind團隊用於人工智慧圍棋軟體,並由此誕生了震驚世界的Alpha Go。

Deep Mind的目標顯然不是遊戲本身。正如哈薩比斯在諸多場合所說過的那樣,Deep Mind希望利用在遊戲中證明過的技術,幫助人類解決計算機輔助醫療等更為複雜的問題。但遊戲與Deep Mind的結緣,確實為這個獨具特色的人工智慧團隊貼上了鮮明的標籤。

歷史總是充滿巧合。20世紀70年代,初出茅廬的史蒂夫&middot;喬布斯找到的第一份工作就是在雅達利遊戲機公司打工。為了開發雅達利公司當時的主打街機產品&ldquo;Pong&rdquo;,喬布斯還請來了好朋友史蒂夫&middot;沃茲尼亞克一起解決技術問題。40多年前,蘋果公司的兩位創始人在雅達利遊戲機上研發的產品,成為40多年後哈薩比斯的Deep Mind團隊磨鍊人工智慧演算法的實驗平臺。在Deep Mind軟體自主學習並熟練掌握的街機遊戲名單上,&ldquo;Pong&rdquo;的名字赫然在列。

從喬布斯到哈薩比斯,從雅達利街機到蘋果電腦再到人工智慧,科技發展的程序中,每一個領軍人物的每一次技術突破,都可能成為後續進展的鋪墊與序曲。從早期的西洋跳棋程式,到能下國際象棋的IBM深藍,再到Alpha Go,每一盤棋的每一場輸贏,不也是人工智慧技術從萌芽到發展再到成熟的最好見證嗎?

Alpha Go的故事尚未完結,Deep Mind就將目光投向了更有挑戰的遊戲領域。2016年11月,在暴雪公司的Blizz Con大會上,Deep Mind正式宣佈牽手暴雪,基於《星際爭霸》遊戲進行人工智慧研究58。與圍棋不同,《星際爭霸》遊戲的參與者需要在全域性尚未明朗的情況下,只依據少數資訊,猜測對手可能的戰略、戰術佈置,並有針對性地設計自己的遊戲策略。從技術上說,《星際爭霸》的挑戰要高於圍棋,打贏《星際爭霸》所需的決策技術,也許更接近人類在日常工作、生活中經常使用的思考與決策方法。從這個意義上說,Deep Mind正向著更高階智慧的方向邁進。

遊戲既是Deep Mind團隊最好的市場和公關手段,同時也幫助Deep Mind在人工智慧領域迅速建立起不同尋常的技術優勢。藉助在遊戲領域取得的經驗和方法,Deep Mind已經開始用人工智慧技術幫助谷歌的資料中心合理排程、分配電力資源,達到省電的目標。此外,Deep Mind與牛津大學合作開發了根據人類說話時的口型猜測說話內容的唇讀技術Lip Net,與英國國家醫療服務體系(NHS)合作推出了綜合性的醫療輔助應用Streams,與眼科醫院合作幫助眼部疾病診斷&hellip;&hellip;哈薩比斯說:&ldquo;我堅信Deep Mind正在從事的研究對人類的未來至關重要,而且這值得我們做出一些犧牲。&rdquo;59

從下象棋、開發遊戲的天才少年,到利用人工智慧技術造福人類的電腦科學家,哈薩比斯的夢想正在實現。一個會玩遊戲的人工智慧和一個會幫助醫生診療疾病的人工智慧,它們之間的技術,竟有如此之多的共同點&mdash;&mdash;技術的神奇莫過於此。

<h3>

德州撲克:開啟新世界的大門?</h3>

我自己很喜歡打德州撲克,經常參加德州撲克比賽。在牌桌上,自我感覺是一名穩健型牌手,保持了還算不錯的勝率。

圍棋是一項講究計算和形勢判斷能力的遊戲。而德州撲克就與此不同,它講究的是在多人博弈中,避免人性貪婪、戀戰等弱點,並將科學的機率統計與靈活的實戰策略很好地配合起來。人工智慧已經在圍棋領域取得歷史性的突破,那麼,在德州撲克的世界裡,人工智慧的表現又如何呢?

如前所述,在圍棋、象棋等遊戲中,人工智慧可以和人類選手一樣,在每一步決策前獲得棋盤上的全部資訊。這種限定規則,隨時可以獲取全部資訊的遊戲,我們可以稱之為&ldquo;完整資訊的博弈遊戲&rdquo;。而在《星際爭霸》或德州撲克中,人工智慧和人類選手通常無法在特定時刻獲得有關遊戲的全部資訊,比如,在德州撲克中,你無法知道對手的底牌是什麼,你也不知道發牌員發出的下一張牌是什麼,在這類&ldquo;不完整資訊的博弈遊戲&rdquo;裡,人工智慧必須像人一樣,根據經驗或機率統計知識,猜測對手底牌和下一張牌的可能性,然後再製定自己的應對策略。

顯然,對於實現人工智慧演算法而言,不完整資訊的博弈遊戲在技術難度上要大得多。就在哈薩比斯的團隊藉助《星際爭霸》磨鍊下一代人工智慧演算法的同時,卡內基-梅隆大學的研究者選擇了德州撲克作為他們攻克此類問題的出發點。

來自卡內基-梅隆大學的托馬斯&middot;桑德霍姆(Tuomas Sandholm)教授與他的博士生諾姆&middot;布朗(Noam Brown)最早開發了一款名為Claudico的德州撲克程式。Claudico是一個拉丁文單詞,對應於德州撲克中的一種特別的策略&mdash;&mdash;平跟(limping),指的是翻牌之前,選擇跟大盲注而不加註的策略。平跟這種策略,在人類德州撲克比賽中,使用的頻率並不是很高,但據托馬斯&middot;桑德霍姆介紹,計算機透過學習發現,使用這種策略有許多好處。值得注意的是,托馬斯&middot;桑德霍姆的團隊在研發德州撲克程式時,主要不是向人類職業選手學習打牌技巧,而是讓計算機透過自我訓練,自己尋找最好的方法。

Claudico從2015年4月到5月,在匹茲堡的河流賭場與人類選手同臺競技,在無限制投注的一對一比賽中,輪流與包括當時世界排名第一的道格&middot;波爾克(Doug Polk)在內的四名人類頂尖高手過招。那次比賽歷時13天,共計2萬局牌。為降低運氣成分,比賽使用的是重複牌局的玩法,即在不同房間的兩張牌桌上使用完全相同但人機對調的兩副牌。這次比賽,AI似乎還很稚嫩。比賽進行過半,人類就領先Claudico大約46萬個籌碼。最終,人類選手以大約73萬個籌碼的優勢贏得了比賽。

Claudico在2015年初出茅廬的這次比賽以失利告終。這個劇情,有些像1996年IBM深藍輸給卡斯帕羅夫的那一次。與Claudico交過手的道格&middot;波爾克說,Claudico與人類的打牌方式非常不同,&ldquo;人類選手的下注數量可能是彩池的一半或四分之三,而Claudico有時只吝嗇地以彩池的十分之一來下注,有時則以彩池的十餘倍來下注。人類可不會用19000美元的下注去博取區區700美元的彩池&rdquo;60。

2015年的失利並沒有讓托馬斯&middot;桑德霍姆教授灰心。2017年1月,教授帶著一個名為Libratus的新版本德州撲克程式捲土重來,再戰匹茲堡的河流賭場。像上次一樣,新版本程式的名字Libratus也是一個拉丁文單詞,對應於程式使用的均衡(balanced)策略&mdash;&mdash;這一策略源自數學家納什定義的一種完美博弈的模型。

托馬斯&middot;桑德霍姆教授解釋說:&ldquo;在有兩名玩家的零和遊戲中,如果有一人不遵從納什均衡的策略,那麼兩名玩家獲得的收益都將受損,但我們的系統不會這樣。在此類遊戲中,以納什均衡的方式思考是最安全的。遵從規律的玩家將合理地獲得收益,同時在任何地方都不會被對手利用。&rdquo;61

這一次,比賽規則和2015年那次基本一致,比賽時間從13天延長到20天,仍基於無限制投注的規則,Libratus輪流與人類高手一對一比賽。人類團隊計算總分,與Libratus的總得分比較勝負關係。不同的是,升級後的Libratus程式就像圍棋棋盤上威風八面的Alpha Go一樣,一上來就對四名人類高手形成了全面壓制。AI從比賽第一天就一路領先,第6天領先優勢雖一度縮小,但從第7天后,人類就再也沒有機會縮小巨大的差距了。最終,Libratus領先的籌碼數量達到驚人的176.6萬美元!在德州撲克領域的人機大戰中,人工智慧完美勝出!

連續參加了2015年和2017年兩次人機大戰的人類德州撲克高手Dong Kim說,他在這次比賽全程充滿挫敗感&mdash;&mdash;其實他已經是四位人類高手裡面,對戰成績最好的那個了。兩年前曾經擊敗計算機的Dong Kim在2017年的比賽剛剛過半時就直言:&ldquo;人類已經沒有真正獲勝的機會。&rdquo;62

那麼,從Libratus大敗人類高手的德州撲克對局中,我們能看到哪些人工智慧的發展規律呢?

根據我對Libratus對局的觀察,Libratus所使用技術策略非常成功。AI利用增強學習技術,從自我對局中學習最優的撲克玩法,而避免從人類的既定模式中學習經驗,這是非常重要的一點。當然,目前Libratus的演算法還只適用於無限制投注的一對一比賽。如果將比賽擴充套件到更常見的多人制比賽,Libratus面對的挑戰會更大一些,還需要進行策略上的升級與調整。

本站所有小說均來源於會員自主上傳,如侵犯你的權益請聯絡我們,我們會盡快刪除。
本站所有小說為轉載作品,所有章節均由網友上傳,轉載至本站只是為了宣傳本書讓更多讀者欣賞。
Copyright © 2024 https://www.lwxszw.com All Rights Reserved