AlphaGo的深度學(xué)習(xí)能力是可以不斷強化的,人類的棋譜可以輸入,機器可以不斷的自我對局來積累經(jīng)驗,選擇最佳點。求最優(yōu)解的計算也可以積累。所以AlphaGo的進步實際上是非常非??斓?,而且會越來越快。
3月9日下午,谷歌AlphaGo在人機對戰(zhàn)的第一盤戰(zhàn)勝李世石。雖然李世石賽前曾經(jīng)表示,人工智能擊敗人類長期來看將是不可避免的事,但這次他將堅決為捍衛(wèi)人類尊嚴(yán)而戰(zhàn)。但是他還是出現(xiàn)了幾個失誤,輸給了AlphaGo。
2016年1月,國際頂尖期刊《自然》曾經(jīng)報道了谷歌研究開發(fā)的名為AlphaGo的人工智能電腦,這款人工智能于去年10月以5比0完勝歐洲圍棋冠軍、職業(yè)二段樊麾。
當(dāng)谷歌旗下的DeepMind公司宣布邀請韓國著名職業(yè)九段棋手李世石五局比賽的時候。大多數(shù)人并不看好AlphaGo,包括中國古力,聶衛(wèi)平和目前第一高手柯杰,很多人都預(yù)測AlphaGo會0比5輸。而第一局是李世石輸了。
雖然,李世石有幾個明顯失誤,但是AlphaGo所表現(xiàn)出來的戰(zhàn)斗力遠(yuǎn)不是1月份的水平,為何高手紛紛走眼?AlphaGo為何表現(xiàn)出比1月份強出若干倍的戰(zhàn)斗力呢?這得從AlphaGo是什么說起。
一、AlphaGo牛在哪?
AlphaGo 是什么?在今年一月的Nature上有AlphaGo的詳細(xì)介紹,AlphaGo是一套為了圍棋優(yōu)化的設(shè)計周密的深度學(xué)習(xí)引擎,使用了神經(jīng)網(wǎng)路加上 MCTS (Monte Carlo tree search),并且用上了巨大的谷歌云計算資源,使用了GPU的通用計算能力。
AlphaGo 的特點在于充分利用現(xiàn)在的機器學(xué)習(xí)技術(shù),可擴張的架構(gòu),它不僅僅是用一臺超級計算機,而是可以利用谷歌龐大的計算資源來做這個深度學(xué)習(xí),提升學(xué)習(xí)能力。谷歌提供了15-20名世界頂級的計算機科學(xué)家和機器學(xué)習(xí)專家和全世界最龐大的谷歌后臺計算平臺,看看能把圍棋這種高難度的人類游戲項目做到什么高度?
圍棋是相當(dāng)感性的項目,它不像象棋每個子都有價值計算,目標(biāo)明確就是將死對方的王,不被對方將死。圍棋的形好壞是相當(dāng)感性的東西。對優(yōu)劣的判斷也不是純計算的結(jié)果。
而且,圍棋的棋盤太大,手?jǐn)?shù)太多,五子棋的復(fù)雜度是10的28次冪,國際象棋是10的46次冪,而圍棋因為棋盤大,復(fù)雜度是10的172次冪。復(fù)雜度越高,對計算能力的要求就越高,所以圍棋計算機程序的水平一直無法與人類高手相比。
所以,雖然從1997年以來,計算機性能遵照摩爾定律一直在飛速增長,超級計算機每年性能都刷新紀(jì)錄,但是要挑戰(zhàn)圍棋這種復(fù)雜游戲的人類高手,要到2016年才開始。
AlphaGo雖然有谷歌的龐大計算資源,雖然有GPU通用計算能力。但是它也算不了圍棋這種超高復(fù)雜度的游戲,不能像簡單的棋一樣把每一步算清楚。
所以AlphaGo綜合了各種人工智能的成果,首先通過深度學(xué)習(xí)引擎,AlphaGo搞來人類的數(shù)千萬盤對局,學(xué)習(xí)人類高手的招數(shù),來選擇每一步可能下的幾個點。
這個深度學(xué)習(xí)是可以不斷進化的,學(xué)習(xí)過的越多,選點的水平就越高,而在選擇了有限的點之后,就可以用MCTS (Monte Carlo tree search)來算下去了,求出最優(yōu)解。
當(dāng)然,圍棋的棋盤太大,手?jǐn)?shù)太多,即使是選擇有限的點,計算量也無法承受,所以AlphaGo又對棋盤分了區(qū),算局部而整體。
以前結(jié)合深度學(xué)習(xí)和運算能力,配上谷歌龐大的計算資源加以訓(xùn)練(深度學(xué)習(xí)是可以自己與自己下棋不斷提高的)AlphaGo的水平就超越了以前的圍棋AI,可以挑戰(zhàn)職業(yè)棋手了。
二、為何高手會看錯
在對局前,從李世石自己到中國高手們,對AlphaGo都是不屑一顧的,因為它們看到的是AlphaGo對樊麾的棋譜,這個棋譜的水平只是贏了,并沒有高到那里。所以高手們認(rèn)為AlphaGo不堪一擊。
而事實上,AlphaGo是根據(jù)對手的每一步棋在選擇,只要贏的概率大,AlphaGo不會像人類一樣走追求完美的棋,所以AlphaGo被低估了。
而AlphaGo的深度學(xué)習(xí)能力是可以不斷強化的,人類的棋譜可以輸入,機器可以不斷的自我對局來積累經(jīng)驗,選擇最佳點。求最優(yōu)解的計算也可以積累。所以AlphaGo的進步實際上是非常非??斓?,而且會越來越快。
如同谷歌工程師所說,李世石一年最多下一千盤,而計算機可以一天一百萬盤,而且每一盤的經(jīng)驗和計算都可以儲存積累。
所以3月份的AlphaGo與1月份的AlphaGo也有了非常大的不同。高手們看到第一盤的棋譜,紛紛認(rèn)為自己走了眼。中國棋院的一些高手對AlphaGo的認(rèn)識從職業(yè)初段的水平提升到職業(yè)五六段,而圍棋第一人柯杰的評價更高,他表示自己也只有六成勝算。
AlphaGo以前的棋譜不能代表其極限水平,它是遇強更強的,另外AlphaGo的進步速度也遠(yuǎn)超人類,所以AlphaGo超越人類高手也許很快就可以做到。
三、人類還有機會嗎?
其實,以圍棋的復(fù)雜程度,現(xiàn)在計算機雖然用上GPU通用計算,用上了分布式計算,依然沒有計算清楚圍棋所有的變化。
所以,圍棋還要深度學(xué)習(xí)模擬人類選擇點,還要用棋盤分區(qū)來減輕計算量,在布局和中盤,計算機由于時間和運算能力限制并非能拿出最優(yōu)解。
因為深度學(xué)習(xí)選擇的點未必是最優(yōu)的,而靠MCTS 完全計算清楚再有時間限制的情況下也很困難。
但是到了最后的宮子階段,計算量大大減少,AlphaGo可以完全算清楚,讓每一步都是最優(yōu)解。人類最多也是與之平手。
所以AlphaGo至少在目前還不是不可戰(zhàn)勝,在開局和中盤,人類還是有機會領(lǐng)先的,在宮子階段可以與之戰(zhàn)成平手。實際上1月份二段水平的樊麾也贏了兩局快棋。
但是,由于AlphaGo強大的深度學(xué)習(xí)能力,其深度學(xué)習(xí)后選擇點的能力會越來越高,它也會越來越難戰(zhàn)勝。
而今后若干年,隨著計算機能力的再擴充,AlphaGo有可能通過MCTS把圍棋每一步都計算清楚,那個時候圍棋這個運動的意義就不大了。
四、AlphaGo的意義
圍棋本來認(rèn)為是無法算清的,至少現(xiàn)在的計算能力不行,而AlphaGo把人類感性的東西,通過計算機龐大的計算能力和高水平的人工智能程序來解釋,通過機器的自我學(xué)習(xí)來提升,這是很有意義的。
AlphaGo里面的深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、MCTS,和AlphaGo的擴張能力計算能力都是通用的技術(shù)。AlphaGo今天要進入一個新的應(yīng)用領(lǐng)域,用AlphaGo的底層技術(shù)和AlphaGo的團隊,應(yīng)該可以更快更有效地開發(fā)出解決方案。
AlphaGo如果有朝一日在圍棋上擊敗頂級的人類智能,那么這種學(xué)習(xí)能力用于其他難以精確計算而依靠人類經(jīng)驗判斷的領(lǐng)域,也會擊敗人類。
要知道,現(xiàn)在傳感器實際上有遠(yuǎn)遠(yuǎn)優(yōu)于人類的感知能力,如果計算機對非精確描述的事物學(xué)習(xí)能力也超過人類,那么人類真的就可以被替代了。
無人駕駛是小菜一碟,人類能學(xué)會的,計算機都可以學(xué)會,而且學(xué)得更好,那么人類的所有的技能與經(jīng)驗就全部變成可替代的了,包括編程。計算機可以自我發(fā)展,完成各種功能,人類的各種勞動都可以解放了。
計算機具備了深度學(xué)習(xí)能力以后,人類的所有勞動都可以被替代。工廠是無人的,車輛是無人的,飛機是無人的,飯店服務(wù)員是機器人,名廚是一臺自動烹調(diào)的機器, 人類只復(fù)雜在機器故障或者失靈時候,做人為的干預(yù)與檢修。而機器給人創(chuàng)造的財富幾乎沒有上限,只取決于自然資源的多少。
這個世界聽上去似乎很熟悉,沒錯,天網(wǎng)就在不遠(yuǎn)的將來。
(來源:百略網(wǎng) 作者:maomaobear[投稿百略網(wǎng)] 原文鏈接:http://www.ibailve.com/show/6-4547-1.html)
- QQ:61149512