2016年,Alphabet的DeepMind與AlphaGo一起問(wèn)世,該AI一直領(lǐng)先于人類最好的棋手。一年后,工作繼續(xù)完善,AlphaGo Zero創(chuàng)建。AlphaGo通過(guò)觀察業(yè)余比賽和專業(yè)比賽學(xué)會(huì)了圍棋,而AlphaGo Zero能通過(guò)簡(jiǎn)單地與自己對(duì)戰(zhàn)來(lái)掌握游戲。然后,DeepMind創(chuàng)建了AlphaZero,該AlphaZero可以使用單一算法玩圍棋、國(guó)際象棋和將棋。
這些AI的共同特點(diǎn)是,它們必須掌握游戲規(guī)則然后再進(jìn)行培訓(xùn)。DeepMind的最新AI MuZero不需要游戲的規(guī)則即可掌握游戲。與DeepMind之前的AI算法一樣,MuZero具有相同甚至更好的能力。
MuZero沒(méi)有嘗試對(duì)所有模型進(jìn)行建模,而只是嘗試考慮那些對(duì)決策至關(guān)重要的因素。正如DeepMind所指出的,這是作為人類所做的事情。當(dāng)大多數(shù)人看著窗外,看到地平線上形成烏云時(shí),他們通常不會(huì)陷入烏云是如何形成之類的問(wèn)題。相反,它們思考的是如果出門應(yīng)該穿什么以防止被淋濕。MuZero就是做類似這樣的事情。
MuZero在做決定時(shí)會(huì)考慮三件事。首先,它會(huì)考慮上一次行動(dòng)的結(jié)果、當(dāng)前所處的位置以及下一次行動(dòng)的最佳方案。這種看似簡(jiǎn)單的方法使MuZero成為迄今為止DeepMind最有效的算法。在測(cè)試中DeepMind發(fā)現(xiàn),MuZero與之前的AI算法表現(xiàn)都一樣好。而且,給它的時(shí)間越多,它提供的解決方案就越好。即使加入了時(shí)間限制,比如在行動(dòng)前限制吃豆人女士的模擬次數(shù),MuZero也取得了不錯(cuò)的效果。
該公司表示,MuZero的學(xué)習(xí)能力有一天可以幫助解決沒(méi)有簡(jiǎn)單規(guī)則領(lǐng)域的復(fù)雜問(wèn)題。(釘科技根據(jù)《engadget》消息編譯)
- QQ:61149512