- 系 統(tǒng)
- 進(jìn)階教程
- 微軟認(rèn)證
- Win7/WinX
- 優(yōu)化
- 系統(tǒng)故障
- Windows NT
- 社區(qū)
騰訊 AI Lab 與王者榮耀聯(lián)合研發(fā)的策略協(xié)作型AI,“絕悟”首次開(kāi)放大規(guī)模開(kāi)放:5月1日至4日,玩家從王者榮耀大廳入口,進(jìn)入“挑戰(zhàn)絕悟”測(cè)試,“絕悟”在六個(gè)關(guān)卡中的能力將不斷提升,用戶(hù)可組隊(duì)挑戰(zhàn)“絕悟”。這不是騰訊 AI Lab首次大展伸手了,例如去年“中信證券懷”世界智能?chē)骞_(kāi)賽的冠軍就是來(lái)自于騰訊AI Lab的“絕藝”。 本次在王者榮耀上線(xiàn)的“絕悟”真的是令人覺(jué)悟,筆者做為老的DOTATER,MOBA類(lèi)游戲的水平,自認(rèn)還是相當(dāng)不錯(cuò)的,不過(guò)親測(cè)了幾局,始絡(luò)不能在路人匹配的情況下通過(guò)第三關(guān)。“絕悟”的1v1版本曾在2019年的China Joy上開(kāi)放,在與頂級(jí)業(yè)余玩家的 2100多場(chǎng),AI勝率為 99.8%,此次是“絕悟” 5v5 版本首次公開(kāi)。如果以后掛機(jī)隊(duì)友都能用“絕悟”托管,那估計(jì)今后匹配到掉線(xiàn)玩家的隊(duì)伍,是做夢(mèng)都要笑醒吧。
在柯潔等人類(lèi)頂尖棋手紛紛敗于AlphaGo后,AI已經(jīng)破解了圍棋的難題,大面積目前多人在線(xiàn)戰(zhàn)術(shù)競(jìng)技類(lèi)游戲(MOBA)成為測(cè)試和檢驗(yàn)前沿人工智能的復(fù)雜決策、行動(dòng)、協(xié)作與預(yù)測(cè)能力的重要平臺(tái)。 比如在去年的DOTA頂級(jí)賽事TI8上,在OpenAI與世界冠軍OG戰(zhàn)隊(duì)之間的一場(chǎng)DOTA2比賽上,AI戰(zhàn)隊(duì)以2:0完勝了人類(lèi)冠軍。雖然筆者認(rèn)為OG在TI8上奪冠不太有說(shuō)服力,去年的LGD和Liquid比OG厲害,不過(guò)AI在兩場(chǎng)比賽中,尤其在第二場(chǎng)15分鐘就完成戰(zhàn)斗,展現(xiàn)的強(qiáng)大到碾壓的能力令人驚嘆。 但是到OpenAI的MOBA游戲的AI模型是有限定條件的,不允許人類(lèi)選手選擇幻影長(zhǎng)矛手及分身斧等幻象、分身類(lèi)道具,雖然王者榮耀游戲中不涉及此類(lèi)情況,但是與棋類(lèi)游戲相比,MOBA類(lèi)游戲的AI模型至少在以下幾個(gè)方面是完全不同的。 一、復(fù)雜度: 王者榮耀的正常游戲時(shí)間大約是20分鐘,一局中大約有20,000幀。在每一幀,玩家有幾十個(gè)選項(xiàng)來(lái)做決定,包括有24個(gè)方向的移動(dòng)按鈕,和一些相應(yīng)的釋放位置/方向的技能按鈕。王者峽谷地圖分辨率為130,000×130,000像素,每個(gè)單元的直徑為1,000。在每一幀,每個(gè)單位可能有不同的狀態(tài),如生命值,級(jí)別,黃金。同樣,狀態(tài)空間的大小為10^20,000,其決策點(diǎn)要玩大于棋類(lèi)游戲。 二、信息不對(duì)稱(chēng): MOBA類(lèi)游戲中一般都有視野的范圍,這造成了信息的對(duì)稱(chēng),也就是說(shuō)AI無(wú)法像棋類(lèi)游戲一樣獲得全部的對(duì)局信息。 三、團(tuán)隊(duì)配合:一般如王者榮耀等MOBA類(lèi)游戲都是5V5的集體類(lèi)游戲,那么整個(gè)團(tuán)隊(duì)需要有宏觀(guān)的策略,也需要微觀(guān)的精細(xì)執(zhí)行。 在游戲的各個(gè)階段,玩家對(duì)于決策的分配權(quán)重是不同的。例如在對(duì)線(xiàn)階段,玩家往往更關(guān)注自己的兵線(xiàn)而不是支持盟友,在中后期階段,玩家應(yīng)關(guān)注團(tuán)戰(zhàn)的動(dòng)態(tài)。每個(gè)AI玩家對(duì)隊(duì)友的配合操作納入計(jì)算范圍,這將提高計(jì)算量。 四、獎(jiǎng)勵(lì)函數(shù)難以制訂: MOBA類(lèi)游戲到比賽的最后時(shí)刻存在懸念,不像棋類(lèi)游戲中吃子或者提子等獎(jiǎng)勵(lì)來(lái)得那么直接。這讓MOBA類(lèi)的AI的獎(jiǎng)勵(lì)函數(shù)非常難以制訂。
“絕悟”背后是一種名為“強(qiáng)化學(xué)習(xí)”(reinforcement learning,RL)的AI技術(shù),其思想源自心理學(xué)中的行為主義理論,因此該學(xué)習(xí)方法與人類(lèi)學(xué)習(xí)新知識(shí)的方式存在一些共通之處。 游戲作為真實(shí)世界的模擬與仿真,一直是檢驗(yàn)和提升 AI 能力的試金石,復(fù)雜游戲更被業(yè)界認(rèn)為是攻克 AI 終極難題——通用人工智能(AGI)的關(guān)鍵一步。如果在模擬真實(shí)世界的虛擬游戲中,AI 學(xué)會(huì)跟人一樣快速分析、決策與行動(dòng),就能執(zhí)行更困難復(fù)雜的任務(wù)并發(fā)揮更大作用。 強(qiáng)化學(xué)習(xí)做一系列基于時(shí)間序列的決策。它先假定每個(gè)問(wèn)題都對(duì)應(yīng)一個(gè)Environment,這時(shí)每一個(gè)Agent在Environment中采取的每一步動(dòng)作都是一個(gè)Action,做出Action之后,Agent從Environment中得到observation與reward,再不斷循環(huán)這個(gè)過(guò)程,以達(dá)到總體reward最大化。 從RL的原理中能看出,RL是一種在不確定且復(fù)雜的環(huán)境中通過(guò)不斷試錯(cuò),并根據(jù)反饋不斷調(diào)整策略,最終完成目標(biāo)的AI,這和游戲的實(shí)踐場(chǎng)景可謂非常的契合。 雖然目前RL在一些具體的場(chǎng)景中,如控制步進(jìn)馬達(dá)、電子競(jìng)技方面取得了很多突破性的進(jìn)展。截止目前“絕悟”的RL框架還沒(méi)有開(kāi)源,不過(guò)好在Open AI的gym框架是開(kāi)源,并提供了RL完整的接口。可以讓我們通過(guò)玩游戲,來(lái)了解深度學(xué)習(xí)的原理。安裝gym十分簡(jiǎn)單,只是記得要執(zhí)行這個(gè)命令pip install gym[atari]即可。 其示例代碼如下:
其運(yùn)行效果如下: 通關(guān)小貼士 如何打敗AI這點(diǎn)上,我們可以參考而三年前李世石戰(zhàn)勝AlphaGo的第四局對(duì)弈,其中第78手這一挖,此招一出當(dāng)時(shí)技驚四座,甚至被圍棋界認(rèn)為是“捍衛(wèi)了人類(lèi)智慧文明的瑰寶”。 隨后AlphaGo被李世石的“神之一手”下得陷入混亂,走出了黑93一步常理上的廢棋,導(dǎo)致棋盤(pán)右側(cè)一大片黑子“全死”。 此后,“阿爾法圍棋”判斷局面對(duì)自己不利,每步耗時(shí)明顯增長(zhǎng),更首次被李世石拖入讀秒。最終,李世石冷靜收官鎖定勝局。后來(lái)通過(guò)仔細(xì)復(fù)盤(pán)人們發(fā)現(xiàn)這78手并非無(wú)解,只是騙到了當(dāng)時(shí)的AlphaGo引發(fā)了AI的Bug才使人類(lèi)能夠贏下一盤(pán)。 可以說(shuō)打敗AI最關(guān)鍵的決竅就是,千萬(wàn)不要在AI的空間和AI斗,一定不能按照常理出牌。“絕悟”雖強(qiáng),但目前肯定還不是完全體,正如我們前文所說(shuō),MOBA類(lèi)AI模型的獎(jiǎng)勵(lì)函數(shù)是非常難以制訂的,很可能是因?yàn)樵陂_(kāi)局戰(zhàn)爭(zhēng)迷霧未解開(kāi)的情況下,入侵野區(qū)的收益值不如抱團(tuán)清線(xiàn)來(lái)得高,因此“絕悟”開(kāi)局大勵(lì)套路比較單一。那么筆者做為一個(gè)菜雞玩家,通過(guò)上述分析給大家一些建議。 一、 選擇強(qiáng)勢(shì)入侵陣容,不斷蠶食AI經(jīng)濟(jì)。因?yàn)锳I一般在明確打不過(guò)的情況下就會(huì)直接放棄,親測(cè)如果人類(lèi)玩家強(qiáng)勢(shì)入侵,那么AI一般會(huì)選擇放棄,不過(guò)這個(gè)策略對(duì)于普通玩家也沒(méi)有太大用處,因?yàn)榧词贡痉浇?jīng)濟(jì)領(lǐng)先,一般的玩家也依然沒(méi)法打過(guò)AI。 二、 偷塔。由于王者榮耀等MOBA類(lèi)游戲歸底結(jié)底還是推塔的游戲,從“絕悟”學(xué)習(xí)成果結(jié)果來(lái)看,其對(duì)于擊殺和遠(yuǎn)古生物的給予的獎(jiǎng)勵(lì)權(quán)重明顯更高,這也不難理解,因?yàn)樵谄胀ǖ谋荣愔羞@兩點(diǎn)的確是勝負(fù)的關(guān)鍵。 正如上文所說(shuō),打敗AI的關(guān)鍵點(diǎn)就在于不要按照常理出牌,使用李元芳、米萊迪、周渝這種強(qiáng)勢(shì)推塔陣容,趁對(duì)面在打暴君、主宰等遠(yuǎn)谷生物時(shí)趕快偷塔,實(shí)測(cè)發(fā)現(xiàn)尤其在前4分鐘防御塔有隔擋機(jī)制時(shí),“絕悟”對(duì)于守塔不太感冒。趁這時(shí)趕快偷塔,往往是記得比賽的關(guān)鍵。 三、 反殺關(guān)鍵韌性鞋。王者榮耀中有一個(gè)非常特殊的道具韌性鞋,能減少被控制的時(shí)間,“絕悟”在進(jìn)行越塔擊殺,往往借助于連續(xù)的控制。筆者在實(shí)測(cè)中看到人類(lèi)玩家反殺“絕悟”的情況,基本都是留好韌性鞋的金錢(qián),等待“絕悟”控制技能施法前搖時(shí),瞬間購(gòu)買(mǎi),從而避免被控制至死,進(jìn)而實(shí)現(xiàn)反殺大業(yè),最差也能拖慢AI的節(jié)奏,為隊(duì)友爭(zhēng)取偷塔時(shí)間。
我們知道現(xiàn)實(shí)生活中的許多真實(shí)的問(wèn)題(如股票)沒(méi)有明確的規(guī)則,或者規(guī)則會(huì)變動(dòng),需要具體決策需要AI自行摸索,這是強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)所在。 長(zhǎng)遠(yuǎn)來(lái)看,AI+游戲研究將是攻克 AI 終極研究難題——通用人工智能(AGI)的關(guān)鍵一步。不斷讓 AI 從0到1去學(xué)習(xí)進(jìn)化,并發(fā)展出一套合理的行為模式,這中間的經(jīng)驗(yàn)、方法與結(jié)論,有望在大范圍內(nèi),如醫(yī)療、制造、無(wú)人駕駛、農(nóng)業(yè)到智慧城市管理等領(lǐng)域帶來(lái)更深遠(yuǎn)影響。 未來(lái)我們還有哪些“絕悟”AI式的驚喜,讓我們拭目以待。
|