亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

高校合作1:010-59833514 ?咨詢(xún)電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

「聽(tīng)風(fēng)」人工智能在電子游戲上的應(yīng)用綜述

發(fā)布時(shí)間:2024-01-16 16:57:24 瀏覽量:184次

今天要講的內(nèi)容是關(guān)于AI在電子游戲上應(yīng)用的一個(gè)綜述。

魔獸世界在MMORPG游戲歷史上有著舉足輕重的作用,在其他方面的研究里也有著很重要的借鑒價(jià)值。



還記得祖爾格拉布“墮落之血”瘟疫傳染事件嗎,它過(guò)去曾被用于傳染病的研究上。



摘要

電子游戲從出現(xiàn)開(kāi)始就推動(dòng)著計(jì)算機(jī)技術(shù)的發(fā)展,在過(guò)去的十年里,人工智能(AI)技術(shù)的發(fā)展也離不開(kāi)游戲的研究。作為AI研究絕佳的測(cè)試平臺(tái),在人工智能方面從古老的棋盤(pán)游戲、之后又到經(jīng)典的街機(jī)游戲、再到2016年AlphaGo戰(zhàn)勝李世石,人工智能Agent都表現(xiàn)卓越。RPG游戲作為網(wǎng)絡(luò)游戲的一支很重要的大軍,勢(shì)必要搭上人工智能的車(chē)重新占領(lǐng)游戲市場(chǎng)。

本文分析了人工智能系統(tǒng)在電子游戲上的發(fā)展歷史以及現(xiàn)有的人工智能游戲的研究方向,提出了人工智能在未來(lái)RPG游戲游戲上的發(fā)展方向,以期對(duì)今后人工智能在游戲上的應(yīng)用的研發(fā)和創(chuàng)新方向給出一定的指導(dǎo)。

關(guān)鍵詞:游戲人工智能、電子游戲、RTS、MOBA、MMORPG

電子游戲一直是人工智能研究和測(cè)試的重要組成部分。在二十世紀(jì)九十年代中期,IBM 的超級(jí)計(jì)算機(jī)「深藍(lán)」數(shù)次擊敗了國(guó)際象棋世界冠軍卡斯帕羅夫。后來(lái)到了 2011 年,IBM 的沃森人工智能在游戲《危險(xiǎn)邊緣》就擊敗了最優(yōu)秀的人類(lèi)玩家,并展示了 IBM 在自然語(yǔ)言處理的進(jìn)展。2015 年,DeepMind 就開(kāi)始使用機(jī)器學(xué)習(xí)來(lái)訓(xùn)練人工智能玩一些復(fù)古的雅達(dá)利游戲(Atari games),并使其至少能做得和人類(lèi)一樣好。后來(lái)在 2016 年的三月份,DeepMind 通過(guò)另一種方法訓(xùn)練了 Alpha Go,并擊敗了圍棋世界冠軍李世乭。



在過(guò)去的十年里,人工智能以迅猛的發(fā)展之勢(shì)橫掃計(jì)算機(jī)界,而在有監(jiān)督學(xué)習(xí)的情況下,機(jī)器在圖像識(shí)別和語(yǔ)音識(shí)別能力上,已經(jīng)有預(yù)期的超越了人類(lèi)的認(rèn)知水平。前不久,DeepMind在A3C上發(fā)表的論文中提出了一套UNREAL系統(tǒng),在Atari游戲合集上的表現(xiàn)得分基本與人類(lèi)玩家持平,而且有的還能超過(guò)人類(lèi)。而阿里的新研究則通過(guò)BiCNet在《星際爭(zhēng)霸》上實(shí)現(xiàn)了多兵種協(xié)同作戰(zhàn),該實(shí)驗(yàn)證明了這一系統(tǒng)在RTS(Real-Time Strategy Game)游戲上各兵種協(xié)調(diào)全作的有效性,以及指定獎(jiǎng)勵(lì)和學(xué)習(xí)策略存在相關(guān)性。

谷歌DeepMind團(tuán)隊(duì)與暴雪開(kāi)源了星際爭(zhēng)霸2機(jī)器學(xué)習(xí)平臺(tái),提供了游戲輸入輸出API,DeepMind又做了基于Python的封裝,持續(xù)發(fā)布基于replay的增強(qiáng)學(xué)習(xí)訓(xùn)練數(shù)據(jù),此外兩家公司還發(fā)布了上百萬(wàn)幀來(lái)自天梯專(zhuān)業(yè)選手的游戲記錄,這將有助于基于平臺(tái)算法應(yīng)用到不同應(yīng)用上。

之后,研究者們又嘗試使用在AlphaGo Zero中出現(xiàn)的蒙特卡洛樹(shù)搜索等技術(shù),在MOBA(Multiplay Online Battle Arena Game)游戲——《王者榮耀》上得到展現(xiàn),證明了該項(xiàng)技術(shù)的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)可以創(chuàng)建一個(gè)適合《王者榮耀》游戲的有競(jìng)爭(zhēng)力的AI智能體。



MMORPG(Massive Multiplayer Online Role-Playig Game)游戲在過(guò)去的十多年發(fā)展到現(xiàn)在,已經(jīng)處在一個(gè)比較尷尬的狀態(tài),處于下滑態(tài)勢(shì)。一方面由于游戲快餐化,娛樂(lè)模式呈現(xiàn)井噴,MMORPG又大體復(fù)制從出生就有的游戲模式,使得游戲在創(chuàng)新方面已無(wú)法滿(mǎn)足玩家游戲樂(lè)趣。

然而MMORPG停滯不前的十年正是人工智能發(fā)展的十年,隨著人工智能不斷的發(fā)展,游戲需要由低智能向高智能發(fā)展。以遺傳算法和神經(jīng)網(wǎng)絡(luò)為代表的強(qiáng)人工智能將大大提高游戲的智能性。我們基于游戲人工智能在Atari游戲,RTS游戲,MOBA游戲等各類(lèi)游戲上的研究成果,可以預(yù)測(cè)MMORPG游戲也將搭乘人工智能的勢(shì)頭再度引起市場(chǎng)的關(guān)注,而以上的研究成果也將為我們研究人工智能在MMORPG游戲的應(yīng)用提供一定的參考。

1. 游戲人工智能的發(fā)展介紹與分析

1.1 Atrai游戲

1977年,雅達(dá)利(Atari)發(fā)行了自家公司的新一代游戲機(jī)Atari2600,開(kāi)創(chuàng)了現(xiàn)在游戲機(jī)的歷史,同時(shí)也開(kāi)創(chuàng)了強(qiáng)化學(xué)習(xí)領(lǐng)域在訓(xùn)練端到端的控制策略。《Playing Atari with Deep Reinforcement Learning》中說(shuō)到,使用DQN網(wǎng)絡(luò)來(lái)訓(xùn)練AI智能體,以達(dá)到游戲?qū)W習(xí)策略,這些策略的學(xué)習(xí)是通過(guò)計(jì)算機(jī)理解屏幕像素信息以及積分反饋來(lái)取得效果的,該網(wǎng)絡(luò)最初只有兩個(gè)卷積層,用來(lái)提取圖像特征,然而卻已經(jīng)取得了很大的效果,AI智能體表現(xiàn)了不俗的能力。

2010年,Lange提出Deep auto-encoder用于基于視覺(jué)的相關(guān)控制;

在2011年,Cuccu(Jurgen Schmidhuber課題組)等人做出了與DRL相近的研究;同年,Abtahi等人使用DBN替代傳統(tǒng)的強(qiáng)化學(xué)習(xí)中的逼近器;

2012年,Lange提出Deep Fitted Q學(xué)習(xí)做車(chē)輛控制;基于以上發(fā)展,

2013年,Deep Mind團(tuán)隊(duì)在nips上發(fā)表 《Human-level control through deep reinforcement learning》,工作人員在7個(gè)Atari游戲,分別是激光騎士(Beam Rider),打磚塊(Breakout),摩托大戰(zhàn)(Enduro),乓(Pong),波特Q精靈(Q*bert),深海游弋(Seaquest),太空侵略者(Space Invaders),游戲過(guò)程中使用網(wǎng)絡(luò)深層架構(gòu)、學(xué)習(xí)算法,最后AI通過(guò)自學(xué)完成了49種Atari視頻游戲的學(xué)習(xí),并在23種游戲中擊敗了人類(lèi)職業(yè)玩家。前不久DeepMind團(tuán)隊(duì)結(jié)合之前發(fā)表的論文中的成果,又提出了UNREAL(無(wú)監(jiān)督強(qiáng)化和輔助學(xué)習(xí)/UNsupervised Reinforcement and Auxiliary Learning)代理,在一套57個(gè)Atari游戲全集和擁有13個(gè)級(jí)別的3D迷宮游戲Labyrinth中測(cè)試了一新系統(tǒng),并在新系統(tǒng)中超過(guò)了人類(lèi)玩家。

從以上Atari游戲中人工智能的發(fā)展看,我們開(kāi)發(fā)的AI已經(jīng)可以自主解決復(fù)雜問(wèn)題,通過(guò)強(qiáng)化學(xué)習(xí)代理對(duì)大量數(shù)據(jù)進(jìn)行長(zhǎng)時(shí)間訓(xùn)練,提高我們的通用學(xué)習(xí)算法,使用無(wú)監(jiān)督學(xué)習(xí)過(guò)程利用神經(jīng)網(wǎng)絡(luò)來(lái)教電腦玩視頻游戲,可以使計(jì)算機(jī)在一系列復(fù)雜任務(wù)當(dāng)中與人類(lèi)表現(xiàn)相當(dāng),這是一個(gè)算法的突破點(diǎn)。

1.2 RTS游戲

阿里巴巴和UCL的研究者們新提出了雙向協(xié)調(diào)網(wǎng)絡(luò)BiCNet來(lái)相互交流,通過(guò)評(píng)估-決策方式來(lái)完成星際爭(zhēng)霸戰(zhàn)斗任務(wù)。以RTS游戲《星際爭(zhēng)霸》為測(cè)試場(chǎng)景,設(shè)定任務(wù)為多個(gè)智能體互相協(xié)作試圖擊敗敵人。

為了保證溝通方式有效且可擴(kuò)展,他們引入了多智能體雙向協(xié)調(diào)網(wǎng)絡(luò)(BiCNet),它具有向量化擴(kuò)展評(píng)價(jià)器(actor-critic)形式。驗(yàn)證了BiCNet可以協(xié)調(diào)不同兵種,在不同的場(chǎng)景和兩方智能體數(shù)量任意的情況下正常工作。分析證明,在沒(méi)有手動(dòng)標(biāo)記數(shù)據(jù)進(jìn)行監(jiān)督學(xué)習(xí)的情況下,BiCNet可以學(xué)會(huì)多種有經(jīng)驗(yàn)的人類(lèi)玩家展示出的協(xié)調(diào)策略。

而且,BiCNet能夠輕松適應(yīng)異構(gòu)智能體任務(wù)。在實(shí)驗(yàn)中,在不同的場(chǎng)景下用該新方法與不同的基準(zhǔn)進(jìn)行了對(duì)比;BiCNet展現(xiàn)出了最先進(jìn)的性能,它具有在現(xiàn)實(shí)世界大規(guī)模應(yīng)用的潛在價(jià)值。

BiCNet是一種利用雙向神經(jīng)網(wǎng)絡(luò)的多智能體強(qiáng)化學(xué)習(xí)框架。通過(guò)構(gòu)建矢量化的評(píng)估-決策方式,其中每個(gè)維度對(duì)應(yīng)一個(gè)智能體Agent。Agent之前的協(xié)調(diào)通過(guò)內(nèi)部雙向通信?;诙说蕉藢W(xué)習(xí),BiCNet可以學(xué)會(huì)多種有效的協(xié)同作戰(zhàn)策略。BiCNet提出了一種強(qiáng)化學(xué)習(xí)與遷移學(xué)習(xí)的方法,從而可以解決星際爭(zhēng)霸中多Agent控制問(wèn)題。

中國(guó)科學(xué)院自動(dòng)化所也在近期提出的一種強(qiáng)化學(xué)習(xí)+課程遷移學(xué)習(xí)的方法,可以讓AI Agent在組隊(duì)作戰(zhàn)過(guò)程中掌握微操作能力,控制多個(gè)單元。該研究定義了一種高效的狀態(tài)表征,提出一個(gè)參數(shù)共享多智能體梯度下降Sarsa(l)(PS-MAGDS)算法訓(xùn)練單元,該方法使用一個(gè)神經(jīng)網(wǎng)絡(luò)作為函數(shù)近似器,以評(píng)估動(dòng)作價(jià)值函數(shù),還提出了一個(gè)幫助單元平衡智能體的移動(dòng)和攻擊。通過(guò)強(qiáng)化學(xué)習(xí)和課程遷移學(xué)習(xí),智能體Agent可以在星際爭(zhēng)霸的微操場(chǎng)景中學(xué)習(xí)合適的策略。

在中科院的研究中,星際爭(zhēng)霸微操被定義為多智能體強(qiáng)化學(xué)習(xí)模型,整個(gè)強(qiáng)化學(xué)習(xí)范式如圖。

去年第一季度,暴雪和DeepMind開(kāi)源了星際爭(zhēng)霸2的機(jī)器學(xué)習(xí)平臺(tái),這個(gè)平臺(tái)對(duì)于state-of-the-art的深度強(qiáng)化學(xué)習(xí)算法是極好的測(cè)試平臺(tái),此外,兩家公司還發(fā)布了上百萬(wàn)幀的來(lái)自天梯上專(zhuān)業(yè)選手的游戲記錄。在新界面里,《星際爭(zhēng)霸 2》的圖形被簡(jiǎn)化以便于機(jī)器學(xué)習(xí)系統(tǒng)進(jìn)行識(shí)別,同時(shí)他們開(kāi)放API,允許系統(tǒng)讀取游戲中的數(shù)據(jù),實(shí)現(xiàn)原先電腦玩家的部分功能。暴雪還發(fā)布游戲 replay文件數(shù)據(jù)集以供機(jī)器學(xué)習(xí)。

DeepMind的最終目標(biāo)是讓人工智能系統(tǒng)和人類(lèi)玩家一樣,通過(guò)處理視覺(jué)信息理解游戲。同時(shí)研究人員還開(kāi)發(fā)出了一些更加有效的平臺(tái)來(lái)推動(dòng)RTS游戲探索多智能體的控制方向上的發(fā)展,其中包括TorchCraft、ELFPySC2。

通過(guò)強(qiáng)化學(xué)習(xí)和課程遷移學(xué)習(xí),我們的AI Agent能夠在星際爭(zhēng)霸微操場(chǎng)景中學(xué)習(xí)到合適的策略,并且在多單元協(xié)作行為上表現(xiàn)出眾。

DeepMind牽手暴雪,意在要讓人工智能征服星際爭(zhēng)霸,而這將為我們解決人類(lèi)生活環(huán)境中的協(xié)同工作提供思路。當(dāng)然我們有望可以先在游戲上應(yīng)用上達(dá)到創(chuàng)新,以推動(dòng)游戲的發(fā)展。

1.3 MOBA游戲

2017年8月,由OpenAI設(shè)計(jì)的bot打敗了Dota2世界頂級(jí)玩家,在人機(jī)匹配賽之前,OpenAI bot接受了一千次比賽的訓(xùn)練,而且bot通過(guò)自我對(duì)弈,可以預(yù)測(cè)其他玩家的下一步操作。

從2017年起,騰訊AI Lab一直致力于MOBA游戲上的AI研究。于是在今年前不久,匹茨堡大學(xué)、騰訊AI Lab等機(jī)構(gòu)提交到ICML。

2018大會(huì)一篇論文,展示了人工智能在王者榮耀中目前的能力。

2006年Remi Coulom首次介紹了蒙特卡洛樹(shù)搜索(MCTS)并在2012年由Browne等人在論文中進(jìn)行了詳細(xì)的介紹。最近幾年,MCTS在游戲AI的領(lǐng)域引起了廣泛關(guān)注。而在近日的研究中,研究者們提出了一種新方法,在訓(xùn)練中充分發(fā)掘MCTS的局部特性,迭代更新所有狀態(tài)的全局策略。其主要貢獻(xiàn)為:

(1)提出了一個(gè)基于批量MCTS的強(qiáng)化學(xué)習(xí)方法,利用子節(jié)點(diǎn)鑒別器通過(guò)之前的樹(shù)搜索結(jié)果進(jìn)行更新生成更強(qiáng)大的樹(shù)搜索;

(2)提供了方法的復(fù)雜度分析,表明足夠大的樣本規(guī)模和充分的樹(shù)搜索可以使估計(jì)策略的性能接近最優(yōu);

(3)基于反饋的樹(shù)搜索算法的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)在MOBA游戲《王者榮耀》上,且表現(xiàn)良好;

在《王者榮耀》的測(cè)試中,研究者添加了游戲內(nèi)建的AI狄仁杰作為基準(zhǔn),選擇六個(gè)內(nèi)建AI狄仁杰能夠打敗的射手類(lèi)英雄來(lái)對(duì)抗測(cè)試對(duì)手,在游戲中英雄對(duì)敵人造成傷害或者戰(zhàn)勝敵人時(shí),都會(huì)得到金幣,經(jīng)過(guò)對(duì)決,智能體在對(duì)決完成后金幣比例總成達(dá)到一個(gè)高的值,表明其性能良好。

這項(xiàng)研究表明,MCTS已在人工智能領(lǐng)域取行成果,證明這項(xiàng)技術(shù)的深度神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)可以創(chuàng)建一個(gè)適合MOBA游戲的有競(jìng)爭(zhēng)力的AI智能體。這在某一種程度上提供了MOBA高階AI智能體的可能性。

1.4 MMORPG

1.4.1 MMORPG發(fā)展歷史

1980年第一款MMORPG(大型多人聯(lián)機(jī)角色扮演)游戲誕生——《凱斯邁之島》,后該類(lèi)游戲逐漸進(jìn)入玩家視野,從上世紀(jì)90年代末《網(wǎng)絡(luò)創(chuàng)世紀(jì)》、《無(wú)盡的任務(wù)》到2004年在全球發(fā)售運(yùn)營(yíng)的《魔獸世界》。

但是由于游戲市場(chǎng)的更迭以及各種類(lèi)游戲?qū)κ袌?chǎng)的逐漸分成,使得MMORPG在近年光環(huán)褪去,早在2010年,以《魔獸世界》為例,從曾一度擁有1200w續(xù)費(fèi)玩家降到了780w,而且由于MMORPG游戲研發(fā)費(fèi)用高昂,普通小型公司無(wú)法應(yīng)付資金的巨大壓力,而且大型公司則是由于多年市場(chǎng)經(jīng)驗(yàn)不愿承擔(dān)高額風(fēng)險(xiǎn)來(lái)?yè)Q取該類(lèi)型游戲的新鮮血液,導(dǎo)致MMORPG運(yùn)轉(zhuǎn)狀況不佳,難以繼續(xù)吸引大量新的玩家。

Trion Worlds的《時(shí)空裂隙》和EA的《星球大戰(zhàn):舊共和國(guó)》都曾希望復(fù)制《魔獸世界》的成功模式,然而創(chuàng)新的玩法以及更高的智能體系統(tǒng)在沒(méi)出現(xiàn)之前,舊模式始終無(wú)法玩家的游戲性。

《魔獸世界》截止目前仍然是最成功的MMORPG,2010年付費(fèi)用戶(hù)和收入到達(dá)峰值后,標(biāo)志著歐美網(wǎng)游市場(chǎng)MMORPG開(kāi)始走下坡路。

1.4.2 人工智能在MMORPG上的創(chuàng)新思路

基于Atria視頻游戲,RTS戰(zhàn)略游戲,以及MOBA對(duì)戰(zhàn)游戲上算法的研究,將該算法思路運(yùn)用到魔獸世界插件系統(tǒng)中,人工智能體在通過(guò)玩家操作進(jìn)行訓(xùn)練,采用合適的以上算法訓(xùn)練智能體插件,再通過(guò)玩家對(duì)戰(zhàn)進(jìn)行實(shí)操,從而提供一套自學(xué)習(xí)的插件系統(tǒng),智能插件系統(tǒng)將會(huì)輔助玩家進(jìn)行預(yù)判,游戲決策以及團(tuán)隊(duì)決策等任務(wù),這將成為游戲應(yīng)用的一個(gè)創(chuàng)新設(shè)計(jì)。

2. 應(yīng)用與創(chuàng)新實(shí)踐

分析AI算法在MMORPG應(yīng)用上的可行性:

首先World of Warcraft APIBlizzard WoW客戶(hù)端提供的一套Lua函數(shù)與工具集,可以使用戶(hù)與游戲客戶(hù)端進(jìn)行交互,同時(shí)用戶(hù)操作的數(shù)據(jù)可以通過(guò)接口獲取到;

其次,Lua作為一門(mén)輕量而快速的腳本語(yǔ)言,功能在高級(jí)動(dòng)態(tài)語(yǔ)言中十分完備,對(duì)C API以及線程安全的VM支持,非常適合于處理業(yè)務(wù)邏輯; 本應(yīng)用的幾個(gè)難點(diǎn)在于:

(1)如何通過(guò)WoW API收集用戶(hù)操作以產(chǎn)生可用的訓(xùn)練數(shù)據(jù)集;

(2)如何將可用的訓(xùn)練的數(shù)據(jù)運(yùn)用到算法中,從而產(chǎn)生訓(xùn)練結(jié)果以及結(jié)果回傳;

(3)如何進(jìn)行訓(xùn)練算法的改進(jìn),提供完整的適用于玩家插件需求的結(jié)果數(shù)據(jù); 最后,訓(xùn)練算法基于C++實(shí)現(xiàn),LuaC/C++上的數(shù)據(jù)傳遞以及封裝上都比較方便,又魔獸世界又有開(kāi)放的Lua腳本API,這將為該強(qiáng)化學(xué)習(xí)的系統(tǒng)在其上應(yīng)用提供了保障。

3.總結(jié)與展望

基于星際爭(zhēng)霸等游戲的機(jī)器學(xué)習(xí)和深度學(xué)習(xí)算法,使得游戲多智能體能夠進(jìn)行合作,以達(dá)到人類(lèi)玩家微操的效果,這種強(qiáng)化學(xué)習(xí)以及遷移學(xué)習(xí)的方法,在Atari視頻游戲,RTS戰(zhàn)略游戲,MOBA對(duì)戰(zhàn)游戲上的可行性得到了初步的證明。

MMORPG游戲,特別是魔獸世界,在即時(shí)戰(zhàn)略系統(tǒng)上也可以使用相同的原理,基于魔獸世界插件的開(kāi)放接口,可以將該訓(xùn)練模型用于魔獸團(tuán)隊(duì)?wèi)?zhàn)略插件系統(tǒng)中。

這樣的一次嘗試將機(jī)器學(xué)習(xí)訓(xùn)練系統(tǒng)運(yùn)用到MMORPG游戲中,這將進(jìn)一步肯定AI算法在游戲中的應(yīng)用,將有利于創(chuàng)造更完善的游戲AI系統(tǒng),增加更智能的Boss體,以及更加智能的戰(zhàn)斗游戲策略,以此來(lái)提高游戲體驗(yàn)。

以上

這篇文章是寫(xiě)在2018年的12月,雖然已經(jīng)過(guò)去三年時(shí)間,但從現(xiàn)在看AI的熱度仍然只增不減,AI對(duì)于MMORPG游戲的應(yīng)用仍在探索階段。近階段比較火熱的“元宇宙”概念,與MMORGP也有著千絲萬(wàn)縷的關(guān)系。我堅(jiān)信,MMORPG游戲也會(huì)借助“元宇宙”創(chuàng)造綻放出更加閃耀的光芒。

參 考 文 獻(xiàn)

  1. Mnih V, Kavukcuoglu K, Silver D, et al. Playing Atari with Deep Reinforcement Learning[J]. Computer Science, 2013.
  1. V. Mnih, K. Kavukcuoglu, D. Silver, A. A. Rusu, J. Veness, M. G. Bellemare, et al., "Human-level control through deep reinforcement learning," Nature, vol. 518(7540), pp. 529-533, 2015.
  2. Peng Peng, Quan Yuan, Ying Wen, Yaodong Yang, Zhenkun Tang, Haitao Long, Jun Wang, “Multiagent Bidirectionally-Coordinated Nets: Emergence of Human-level Coordination in Learning to Play StarCraft Combat Games,”, (1) Alibaba Group, (2) University College London, 2017.
  3. Kun Shao, Yuanheng Zhu, Dongbin Zhao, “StarCraft Micromanagement with Reinforcement Learning and Curriculum Transfer Learning,”,IEEE, 2018.
  4. Oriol Vinyals, Timo Ewalds, Sergey Bartunov, Petko Georgiev, Alexander Sasha Vezhnevets, Michelle Yeo, Alireza Makhzani, Heinrich Küttler, John Agapiou, Julian Schrittwieser, John Quan, Stephen Gaffney, Stig Petersen, Karen Simonyan, Tom Schaul, Hado van Hasselt, David Silver, Timothy Lillicrap, Kevin Calderone, Paul Keet, Anthony Brunasso, David Lawrence, Anders Ekermo, Jacob Repp, Rodney Tsing, “StarCraft II: A New Challenge for Reinforcement Learning,”, 2017.
  5. 陳釔似.基于機(jī)器學(xué)習(xí)的游戲智能系統(tǒng)研究與應(yīng)用[D].電子科技大學(xué).2017
  6. 鄭其寶.人工智能影響下數(shù)字游戲智能化發(fā)展探究[D].南京藝術(shù)學(xué)院.2016
  7. 常迎春.基于分層時(shí)序記憶算法的游戲人工智能的異常檢測(cè)[D].河北工業(yè)大學(xué).2015
  8. 姜文軍.網(wǎng)絡(luò)游戲中人工智能的研究及應(yīng)用[D].上海交通大學(xué).2012
  9. http://www.infoq.com/cn/articles/atari-reinforcement-learning
  10. https://blog.csdn.net/mydear_11000/article/details/51488118
  11. http://baijiahao.baidu.com/s?id=1566325283820033&wfr=spider&for=pc
  12. https://www.nextbigfuture.com/2014/12/deep-learning-and-deep-reinforcement.html

熱門(mén)課程推薦

熱門(mén)資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定