發(fā)布時間:2024-06-09 20:20:08 瀏覽量:387次
《我的世界》里,玩家不一定都是人類,現(xiàn)在 AI 也會玩了。
《我的世界》是全球知名度最高的開放世界游戲。小朋友只需觀看十分鐘的教學(xué)視頻,就能學(xué)會在游戲中尋找稀有的鉆石,但這卻是 AI 此前無法企及的高度。
今天 OpenAI 的研究團(tuán)隊宣布他們開發(fā)了一種能玩《我的世界》的智能體,其中使用《我的世界》游戲大量未標(biāo)記視頻數(shù)據(jù)集訓(xùn)練神經(jīng)網(wǎng)絡(luò),僅使用少量標(biāo)記數(shù)據(jù)。
論文地址:點(diǎn)擊咨詢
我們先來看下效果,模型建造一個簡陋的木制避難所:

制作石鎬
VPT 方法
互聯(lián)網(wǎng)包含大量可供我們學(xué)習(xí)的公開視頻,例如游戲玩家演示游戲玩法,《我的世界》玩家建造一個錯綜復(fù)雜的房子。然而這些視頻只提供了事情發(fā)生的記錄,而不是確切的實(shí)現(xiàn)方式,即沒有說明鼠標(biāo)移動和按鍵的確切順序。
相比于 OpenAI 的大型語言模型,要在視頻游戲等更通用領(lǐng)域構(gòu)建大型基礎(chǔ)模型(foundation model),缺乏動作標(biāo)簽帶來了新的挑戰(zhàn)。
為了利用互聯(lián)網(wǎng)上可用的大量未標(biāo)記視頻數(shù)據(jù),該研究提出了一種新穎但簡單的半監(jiān)督模仿學(xué)習(xí)方法:視頻預(yù)訓(xùn)練(VPT)。
該研究首先從游戲商家那里收集了一個小型數(shù)據(jù)集,其中不僅記錄了玩游戲的視頻,還記錄了玩家采取的行動,即按鍵和鼠標(biāo)的移動。利用這些數(shù)據(jù),該研究訓(xùn)練了一個逆動力學(xué)模型 (IDM),以預(yù)測視頻中每個步驟所采取的動作。重要的是,IDM 可以使用過去和未來的信息來猜測每一步動作。與僅給定過去視頻幀預(yù)測動作的行為克隆任務(wù)相比,這種任務(wù)要容易得多,需要的數(shù)據(jù)也要少得多。然后該研究使用經(jīng)過訓(xùn)練的 IDM 來標(biāo)記更大的在線視頻數(shù)據(jù)集,并通過行為克隆來學(xué)習(xí)行動。
VPT 零樣本結(jié)果
該研究選擇《我的世界》這個游戲中驗(yàn)證了所提方法,因?yàn)樗?(1) 是世界上最流行的視頻游戲之一,擁有大量可免費(fèi)獲得的視頻數(shù)據(jù),并且 (2) 是開放式的,可以提供各種各樣的行為動作,類似于現(xiàn)實(shí)世界的應(yīng)用程序(如計算機(jī)使用)。與之前的工作在《我的世界》中使用簡化動作空間不同,OpenAI 的新模型使用更普遍適用、難度也更大的原生人機(jī)界面:鼠標(biāo)和鍵盤使用 20Hz 幀率。
該研究的行為克隆模型(VPT 基礎(chǔ)模型)使用 70000 小時的 IDM 標(biāo)記在線視頻進(jìn)行訓(xùn)練,在《我的世界》中完成了強(qiáng)化學(xué)習(xí)幾乎不可能實(shí)現(xiàn)的任務(wù)。新模型學(xué)會了砍樹收集原木,將原木制作成木板,然后將木板制作成箱子;這個行為序列對于《我的世界》高級玩家在約 50 秒內(nèi)執(zhí)行 1000 個連續(xù)的游戲動作。

《我的世界》制作箱子過程中每一步所需的動作數(shù)目和時間。
此外,該模型還可以執(zhí)行人類在游戲中經(jīng)常執(zhí)行的其他復(fù)雜技能,例如游泳、狩獵動物、食用食物以及一些《我的世界》專用技能。

游泳。

狩獵。

食用食物。
VPT 讓智能體通過觀看互聯(lián)網(wǎng)上的大量視頻就可以進(jìn)行學(xué)習(xí)鋪平了道路。與只會產(chǎn)生表征先驗(yàn)的生成視頻建?;?qū)Ρ确椒ㄏ啾?,VPT 提供了在更多領(lǐng)域可以直接學(xué)習(xí)大規(guī)模行為先驗(yàn)的可能性,而不僅僅是語言。
此外,該研究還開源了數(shù)據(jù)、《我的世界》所需環(huán)境、模型代碼、模型權(quán)重,他們希望這些開源有助于未來 VPT 的研究。
原文鏈接:點(diǎn)擊咨詢
熱門資訊
想了解動畫制作和影視特效的區(qū)別嗎?本文將帶您深入探討動畫制作和影視特效之間的關(guān)系,幫助你更好地理解這兩者的差異。
想知道快影、剪映、快剪輯這三款軟件哪個更適合小白?看看這篇對比評測,帶你了解這三款軟件的功能和特點(diǎn),快速選擇適合自己的視頻剪輯軟件。
剪映專業(yè)版新增全局預(yù)覽縮放功能,可以輕松放大或縮小時間軌道。學(xué)習(xí)如何使用時間線縮放功能,提升剪輯效率。
4. 豆瓣8.3《鐵皮鼓》|電影符號學(xué)背后的視覺盛宴、社會隱喻主題
文|悅兒(叮咚,好電影來了!)《鐵皮鼓》是施隆多夫最具代表性的作品,影片于... 分析影片的社會隱喻主題;以及對于普通觀眾來說,它又帶給我們哪些現(xiàn)實(shí)啟發(fā)...
5. 從宏觀蒙太奇思維、中觀敘事結(jié)構(gòu)、微觀剪輯手法解讀《花樣年華》
中觀層面完成敘事結(jié)構(gòu)、以及微觀層面的剪輯手法,3個層次來解讀下電影《花樣年華》的蒙太奇魅力。一、 宏觀層面:運(yùn)用蒙太奇思維構(gòu)建電影劇本雛形。蒙...
6. 為什么漫威、DC這類大片的電影特效如此燒錢?原因在這里
想知道為什么漫威、DC這類特效滿天飛的大片花費(fèi)如此之高嗎?一秒鐘幾十萬上百萬的電影特效為何如此“貴”?快來了解電影特效制作的內(nèi)幕~
7. 15種電影剪輯/轉(zhuǎn)場藝術(shù),賦予影片絕妙魅力
15種電影剪輯/轉(zhuǎn)場手法,讓影片更吸引眼球!回顧電影中豐富多樣的專場技巧,比如瞬間從一個場景中變換到空中... 現(xiàn)在是測試技術(shù)的時候了!以下是一些常見剪輯手法,讓你觀影過程更加華麗動人!
本文介紹了十款強(qiáng)大的PR視頻剪輯插件,幫助提升視頻剪輯效率,提高創(chuàng)作品質(zhì),并降低創(chuàng)作難度。
9. 《肖申克的救贖》通過鏡頭語言,向觀眾展現(xiàn)了安迪自我救贖的過程
以突出劇情的緊張氛圍和角色的情感變化。此外,電影的拍攝手法和剪輯方案還與影片的敘事結(jié)構(gòu)和主題緊密相連。導(dǎo)演巧妙地運(yùn)用回憶、閃回和象征性鏡頭等...
10. 干貨丨真正厲害的剪輯師都喜歡用這九大“技巧轉(zhuǎn)場”
想學(xué)習(xí)剪輯技術(shù)轉(zhuǎn)場的方法嗎?了解這九種技巧轉(zhuǎn)場方法,提升影片藝術(shù)感染力,讓你的視頻作品更加生動有趣!
最新文章
同學(xué)您好!