發(fā)布時間:2024-05-20 13:09:31 瀏覽量:195次
今天咱們要聊一聊谷歌最新視頻合成論文VideoPoet: A Large Language Model for Zero-Shot Video Generation,這篇論文可謂革命性,他有兩大亮點(diǎn):1、將文本、視頻、圖片、音頻編碼為一個codebook空間,并運(yùn)用LLM訓(xùn)練方法。2、其合成5秒(41幀)視頻,最大突破在于保持視頻的運(yùn)動連貫性。這一點(diǎn)對于保持視頻真實(shí)性至關(guān)重要,稍有差池就會顯得虛假。
這篇文章的方法與Sora有很多相似之處,尤其是在文本視頻音頻統(tǒng)一編碼方面。核心區(qū)別在于訓(xùn)練任務(wù)的不同。Sora與李飛飛的WALT [4] 類似,在訓(xùn)練任務(wù)上屬于擴(kuò)散模型;而videopoet則屬于mask自回歸模型。
這兩種范式各有所長,前者合成畫面更逼真,后者合成視頻音頻更連貫。結(jié)合二者優(yōu)勢將是未來發(fā)展的趨勢。
我深入思考了背后的數(shù)學(xué)邏輯:擴(kuò)散模型是在原圖基礎(chǔ)上添加高斯噪聲來訓(xùn)練模型,以學(xué)習(xí)真實(shí)畫面方法,讓模型了解像素分布規(guī)律。這讓我想起導(dǎo)師探索隱寫領(lǐng)域時,通過改變像素值來檢測圖片篡改。擴(kuò)散模型本質(zhì)上也是這么做,只是利用高斯噪聲而非手動改變像素值。而mask回歸任務(wù)主要是預(yù)測前一幀來預(yù)測后一幀,或預(yù)測圖片中心及四周、四周預(yù)測中心或左右等任務(wù),著重學(xué)習(xí)視頻連貫性。
因此,Sora可看作是WALT的升級版,沒那么神秘。模型更龐大,數(shù)據(jù)更豐富,制作更清晰。我們接下來會深入研究WALT。
話不多說,我們一起來解析videopoet。文章內(nèi)容非常濃縮,我也看了好一陣子才理解透。

scaling law的正確姿勢:訓(xùn)練videopoet需要多少GPU
讓我們認(rèn)真思考這件事情,這也是大家非常關(guān)心的話題。
Mask模型本質(zhì)上是分類器,用于預(yù)測下一個token。在經(jīng)典圖像分類中,imagenet數(shù)據(jù)集有1000個類別,你可以把它看作token cookbook大小為1000,總數(shù)據(jù)集為128萬張圖片,每個類別約1300張圖片。這意味著,預(yù)測一個token的全分布概率,需要1300個樣本。
GPT1的詞典有40,478個詞,GPT-2有50257個,假設(shè)GPT4的詞典有6萬個,數(shù)據(jù)集包含13萬億個token,每個token需2億個樣本才能達(dá)到GPT4的效果。
順帶一提:
大模型之所以龐大,主要原因在于詞典規(guī)模過大,導(dǎo)致最后一層softmax層參數(shù)巨大,需要大量樣本進(jìn)行訓(xùn)練。我覺得這是一個巨大的問題。是否能夠分層、分組、分步驟執(zhí)行,減少計算量,因?yàn)槿绱她嫶蟮腸ookbook并不符合人類的邏輯,我們會將“禮拜天”和“星期日”視為一個token,而LLM卻將其視為兩個,實(shí)際上是可以壓縮的。
想要了解更多關(guān)于視頻合成的技術(shù)及應(yīng)用?歡迎點(diǎn)擊咨詢,火星時代教育為您提供專業(yè)的數(shù)字藝術(shù)培訓(xùn)課程。
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
9. 10個建筑AI工具,從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!