當(dāng)前位置：首頁 >人工智能 >Sora的video版畫：從文本到視頻一鍵生成全新體驗(yàn)

Sora的video版畫：從文本到視頻一鍵生成全新體驗(yàn)

發(fā)布時間：2024-05-20 13:09:31 瀏覽量：195次

今天咱們要聊一聊谷歌最新視頻合成論文VideoPoet: A Large Language Model for Zero-Shot Video Generation，這篇論文可謂革命性，他有兩大亮點(diǎn)：1、將文本、視頻、圖片、音頻編碼為一個codebook空間，并運(yùn)用LLM訓(xùn)練方法。2、其合成5秒(41幀）視頻，最大突破在于保持視頻的運(yùn)動連貫性。這一點(diǎn)對于保持視頻真實(shí)性至關(guān)重要，稍有差池就會顯得虛假。

這篇文章的方法與Sora有很多相似之處，尤其是在文本視頻音頻統(tǒng)一編碼方面。核心區(qū)別在于訓(xùn)練任務(wù)的不同。Sora與李飛飛的WALT [4] 類似，在訓(xùn)練任務(wù)上屬于擴(kuò)散模型；而videopoet則屬于mask自回歸模型。

這兩種范式各有所長，前者合成畫面更逼真，后者合成視頻音頻更連貫。結(jié)合二者優(yōu)勢將是未來發(fā)展的趨勢。

我深入思考了背后的數(shù)學(xué)邏輯：擴(kuò)散模型是在原圖基礎(chǔ)上添加高斯噪聲來訓(xùn)練模型，以學(xué)習(xí)真實(shí)畫面方法，讓模型了解像素分布規(guī)律。這讓我想起導(dǎo)師探索隱寫領(lǐng)域時，通過改變像素值來檢測圖片篡改。擴(kuò)散模型本質(zhì)上也是這么做，只是利用高斯噪聲而非手動改變像素值。而mask回歸任務(wù)主要是預(yù)測前一幀來預(yù)測后一幀，或預(yù)測圖片中心及四周、四周預(yù)測中心或左右等任務(wù)，著重學(xué)習(xí)視頻連貫性。

因此，Sora可看作是WALT的升級版，沒那么神秘。模型更龐大，數(shù)據(jù)更豐富，制作更清晰。我們接下來會深入研究WALT。

話不多說，我們一起來解析videopoet。文章內(nèi)容非常濃縮，我也看了好一陣子才理解透。

scaling law的正確姿勢：訓(xùn)練videopoet需要多少GPU

讓我們認(rèn)真思考這件事情，這也是大家非常關(guān)心的話題。

Mask模型本質(zhì)上是分類器，用于預(yù)測下一個token。在經(jīng)典圖像分類中，imagenet數(shù)據(jù)集有1000個類別，你可以把它看作token cookbook大小為1000，總數(shù)據(jù)集為128萬張圖片，每個類別約1300張圖片。這意味著，預(yù)測一個token的全分布概率，需要1300個樣本。

GPT1的詞典有40,478個詞，GPT-2有50257個，假設(shè)GPT4的詞典有6萬個，數(shù)據(jù)集包含13萬億個token，每個token需2億個樣本才能達(dá)到GPT4的效果。

順帶一提：

大模型之所以龐大，主要原因在于詞典規(guī)模過大，導(dǎo)致最后一層softmax層參數(shù)巨大，需要大量樣本進(jìn)行訓(xùn)練。我覺得這是一個巨大的問題。是否能夠分層、分組、分步驟執(zhí)行，減少計算量，因?yàn)槿绱她嫶蟮腸ookbook并不符合人類的邏輯，我們會將“禮拜天”和“星期日”視為一個token，而LLM卻將其視為兩個，實(shí)際上是可以壓縮的。

想要了解更多關(guān)于視頻合成的技術(shù)及應(yīng)用？歡迎點(diǎn)擊咨詢，火星時代教育為您提供專業(yè)的數(shù)字藝術(shù)培訓(xùn)課程。

上一篇北師大未來設(shè)計學(xué)院在第六屆中國教博會發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 AI潮汐快訊: 騰訊混元大模型中文能力追平GPT-4，OpenAI增強(qiáng)數(shù)據(jù)分析能力

熱門課程推薦

熱門資訊

1. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
2. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！
9. 10個建筑AI工具，從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的

講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

Sora的video版畫：從文本到視頻一鍵生成全新體驗(yàn)

請綁定手機(jī)號