亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Sora的video版畫:從文本到視頻一鍵生成全新體驗(yàn)

發(fā)布時間:2024-05-20 13:09:31 瀏覽量:195次

今天咱們要聊一聊谷歌最新視頻合成論文VideoPoet: A Large Language Model for Zero-Shot Video Generation,這篇論文可謂革命性,他有兩大亮點(diǎn):1、將文本、視頻、圖片、音頻編碼為一個codebook空間,并運(yùn)用LLM訓(xùn)練方法。2、其合成5秒(41幀)視頻,最大突破在于保持視頻的運(yùn)動連貫性。這一點(diǎn)對于保持視頻真實(shí)性至關(guān)重要,稍有差池就會顯得虛假。

這篇文章的方法與Sora有很多相似之處,尤其是在文本視頻音頻統(tǒng)一編碼方面。核心區(qū)別在于訓(xùn)練任務(wù)的不同。Sora與李飛飛的WALT [4] 類似,在訓(xùn)練任務(wù)上屬于擴(kuò)散模型;而videopoet則屬于mask自回歸模型。

這兩種范式各有所長,前者合成畫面更逼真,后者合成視頻音頻更連貫。結(jié)合二者優(yōu)勢將是未來發(fā)展的趨勢。

我深入思考了背后的數(shù)學(xué)邏輯:擴(kuò)散模型是在原圖基礎(chǔ)上添加高斯噪聲來訓(xùn)練模型,以學(xué)習(xí)真實(shí)畫面方法,讓模型了解像素分布規(guī)律。這讓我想起導(dǎo)師探索隱寫領(lǐng)域時,通過改變像素值來檢測圖片篡改。擴(kuò)散模型本質(zhì)上也是這么做,只是利用高斯噪聲而非手動改變像素值。而mask回歸任務(wù)主要是預(yù)測前一幀來預(yù)測后一幀,或預(yù)測圖片中心及四周、四周預(yù)測中心或左右等任務(wù),著重學(xué)習(xí)視頻連貫性。

因此,Sora可看作是WALT的升級版,沒那么神秘。模型更龐大,數(shù)據(jù)更豐富,制作更清晰。我們接下來會深入研究WALT。

話不多說,我們一起來解析videopoet。文章內(nèi)容非常濃縮,我也看了好一陣子才理解透。

scaling law的正確姿勢:訓(xùn)練videopoet需要多少GPU

讓我們認(rèn)真思考這件事情,這也是大家非常關(guān)心的話題。

Mask模型本質(zhì)上是分類器,用于預(yù)測下一個token。在經(jīng)典圖像分類中,imagenet數(shù)據(jù)集有1000個類別,你可以把它看作token cookbook大小為1000,總數(shù)據(jù)集為128萬張圖片,每個類別約1300張圖片。這意味著,預(yù)測一個token的全分布概率,需要1300個樣本。

GPT1的詞典有40,478個詞,GPT-2有50257個,假設(shè)GPT4的詞典有6萬個,數(shù)據(jù)集包含13萬億個token,每個token需2億個樣本才能達(dá)到GPT4的效果。

順帶一提:

大模型之所以龐大,主要原因在于詞典規(guī)模過大,導(dǎo)致最后一層softmax層參數(shù)巨大,需要大量樣本進(jìn)行訓(xùn)練。我覺得這是一個巨大的問題。是否能夠分層、分組、分步驟執(zhí)行,減少計算量,因?yàn)槿绱她嫶蟮腸ookbook并不符合人類的邏輯,我們會將“禮拜天”和“星期日”視為一個token,而LLM卻將其視為兩個,實(shí)際上是可以壓縮的。

想要了解更多關(guān)于視頻合成的技術(shù)及應(yīng)用?歡迎點(diǎn)擊咨詢,火星時代教育為您提供專業(yè)的數(shù)字藝術(shù)培訓(xùn)課程。

熱門課程推薦

熱門資訊

請綁定手機(jī)號

x

同學(xué)您好!

您已成功報名0元試學(xué)活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定