發(fā)布時(shí)間:2024-05-18 12:34:15 瀏覽量:251次
選自Lil’Log
作者:Lilian Weng
機(jī)器之心編譯
編輯:Panda
過去幾年來,擴(kuò)散模型強(qiáng)大的圖像合成能力已經(jīng)得到充分證明。研究社區(qū)現(xiàn)在正在攻克一個(gè)更困難的任務(wù):視頻生成。近日,安全系統(tǒng)(Safety Systems)負(fù)責(zé)人 Lilian Weng 寫了一篇關(guān)于視頻生成的擴(kuò)散模型的博客。


視頻生成任務(wù)本身是圖像合成的超集,因?yàn)閳D像就是單幀視頻。視頻合成的難度要大得多。
如果你想了解擴(kuò)散模型在圖像生成方面的應(yīng)用,可參讀本文作者 Lilian Weng 之前發(fā)布的博文《What are Diffusion Models?》
從頭建模視頻生成
首先,我們先來看看如何從頭設(shè)計(jì)和訓(xùn)練擴(kuò)散視頻模型,也就是說不使用已經(jīng)預(yù)訓(xùn)練好的圖像生成器。


模型架構(gòu):3D U-Net 和 DiT
類似于圖擴(kuò)散模型,U-Net 和 Transformer 依然是常用的架構(gòu)選擇。VDM 采用了標(biāo)準(zhǔn)的擴(kuò)散模型設(shè)置。

圖 2:3D U-net 架構(gòu)。
基礎(chǔ)去噪模型使用共享的參數(shù)同時(shí)在所有幀上執(zhí)行空間操作,時(shí)間層將各幀的激活混合起來,以更好地實(shí)現(xiàn)時(shí)間一致性。

圖 4:Imagen Video 擴(kuò)散模型中一個(gè)空間 - 時(shí)間可分離模塊的架構(gòu)。
VDM 還應(yīng)用了漸進(jìn)式蒸餾來加速采樣,每次蒸餾迭代都可以將所需的采樣步驟減少一半。
調(diào)整圖像模型來生成視頻
在擴(kuò)散視頻建模方面,另一種重要方法是通過插入時(shí)間層來「擴(kuò)增」預(yù)訓(xùn)練的圖擴(kuò)散模型。

圖 6:Make-A-Video 工作流程示意圖。
最終的視頻推理方案的數(shù)學(xué)形式



無訓(xùn)練適應(yīng)
也有可能不使用任何訓(xùn)練就讓預(yù)訓(xùn)練的圖模型輸出視頻,這多少有點(diǎn)讓人驚訝。
如果我們直接簡(jiǎn)單地隨機(jī)采樣一個(gè)隱含代碼的序列,然后用解碼出來的對(duì)應(yīng)圖像構(gòu)建一段視頻,那么無法保證物體和語義在時(shí)間上的一致性。
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國(guó)內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
9. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!