當(dāng)前位置：首頁 >人工智能 >Sora之后，OpenAI Lilian Weng撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型

Sora之后，OpenAI Lilian Weng撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型

發(fā)布時(shí)間：2024-05-18 12:34:15 瀏覽量：251次

選自Lil’Log

作者：Lilian Weng

機(jī)器之心編譯

編輯：Panda

過去幾年來，擴(kuò)散模型強(qiáng)大的圖像合成能力已經(jīng)得到充分證明。研究社區(qū)現(xiàn)在正在攻克一個(gè)更困難的任務(wù)：視頻生成。近日，安全系統(tǒng)（Safety Systems）負(fù)責(zé)人 Lilian Weng 寫了一篇關(guān)于視頻生成的擴(kuò)散模型的博客。

視頻生成任務(wù)本身是圖像合成的超集，因?yàn)閳D像就是單幀視頻。視頻合成的難度要大得多。

如果你想了解擴(kuò)散模型在圖像生成方面的應(yīng)用，可參讀本文作者 Lilian Weng 之前發(fā)布的博文《What are Diffusion Models?》

從頭建模視頻生成

首先，我們先來看看如何從頭設(shè)計(jì)和訓(xùn)練擴(kuò)散視頻模型，也就是說不使用已經(jīng)預(yù)訓(xùn)練好的圖像生成器。

模型架構(gòu)：3D U-Net 和 DiT

類似于圖擴(kuò)散模型，U-Net 和 Transformer 依然是常用的架構(gòu)選擇。VDM 采用了標(biāo)準(zhǔn)的擴(kuò)散模型設(shè)置。

處理空間：原本和 2D U-net 中一樣的 2D 卷積層會(huì)被擴(kuò)展成僅針對(duì)空間的 3D 卷積。
處理時(shí)間：每個(gè)空間注意力模塊之后會(huì)添加一個(gè)時(shí)間注意力模塊。

圖 2：3D U-net 架構(gòu)。

基礎(chǔ)去噪模型使用共享的參數(shù)同時(shí)在所有幀上執(zhí)行空間操作，時(shí)間層將各幀的激活混合起來，以更好地實(shí)現(xiàn)時(shí)間一致性。

圖 4：Imagen Video 擴(kuò)散模型中一個(gè)空間 - 時(shí)間可分離模塊的架構(gòu)。

VDM 還應(yīng)用了漸進(jìn)式蒸餾來加速采樣，每次蒸餾迭代都可以將所需的采樣步驟減少一半。

調(diào)整圖像模型來生成視頻

在擴(kuò)散視頻建模方面，另一種重要方法是通過插入時(shí)間層來「擴(kuò)增」預(yù)訓(xùn)練的圖擴(kuò)散模型。

圖 6：Make-A-Video 工作流程示意圖。

最終的視頻推理方案的數(shù)學(xué)形式

無訓(xùn)練適應(yīng)

也有可能不使用任何訓(xùn)練就讓預(yù)訓(xùn)練的圖模型輸出視頻，這多少有點(diǎn)讓人驚訝。

如果我們直接簡(jiǎn)單地隨機(jī)采樣一個(gè)隱含代碼的序列，然后用解碼出來的對(duì)應(yīng)圖像構(gòu)建一段視頻，那么無法保證物體和語義在時(shí)間上的一致性。

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國(guó)教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇為何你總忽略的UI設(shè)計(jì)小彈窗頻頻引發(fā)麻煩？

熱門課程推薦

熱門資訊

1. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
2. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果，這4個(gè)方法操作簡(jiǎn)單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡(jiǎn)單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國(guó)內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢(shì)吧！
9. 10個(gè)建筑AI工具，從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的

講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

Sora之后，OpenAI Lilian Weng撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型

請(qǐng)綁定手機(jī)號(hào)

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

Sora之后，OpenAI Lilian Weng撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型

請(qǐng)綁定手機(jī)號(hào)

Sora之后，OpenAI Lilian Weng撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型