亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

Sora之后,OpenAI Lilian Weng撰文教你從頭設(shè)計(jì)視頻生成擴(kuò)散模型

發(fā)布時(shí)間:2024-05-18 12:34:15 瀏覽量:251次

選自Lil’Log

作者:Lilian Weng

機(jī)器之心編譯

編輯:Panda

過去幾年來,擴(kuò)散模型強(qiáng)大的圖像合成能力已經(jīng)得到充分證明。研究社區(qū)現(xiàn)在正在攻克一個(gè)更困難的任務(wù):視頻生成。近日,安全系統(tǒng)(Safety Systems)負(fù)責(zé)人 Lilian Weng 寫了一篇關(guān)于視頻生成的擴(kuò)散模型的博客。

視頻生成任務(wù)本身是圖像合成的超集,因?yàn)閳D像就是單幀視頻。視頻合成的難度要大得多。

如果你想了解擴(kuò)散模型在圖像生成方面的應(yīng)用,可參讀本文作者 Lilian Weng 之前發(fā)布的博文《What are Diffusion Models?》

從頭建模視頻生成

首先,我們先來看看如何從頭設(shè)計(jì)和訓(xùn)練擴(kuò)散視頻模型,也就是說不使用已經(jīng)預(yù)訓(xùn)練好的圖像生成器。

模型架構(gòu):3D U-Net 和 DiT

類似于圖擴(kuò)散模型,U-Net 和 Transformer 依然是常用的架構(gòu)選擇。VDM 采用了標(biāo)準(zhǔn)的擴(kuò)散模型設(shè)置。

  • 處理空間:原本和 2D U-net 中一樣的 2D 卷積層會(huì)被擴(kuò)展成僅針對(duì)空間的 3D 卷積。
  • 處理時(shí)間:每個(gè)空間注意力模塊之后會(huì)添加一個(gè)時(shí)間注意力模塊。

圖 2:3D U-net 架構(gòu)。

基礎(chǔ)去噪模型使用共享的參數(shù)同時(shí)在所有幀上執(zhí)行空間操作,時(shí)間層將各幀的激活混合起來,以更好地實(shí)現(xiàn)時(shí)間一致性。

圖 4:Imagen Video 擴(kuò)散模型中一個(gè)空間 - 時(shí)間可分離模塊的架構(gòu)。

VDM 還應(yīng)用了漸進(jìn)式蒸餾來加速采樣,每次蒸餾迭代都可以將所需的采樣步驟減少一半。

調(diào)整圖像模型來生成視頻

在擴(kuò)散視頻建模方面,另一種重要方法是通過插入時(shí)間層來「擴(kuò)增」預(yù)訓(xùn)練的圖擴(kuò)散模型。

圖 6:Make-A-Video 工作流程示意圖。

最終的視頻推理方案的數(shù)學(xué)形式

無訓(xùn)練適應(yīng)

也有可能不使用任何訓(xùn)練就讓預(yù)訓(xùn)練的圖模型輸出視頻,這多少有點(diǎn)讓人驚訝。

如果我們直接簡(jiǎn)單地隨機(jī)采樣一個(gè)隱含代碼的序列,然后用解碼出來的對(duì)應(yīng)圖像構(gòu)建一段視頻,那么無法保證物體和語義在時(shí)間上的一致性。

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定