亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

Sora-OpenAI 的 Text-to-Video 模型:制作逼真的 60s 視頻片段

發(fā)布時間:2024-03-28 20:41:26 瀏覽量:228次

OpenAI 推出的人工智能功能曾經(jīng)只存在于科幻小說中。

2022年,Openai 發(fā)布了 ChatGPT,展示了先進的語言模型如何實現(xiàn)自然對話。

隨后,DALL-E 問世,它利用文字提示生成令人驚嘆的合成圖像。

現(xiàn)在,他們又推出了 Text-to-Video 模型 Sora,將技術向前推進了一步。這種全新的擴散模式可直接通過文字描述創(chuàng)建逼真的視頻。

Sora 可以實現(xiàn)文生視頻,圖生視頻,圖+文生視頻,視頻修改,視頻補全等。

從Openai發(fā)布的技術報告來看,有以下幾點需要關注:

  1. Sora 架構為擴散模型 + transformer。
  2. 訓練時先用預訓練模型把各種類型(大小不一)的視覺數(shù)據(jù)轉換為統(tǒng)一的表示(patch),把提取的時空要素充當 transformer 的 token 進行訓練。

雖然 Sora 能根據(jù)文字提示制作出無比逼真的視頻。人工智能對人物情緒和表情的處理也非常出色。一個視頻中的不同鏡頭也能保持一致。但也存在一些弱點。

  1. 復雜場景的物理處理,例如餅干吃完后沒有咬痕,吹氣后蠟燭不會熄滅,玻璃掉落不會碎等。
  2. 左右方向混淆。
  3. 不能總是準確地按照相機提示操作。

下面來看下技術報告(中文譯文):

視頻生成模型作為世界模擬器

我們探索了在視頻數(shù)據(jù)上進行大規(guī)模生成模型的訓練。具體來說,我們聯(lián)合在可變持續(xù)時間、分辨率和寬高比的視頻和圖像上訓練了文本條件擴散模型。我們利用了一個在視頻和圖像潛在編碼的時空塊上操作的 transformer 架構。我們最大的模型 Sora 能夠生成一分鐘的高保真視頻。我們的結果表明,擴展視頻生成模型是朝著構建物理世界通用模擬器的有希望的路徑。

本技術報告關注以下兩個方面:(1) 我們將各 種類型的視覺數(shù)據(jù)轉換為統(tǒng)一表示的方法,以實現(xiàn)大規(guī)模生成模型的訓練,以及 (2) 對 Sora 的能力和局限性進行定性評估。模型和實現(xiàn)細節(jié)未包含在本報告中。 之前的研究已經(jīng)探討了使用各種方法對視頻數(shù)據(jù)進行生成建模,包括循環(huán)網(wǎng)絡、生成對抗網(wǎng)絡、自回歸變壓器和擴散模型。這些工作通常側重于某一類視覺數(shù)據(jù)、較短的視頻或固定大小的視頻。Sora 是一種視覺數(shù)據(jù)的通用模型——它能夠生成持續(xù)時間、寬高比和分辨率多樣化的視頻和圖像,最長可達一分鐘的高清視頻。

將視覺數(shù)據(jù)轉換成 patch

我們受到大型語言模型的啟發(fā),這些模型通過在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進行訓練而獲得了通用能力。LLM 范式的成功部分得益于優(yōu)雅地統(tǒng)一了文本的多種模態(tài)——代碼、數(shù)學和各種自然語言的標記。在這項工作中,我們考慮了生成視覺數(shù)據(jù)模型如何繼承這些好處。而 LLMs具有文本標記,Sora 具有視覺 patch。patch 已被證明是視覺數(shù)據(jù)模型的有效表示。我們發(fā)現(xiàn),patch 是一種高度可擴展且有效的表示方法,適用于訓練不同類型的視頻和圖像的生成模型。

在高層次上,我們首先將視頻壓縮成低維潛在空間,然后將表示分解成時空補丁,從而將視頻轉換為補丁。

視頻壓縮網(wǎng)絡

我們訓練了一個降低視覺數(shù)據(jù)維度的網(wǎng)絡。這個網(wǎng)絡以原始視頻為輸入,輸出一個在時間和空間上都被壓縮的潛在表示。Sora 在這個壓縮的潛在空間內(nèi)進行訓練,隨后也在其中生成視頻。我們還訓練了一個相應的解碼器模型,將生成的潛變量映射回像素空間。

時空潛在補丁

給定一個壓縮的輸入視頻,我們提取一系列時空補丁,這些補丁充當 transformer 的token。這個方案也適用于圖像,因為圖像只是單幀的視頻。我們基于補丁的表示使得 Sora 能夠在不同分辨率、持續(xù)時間和寬高比的視頻和圖像上進行訓練。在推理時,我們可以通過在大小適當?shù)木W(wǎng)格中排列隨機初始化的補丁來控制生成視頻的大小。

將 transformer 擴展到視頻生成

Sora 是一個擴散模型;給定輸入的初始噪聲(以及文本提示等條件信息),它被訓練為預測原始的“干凈”補丁。重要的是,Sora 是一個擴散 transformer。transformer 在多個領域展示了顯著的擴展性能,包括語言建模、計算機視覺以及圖像生成。

在這項工作中,我們發(fā)現(xiàn)擴散變壓器在視頻模型中也能有效地擴展。在下面,下面,我們展示了在訓練過程中,使用固定種子和輸入的視頻樣本的比較。隨著訓練計算量的增加,樣本質量顯著提高。

可變持續(xù)時間、分辨率、寬高比

過去的圖像和視頻生成方法通常將視頻調整為標準大小,例如,4秒鐘的視頻,分辨率為256x256。我們發(fā)現(xiàn),與其這樣處理,訓練原始大小的數(shù)據(jù)提供了幾個好處。

采樣靈活性

Sora 可以采樣寬屏 1920x1080p 視頻、豎屏 1080x1920 視頻以及介于兩者之間的所有內(nèi)容。這使得 Sora 可以直接以原生寬高比為不同設備創(chuàng)建內(nèi)容。它還使我們能夠在生成全分辨率之前,快速原型化低分辨率的內(nèi)容——而且只需使用同一個模型。

改進的構圖和組合

我們通過實驗發(fā)現(xiàn),在其原始寬高比的視頻上進行訓練可以提高構圖和畫面設計的質量。我們將 Sora 與我們的模型的一個版本進行了比較,這個版本模型將所有訓練視頻裁剪為正方形,這在訓練生成模型時是常見做法。在正方形裁剪上訓練的模型(左側)有時會生成主體僅部分可見的視頻。相比之下,來自 Sora 的視頻(右側)有了改進的畫面設計。

語言理解

訓練文本到視頻的生成系統(tǒng)需要大量帶有相應文本標題的視頻。我們將在 DALL·E 3 中引入的重新標題技術應用到視頻上。我們首先訓練一個高度描述性的標題生成模型,然后使用它為我們訓練集中的所有視頻產(chǎn)生文本標題。我們發(fā)現(xiàn),在高度描述性的視頻標題上進行訓練可以提高文本的準確性以及視頻的整體質量。與 DALL·E 3 類似,我們還利用 GPT 將簡短的用戶提示轉化為更長的詳細標題,然后發(fā)送給視頻模型。這使得 Sora 能夠生成高質量的視頻,這些視頻能夠準確地遵循用戶的提示。

使用圖像和視頻作為 Prompt

我們在上述所有結果和我們的登陸頁面上展示的都是文本到視頻的樣本。但是 Sora 也可以使用其他輸入來提示,例如預先存在的圖像或視頻。這種能力使得 Sora 能夠執(zhí)行各種圖像和視頻編輯任務——創(chuàng)建完美循環(huán)的視頻,給靜態(tài)圖像添加動畫,將視頻向前或向后延伸等等。

把 DALL·E 圖像變成動畫

Sora 能夠生成基于 DALL·E 2 和 DALL·E 3 圖像的視頻,只需提供圖像和提示作為輸入。下面我們展示了基于這些圖像生成的示例視頻。

延長生成的視頻

Sora 還能夠延長視頻,無論是向前還是向后延長。下面是四個視頻,它們都是從一個生成的視頻片段開始向時間的后方延長。因此,這四個視頻的開頭各不相同,但最終都會導向相同的結尾。

我們也可以用這個方法擴展一個視頻的頭和尾讓它首尾相連成一個無限循環(huán)的視頻。

視頻到視頻編輯

擴散模型已經(jīng)為從文本提示編輯圖像和視頻提供了大量方法。下面我們將其中一種方法 SDEdit,應用到 Sora 上。這種技術使得 Sora 能夠在零樣本情況下轉換輸入視頻的風格和環(huán)境。

連接視頻

我們還可以使用 Sora 逐漸插值兩個輸入視頻之間,從而在完全不同的主題和場景構圖的視頻之間創(chuàng)建無縫的過渡。在下面的示例中,中間的視頻在左側和右側對應視頻之間進行插值。

圖像生成能力

Sora 也能夠生成圖像。我們通過將高斯噪聲的補丁以一個幀的時間范圍排列成空間網(wǎng)格來實現(xiàn)這一點。該模型可以生成不同尺寸的圖像,分辨 率高達 2048x2048。

涌現(xiàn)出模擬的能力

我們發(fā)現(xiàn),在大規(guī)模訓練時,視頻模型表現(xiàn)出許多有趣的新興能力。這些能力使得 Sora 能夠模擬來自物理世界的一些人、動物和環(huán)境的方面。這些屬性是在沒有任何明確的歸納偏見的情況下出現(xiàn)的,比如對 3D、物體等——它們純粹是規(guī)模現(xiàn)象。

3D 一致性。Sora 可以生成具有動態(tài)攝像機運動的視頻。隨著攝像機的移動和旋轉,人物和場景元素在三維空間中保持一致的移動。

長程連貫性和物體持久性

對于視頻生成系統(tǒng)來說,一個重要挑戰(zhàn)是在采樣長視頻時保持時間一致性。我們發(fā)現(xiàn),Sora 通常能夠有效地模擬短期和長期依賴關系,盡管并非總是如此。例如,我們的模型可以在人、動物和物體被遮擋或離開畫面時仍然保持其持久性。同樣地,它可以在一個樣本中生成同一個角色的多個鏡頭,并在整個視頻中保持其外觀。

與世界進行交互。有時 Sora 可以模擬一些簡單方式影響世界狀態(tài)的動作。例如,一個畫家可以在畫布上留下持續(xù)一段時間的新筆觸,或者一個人可以吃掉一個漢堡并留下咬痕。

模擬數(shù)字世界

Sora 還能模擬人工過程—一個例子是視頻游戲。Sora 可以同時使用基本策略控制 Minecraft中的玩家,同時以高保真度渲染世界及其動態(tài)。這些能力可以通過提示 Sora 提到“Minecraft”的標題來零樣本激發(fā)。

這些能力表明,持續(xù)擴展視頻模型是發(fā)展高能力的物理世界和數(shù)字世界模擬器,以及模擬其中的物體、動物和人的有前景的途徑。

討論

目前,Sora 作為模擬器表現(xiàn)出了許多限制。例如,它并不能準確地模擬許多基本交互的物理特性,比如玻璃破碎。其他交互,比如吃食物,并不總是產(chǎn)生正確的物體狀態(tài)變化。我們在我們的登陸頁面上列舉了模型的其他常見失敗模式——例如,在長時間樣本中發(fā)展的不一致性或對象的突然出現(xiàn)。

我們相信,Sora 目前的能力證明了持續(xù)擴展視頻模型是發(fā)展能力強大的物理世界和數(shù)字世界模擬器,以及模擬其中的物體、動物和人的有前景的途徑。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定