亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

開源Sora模型權(quán)重,Open-Sora新鮮出爐

發(fā)布時間:2024-05-18 11:33:50 瀏覽量:135次

在AI視頻生成領域,OpenAI的Sora模型以其卓越的視頻生成效果迅速走紅,成為全球關(guān)注的焦點?,F(xiàn)在,Colossal-AI團隊推出了新的開源解決方案“Open-Sora 1.0”,初步實現(xiàn)了類似Sora的功能。開源內(nèi)容涵蓋了整個訓練過程,包括數(shù)據(jù)處理、所有訓練細節(jié)和模型檢查點,與全球的AI愛好者攜手推動視頻創(chuàng)作的新時代。

github代碼地址:點擊查看

圖片注釋(可選)

BLOG:Open-Sora:揭示完整的模型參數(shù)、訓練細節(jié)以及類似 Sora 的視頻生成模型的一切。

不久前,OpenAI Sora以其驚人的視頻生成效果迅速走紅,在眾多文本轉(zhuǎn)視頻模型中脫穎而出,成為全球關(guān)注的焦點。繼兩周前推出用于訓練和推理過程的Sora Replication,成本降低46%之后,Colossal-AI團隊又推出了新的開源解決方案“Open-Sora 1.0”,涵蓋了整個訓練過程,包括數(shù)據(jù)處理、所有訓練細節(jié)和模型檢查點,與世界各地的AI愛好者攜手推進視頻創(chuàng)作的新時代。我們先來看看Colossal-AI團隊發(fā)布的“Open-Sora 1.0”模型生成的繁華都市夜景視頻。

Open-Sora 1.0 生成的城市景觀

這只是Open-Sora技術(shù)的冰山一角。Colossal-AI團隊在我們的GitHub上完全開源了模型架構(gòu)、訓練后的模型檢查點、所有訓練和數(shù)據(jù)準備過程的詳細信息、視頻演示和教程,供所有對文本轉(zhuǎn)視頻模型感興趣的人免費學習和使用。我們將持續(xù)更新Open-Sora相關(guān)解決方案和最新動態(tài)。歡迎大家關(guān)注更新!

Open Sora全面講解

接下來,我們將對Sora復現(xiàn)方案的多個關(guān)鍵維度進行深入講解,包括模型架構(gòu)設計、訓練復現(xiàn)方案、數(shù)據(jù)預處理、模型輸出演示以及高效的訓練優(yōu)化策略。

模型架構(gòu)設計

我們的模型采用當前流行的擴散變壓器(DiT)架構(gòu)。具體來說,整個架構(gòu)由預訓練的 VAE、文本編碼器和利用時空注意力機制的 STDiT(空間時空擴散變換器)模型組成。STDiT各層的結(jié)構(gòu)如下所示。通過我們提供的代碼,用戶可以輕松快速地生成在自己的數(shù)據(jù)集上進行訓練所需的視頻文本對,從而顯著降低技術(shù)障礙并為啟動 Sora 復制項目做好準備。

STDiT模型結(jié)構(gòu)示意圖

訓練復制方案

Open-Sora 的再現(xiàn)方案參考了穩(wěn)定視頻擴散 (SVD) 工作,由三個階段組成,即:大規(guī)模圖像預訓練、大規(guī)模視頻預訓練、高質(zhì)量視頻數(shù)據(jù)微調(diào)。每個階段都根據(jù)前一階段的權(quán)重繼續(xù)訓練,通過逐步擴大數(shù)據(jù),更高效地實現(xiàn)高質(zhì)量視頻生成的目標。

圖片注釋(可選)

  • 第一階段:大規(guī)模圖像預訓練

第一階段借助成熟的Text-to-Image模型,通過大規(guī)模圖像預訓練,有效降低視頻預訓練的成本。同時,借助互聯(lián)網(wǎng)上豐富的大規(guī)模圖像數(shù)據(jù)和先進的Text-to-Image技術(shù),可以訓練出高質(zhì)量的模型,作為下一階段視頻預處理的初始化權(quán)重。

  • 第二階段:大規(guī)模視頻預訓練

第二階段進行大規(guī)模視頻預訓練,增加模型的泛化能力,有效掌握視頻的時間序列關(guān)聯(lián)性。第二階段的模型在第一階段的 Test-to-Image 模型中添加了時間序列注意模塊,用于學習視頻中的時間關(guān)系。最終,第三階段對高質(zhì)量視頻數(shù)據(jù)進行微調(diào),顯著提高生成視頻的質(zhì)量。

  • 第三階段:高質(zhì)量視頻數(shù)據(jù)微調(diào)

第三階段對高質(zhì)量視頻數(shù)據(jù)進行微調(diào),提高生成視頻的質(zhì)量,訓練總體成本約為10,000美元。

數(shù)據(jù)預處理

為了進一步降低Sora復制的門檻和復雜性,Colossal-AI團隊在代碼庫中提供了便捷的視頻數(shù)據(jù)預處理腳本,包括公共視頻數(shù)據(jù)集下載、視頻拆分、提示詞生成等。通過我們提供的代碼,用戶可以快速開始Sora復制預訓練,降低技術(shù)障礙。

圖片注釋(可選)

基于數(shù)據(jù)預處理腳本自動生成視頻/文本對

視頻演示

我們來看看Open-Sora的實際視頻生成結(jié)果,包括大海拍打懸崖海岸巖石、壯麗的山瀑布、海龜在珊瑚礁中游泳、銀河系繁星等。如果您有更多有趣的想法,歡迎訪問我們的Open-Sora開源社區(qū)獲取模型權(quán)重免費體驗。

圖片注釋(可選)

歡迎持續(xù)關(guān)注Open-Sora開源項目:點擊查看,推動AI技術(shù)在電影、游戲、廣告等領域的應用。

高效訓練

在視頻生成過程中,我們提供Colossal-AI加速系統(tǒng),實現(xiàn)高效訓練。通過內(nèi)核優(yōu)化和混合并行等高效訓練策略,我們成功提高了1.55倍的加速。

圖片注釋(可選)

STDiT 模型架構(gòu)在訓練過程中表現(xiàn)出卓越的效率,實現(xiàn)了高達5倍的加速,尤其在處理長視頻序列等任務中具有關(guān)鍵意義。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定