發(fā)布時間:2024-05-18 11:33:50 瀏覽量:135次
在AI視頻生成領域,OpenAI的Sora模型以其卓越的視頻生成效果迅速走紅,成為全球關(guān)注的焦點?,F(xiàn)在,Colossal-AI團隊推出了新的開源解決方案“Open-Sora 1.0”,初步實現(xiàn)了類似Sora的功能。開源內(nèi)容涵蓋了整個訓練過程,包括數(shù)據(jù)處理、所有訓練細節(jié)和模型檢查點,與全球的AI愛好者攜手推動視頻創(chuàng)作的新時代。
github代碼地址:點擊查看

圖片注釋(可選)
BLOG:Open-Sora:揭示完整的模型參數(shù)、訓練細節(jié)以及類似 Sora 的視頻生成模型的一切。
不久前,OpenAI Sora以其驚人的視頻生成效果迅速走紅,在眾多文本轉(zhuǎn)視頻模型中脫穎而出,成為全球關(guān)注的焦點。繼兩周前推出用于訓練和推理過程的Sora Replication,成本降低46%之后,Colossal-AI團隊又推出了新的開源解決方案“Open-Sora 1.0”,涵蓋了整個訓練過程,包括數(shù)據(jù)處理、所有訓練細節(jié)和模型檢查點,與世界各地的AI愛好者攜手推進視頻創(chuàng)作的新時代。我們先來看看Colossal-AI團隊發(fā)布的“Open-Sora 1.0”模型生成的繁華都市夜景視頻。

Open-Sora 1.0 生成的城市景觀
這只是Open-Sora技術(shù)的冰山一角。Colossal-AI團隊在我們的GitHub上完全開源了模型架構(gòu)、訓練后的模型檢查點、所有訓練和數(shù)據(jù)準備過程的詳細信息、視頻演示和教程,供所有對文本轉(zhuǎn)視頻模型感興趣的人免費學習和使用。我們將持續(xù)更新Open-Sora相關(guān)解決方案和最新動態(tài)。歡迎大家關(guān)注更新!
接下來,我們將對Sora復現(xiàn)方案的多個關(guān)鍵維度進行深入講解,包括模型架構(gòu)設計、訓練復現(xiàn)方案、數(shù)據(jù)預處理、模型輸出演示以及高效的訓練優(yōu)化策略。
我們的模型采用當前流行的擴散變壓器(DiT)架構(gòu)。具體來說,整個架構(gòu)由預訓練的 VAE、文本編碼器和利用時空注意力機制的 STDiT(空間時空擴散變換器)模型組成。STDiT各層的結(jié)構(gòu)如下所示。通過我們提供的代碼,用戶可以輕松快速地生成在自己的數(shù)據(jù)集上進行訓練所需的視頻文本對,從而顯著降低技術(shù)障礙并為啟動 Sora 復制項目做好準備。

STDiT模型結(jié)構(gòu)示意圖
Open-Sora 的再現(xiàn)方案參考了穩(wěn)定視頻擴散 (SVD) 工作,由三個階段組成,即:大規(guī)模圖像預訓練、大規(guī)模視頻預訓練、高質(zhì)量視頻數(shù)據(jù)微調(diào)。每個階段都根據(jù)前一階段的權(quán)重繼續(xù)訓練,通過逐步擴大數(shù)據(jù),更高效地實現(xiàn)高質(zhì)量視頻生成的目標。

圖片注釋(可選)
第一階段借助成熟的Text-to-Image模型,通過大規(guī)模圖像預訓練,有效降低視頻預訓練的成本。同時,借助互聯(lián)網(wǎng)上豐富的大規(guī)模圖像數(shù)據(jù)和先進的Text-to-Image技術(shù),可以訓練出高質(zhì)量的模型,作為下一階段視頻預處理的初始化權(quán)重。
第二階段進行大規(guī)模視頻預訓練,增加模型的泛化能力,有效掌握視頻的時間序列關(guān)聯(lián)性。第二階段的模型在第一階段的 Test-to-Image 模型中添加了時間序列注意模塊,用于學習視頻中的時間關(guān)系。最終,第三階段對高質(zhì)量視頻數(shù)據(jù)進行微調(diào),顯著提高生成視頻的質(zhì)量。
第三階段對高質(zhì)量視頻數(shù)據(jù)進行微調(diào),提高生成視頻的質(zhì)量,訓練總體成本約為10,000美元。
為了進一步降低Sora復制的門檻和復雜性,Colossal-AI團隊在代碼庫中提供了便捷的視頻數(shù)據(jù)預處理腳本,包括公共視頻數(shù)據(jù)集下載、視頻拆分、提示詞生成等。通過我們提供的代碼,用戶可以快速開始Sora復制預訓練,降低技術(shù)障礙。

圖片注釋(可選)
基于數(shù)據(jù)預處理腳本自動生成視頻/文本對
我們來看看Open-Sora的實際視頻生成結(jié)果,包括大海拍打懸崖海岸巖石、壯麗的山瀑布、海龜在珊瑚礁中游泳、銀河系繁星等。如果您有更多有趣的想法,歡迎訪問我們的Open-Sora開源社區(qū)獲取模型權(quán)重免費體驗。

圖片注釋(可選)
歡迎持續(xù)關(guān)注Open-Sora開源項目:點擊查看,推動AI技術(shù)在電影、游戲、廣告等領域的應用。
在視頻生成過程中,我們提供Colossal-AI加速系統(tǒng),實現(xiàn)高效訓練。通過內(nèi)核優(yōu)化和混合并行等高效訓練策略,我們成功提高了1.55倍的加速。

圖片注釋(可選)
STDiT 模型架構(gòu)在訓練過程中表現(xiàn)出卓越的效率,實現(xiàn)了高達5倍的加速,尤其在處理長視頻序列等任務中具有關(guān)鍵意義。
熱門資訊
1. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
4. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
9. 10個建筑AI工具,從設計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設計、建筑方案設計、住宅設計、管道設計、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學您好!