發(fā)布時間:2024-07-20 20:50:50 瀏覽量:162次
4 月 26 日,AI 創(chuàng)企 Mosaic ML 表示:
"MosaicML 非常適合訓練 diffusion 模型,而且相較于以往的工具有了巨大改進。"—— Tony Francis, Dream3D 公司 CEO‘
幾個月前,我們曾演示過如何以低廉價格在MosaicML平臺從零開始訓練大規(guī)模diffusion模型。
利用自有數(shù)據(jù)訓練屬于自己的圖像生成模型,這個前不久還屬癡人說夢的目標如今已經(jīng)切實可行。通過訓練自有diffusion模型,我們可以:
模型:我們的diffusion模型是一個由變分自動編碼器(VAE)、CLIP模型、U-Net和擴散噪聲調度器組成的Composer Model,所有功能組件均來自HuggingFace的Diffusers庫。全部模型配置均基于stabilityai/stable-diffusion-2-base。
數(shù)據(jù):我們使用的訓練數(shù)據(jù)集為LAION-5B的一個子集,其中包括帶有純英文標題且審美得分為4.5+的樣本。與Stable Diffusion 2 base類似,我們根據(jù)訓練數(shù)據(jù)的圖像分辨率將訓練過程劃分成兩個階段。在第一階段,我們使用的是分辨率大于等于256 x 256的圖像,總計7.9億個圖像 - 標題樣本。在第二階段中,我們僅使用分辨率大于等于512 x 512的圖像,總計3億個圖標 - 標題樣本。
無論是diffusion擴散模型還是大語言模型,規(guī)?;柧毝夹枰?jīng)歷一系列重大挑戰(zhàn)。我們使用MosaicML平臺進行diffusion模型訓練,該平臺自動解決了大部分問題,確保我們能專注于訓練出最佳模型。下面是規(guī)模化訓練中的三個主要挑戰(zhàn),還有我們的平臺如何加以解決。
在大規(guī)模數(shù)據(jù)集上訓練大模型無疑需要海量算力。MosaicML平臺能夠輕松在任意云服務商處編排數(shù)百個GPU。例如,我們的主訓練作業(yè)運行在一個包含128個A100 GPU的集群當中。為了確保評估模型不會拖慢訓練速度,我們使用不同云服務商在不同集群的各個檢查點上自動啟用運行評估,并根據(jù)可用性將運行規(guī)模收縮至64乃至最少8個GPU上。
即使是在訓練開始之后,軟件或硬件故障也有可能導致訓練中斷,這就要求24/7全天候加以監(jiān)控。好在MosaicML平臺的Node Doctor和Watchdog功能會自動檢測故障節(jié)點,并根據(jù)需要執(zhí)行恢復操作。通過自動恢復,我們得以從故障中順利恢復,無需任何人為干預即可繼續(xù)訓練,避免了昂貴的停機時間和人工管理。啟動之后,一切無憂!
軟件配置的優(yōu)化向來是個大麻煩,好在我們基于PyTorch的Composer庫能夠最大程度提高訓練效率。跟上一輪實驗類似,隨著GPU數(shù)量的增加,Composer繼續(xù)保持著出色的吞吐量擴展能力。在本次更新中,我們添加了進一步優(yōu)化(低精度GroupNorm和低精度LayerNorm,全分片化數(shù)據(jù)并行)以實現(xiàn)近乎完美的強大擴展能力,將作業(yè)最多擴展至128個GPU,從而將成本控制在5萬美元以內(nèi)。我們還使用Composer的原生指數(shù)移動平均(EMA)算法,得以在接近訓練結束時(第二階段的80萬次迭代中)啟用EMA,從而節(jié)約下相當一部分內(nèi)存和訓練算力。
我們在訓練中使用的是包含7.9億個樣本的LAION-5B子集,總數(shù)據(jù)量超過100TB。龐大的數(shù)據(jù)集規(guī)模導致其難以管理,特別是在需要配合擁有獨立本地存儲的多集群情況下。
MosaicML StreamingDataset庫讓海量數(shù)據(jù)集的處理變得更加簡單快速,該庫提供的三個核心功能也在本次訓練中發(fā)揮了關鍵作用:
圖像生成模型的實際性能往往難以評估,除了投入人力別無他法。在盲測評估中,我們衡量了用戶對圖像質量的偏好,并在Stable Diffusion 2和我們自己的diffusion模型間進行了提示詞對齊。根據(jù)用戶偏好,我們得出的結論是兩套模型質量相當。所有圖像均根據(jù)Imagan論文中提出的Drawbench基準測試揭示詞生成。
本文向大家介紹了我們這套diffusion模型的輸出性能和損失曲線,描述了高級模型訓練中的種種細節(jié),還有MosaicML平臺幫助我們解決的規(guī)?;柧毺魬?zhàn)。但很遺憾,由于LAION-5B數(shù)據(jù)集使用要求和相關法律條款較為模糊,我們暫時還無法對外公布由此訓練出的圖像生成模型的參數(shù)權重。我們很清楚參數(shù)權重對于圖像生成模型性能的重要意義,但這里只能向大家說聲抱歉。
下面就是我們這套diffusion模型生成的圖像結果。團隊成員們都玩得不亦樂乎,也希望各位能從中找到屬于自己的樂趣。
熱門資訊
1. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
4. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉換為視頻。 用戶可以使...
6. 零基礎10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
9. 10個建筑AI工具,從設計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設計、建筑方案設計、住宅設計、管道設計、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學您好!