亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

用不到5萬美元成本復制Stable Diffusion,訓練代碼開源!

發(fā)布時間:2024-07-20 20:50:50 瀏覽量:162次

用不到5萬美元成本復制Stable Diffusion,訓練代碼開源!

4 月 26 日,AI 創(chuàng)企 Mosaic ML 表示:

"MosaicML 非常適合訓練 diffusion 模型,而且相較于以往的工具有了巨大改進。"—— Tony Francis, Dream3D 公司 CEO‘

幾個月前,我們曾演示過如何以低廉價格在MosaicML平臺從零開始訓練大規(guī)模diffusion模型。

利用自有數(shù)據(jù)訓練屬于自己的圖像生成模型,這個前不久還屬癡人說夢的目標如今已經(jīng)切實可行。通過訓練自有diffusion模型,我們可以:

  1. 使用專有數(shù)據(jù);
  2. 調整某些藝術或攝影風格的表現(xiàn)形式;
  3. 避免違反知識產(chǎn)權法,確保模型能夠用于商業(yè)用途。我們已經(jīng)對訓練diffusion模型所使用的代碼和方法進行開源,可供您隨意訓練自己的模型。

設置

模型:我們的diffusion模型是一個由變分自動編碼器(VAE)、CLIP模型、U-Net和擴散噪聲調度器組成的Composer Model,所有功能組件均來自HuggingFace的Diffusers庫。全部模型配置均基于stabilityai/stable-diffusion-2-base。

數(shù)據(jù):我們使用的訓練數(shù)據(jù)集為LAION-5B的一個子集,其中包括帶有純英文標題且審美得分為4.5+的樣本。與Stable Diffusion 2 base類似,我們根據(jù)訓練數(shù)據(jù)的圖像分辨率將訓練過程劃分成兩個階段。在第一階段,我們使用的是分辨率大于等于256 x 256的圖像,總計7.9億個圖像 - 標題樣本。在第二階段中,我們僅使用分辨率大于等于512 x 512的圖像,總計3億個圖標 - 標題樣本。

挑戰(zhàn)與解決方案

無論是diffusion擴散模型還是大語言模型,規(guī)?;柧毝夹枰?jīng)歷一系列重大挑戰(zhàn)。我們使用MosaicML平臺進行diffusion模型訓練,該平臺自動解決了大部分問題,確保我們能專注于訓練出最佳模型。下面是規(guī)模化訓練中的三個主要挑戰(zhàn),還有我們的平臺如何加以解決。

基礎設施

在大規(guī)模數(shù)據(jù)集上訓練大模型無疑需要海量算力。MosaicML平臺能夠輕松在任意云服務商處編排數(shù)百個GPU。例如,我們的主訓練作業(yè)運行在一個包含128個A100 GPU的集群當中。為了確保評估模型不會拖慢訓練速度,我們使用不同云服務商在不同集群的各個檢查點上自動啟用運行評估,并根據(jù)可用性將運行規(guī)模收縮至64乃至最少8個GPU上。

即使是在訓練開始之后,軟件或硬件故障也有可能導致訓練中斷,這就要求24/7全天候加以監(jiān)控。好在MosaicML平臺的Node Doctor和Watchdog功能會自動檢測故障節(jié)點,并根據(jù)需要執(zhí)行恢復操作。通過自動恢復,我們得以從故障中順利恢復,無需任何人為干預即可繼續(xù)訓練,避免了昂貴的停機時間和人工管理。啟動之后,一切無憂!

軟件效率

軟件配置的優(yōu)化向來是個大麻煩,好在我們基于PyTorch的Composer庫能夠最大程度提高訓練效率。跟上一輪實驗類似,隨著GPU數(shù)量的增加,Composer繼續(xù)保持著出色的吞吐量擴展能力。在本次更新中,我們添加了進一步優(yōu)化(低精度GroupNorm和低精度LayerNorm,全分片化數(shù)據(jù)并行)以實現(xiàn)近乎完美的強大擴展能力,將作業(yè)最多擴展至128個GPU,從而將成本控制在5萬美元以內(nèi)。我們還使用Composer的原生指數(shù)移動平均(EMA)算法,得以在接近訓練結束時(第二階段的80萬次迭代中)啟用EMA,從而節(jié)約下相當一部分內(nèi)存和訓練算力。

管理100TB數(shù)據(jù)

我們在訓練中使用的是包含7.9億個樣本的LAION-5B子集,總數(shù)據(jù)量超過100TB。龐大的數(shù)據(jù)集規(guī)模導致其難以管理,特別是在需要配合擁有獨立本地存儲的多集群情況下。

MosaicML StreamingDataset庫讓海量數(shù)據(jù)集的處理變得更加簡單快速,該庫提供的三個核心功能也在本次訓練中發(fā)揮了關鍵作用:

  1. 將存儲在不同位置的數(shù)據(jù)集混合起來。我們根據(jù)圖像分辨率將各樣本分別存儲在不同的數(shù)據(jù)集內(nèi)。在訓練時,我們使用MosaicML StreamingDataset庫將來自各數(shù)據(jù)集的分辨率素材混合起來。
  2. 即時輪中恢復。我們能夠在一個輪次期間即時恢復訓練,這相當于實現(xiàn)了整個數(shù)據(jù)集在訓練過程中的“斷點續(xù)傳”,大大節(jié)約了總體用時。
  3. 以彈性方式實現(xiàn)確定性。MosaicML StreamingDataset庫能夠以確定性方式混洗數(shù)據(jù),且不受訓練用GPU數(shù)量變化的影響。這使我們得以準確重現(xiàn)訓練效果,極大簡化了調試步驟。

人類評估結果

圖像生成模型的實際性能往往難以評估,除了投入人力別無他法。在盲測評估中,我們衡量了用戶對圖像質量的偏好,并在Stable Diffusion 2和我們自己的diffusion模型間進行了提示詞對齊。根據(jù)用戶偏好,我們得出的結論是兩套模型質量相當。所有圖像均根據(jù)Imagan論文中提出的Drawbench基準測試揭示詞生成。

未來展望

本文向大家介紹了我們這套diffusion模型的輸出性能和損失曲線,描述了高級模型訓練中的種種細節(jié),還有MosaicML平臺幫助我們解決的規(guī)?;柧毺魬?zhàn)。但很遺憾,由于LAION-5B數(shù)據(jù)集使用要求和相關法律條款較為模糊,我們暫時還無法對外公布由此訓練出的圖像生成模型的參數(shù)權重。我們很清楚參數(shù)權重對于圖像生成模型性能的重要意義,但這里只能向大家說聲抱歉。

寫在最后

下面就是我們這套diffusion模型生成的圖像結果。團隊成員們都玩得不亦樂乎,也希望各位能從中找到屬于自己的樂趣。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定