亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

AIGC入門教程:Stable Diffusion,萬字保姆篇

發(fā)布時間:2024-03-26 15:46:23 瀏覽量:265次

AI技術(shù)的進步為我們的工作帶來了更多挑戰(zhàn),比如不少人可能就對新出現(xiàn)的AI繪畫軟件應用感到不太熟練。而在本篇文章里,作者就針對 Stable Diffusion 這款AI繪畫軟件的使用輸出了這份“保姆級教程”,一起來看看本文的解讀。

碼字不易,SD保姆教程,從原理功能到案例輸出展示,最后簡述ControlNet的使用技巧,圖文約1萬5千字左右,閱讀時長約20分鐘~

Stable Diffusion的基本介紹

除了官方給出的解釋。

它和MJ有什么區(qū)別?

為了更方便的理解,我們將Stable Diffusion與Midjourney做一個對比:

一、基礎介紹

1. 提示詞

提示詞分為兩個部分。

1)正向提示詞

i. 生成圖像時,我們可以使用正向提示詞來指定想要生成的圖像。正向提示詞可以是腦子里想到的圖片或一句話,將其拆分成不同的關(guān)鍵詞,并用逗號隔開作為輸入。

ii. 需要注意的是,相同的指令在不同的模型庫和參數(shù)下,生成的輸出圖像可能會不一樣。此外,提示詞的順序也非常重要,因為它們的順序會影響到生成圖像的權(quán)重。通常情況下,越靠前的提示詞權(quán)重越大,越靠后的提示詞權(quán)重越小。

2)排除詞

輸入框內(nèi)輸入的標簽內(nèi)容就是你畫面中不想要出現(xiàn)的東西,如:低質(zhì)量的,缺手指,五官不齊等等。

下圖給大家做一個案例演示。

3)提示詞拆分

對于使用提示詞生成圖像生成的小伙伴來說,當看到喜歡的圖像或腦海中想到很多畫面,但卻不知道如何用提示詞準確描述,現(xiàn)在有三種方法可以幫助大家快速拆分和生成圖像。

i. Stable Diffusion 中自帶反堆功能,可以通過將想要拆分的圖像拖入反堆,點擊按鈕來獲得生成該圖像的提示詞。第一次使用可能會有些慢,需要稍等片刻。

需要注意的是,這些提示詞需要進行后期的優(yōu)化,常用的方法是通過百度翻譯后進行增刪改,或者輸入到 GPT 中進行優(yōu)化,優(yōu)化后將提示詞放入相應的框內(nèi)進行圖像輸出。

ii. 第二種方法我們可以借助三方網(wǎng)站:https://replicate.com/ 來進行拆分,拆分好后,同第一條一樣,進行一個增刪改,然后我們對兩種方法進行比較,通過比較后,我們可以進行詞匯的篩選與合并。

iii. 利用gpt或文心等相關(guān)工具,將想要描述的長句輸入,最后加一句描述,請將這句話拆分為Stable Diffusion的提示詞,如果不滿意可以繼續(xù)恢復優(yōu)化提示詞,或者換一批相關(guān)描述,然后將轉(zhuǎn)換好的提示詞同i一樣增刪改。

2. 符號的使用

正如前文所述,詞匯在提示中的位置越靠前,其所占的權(quán)重就越大。為了進一步調(diào)整提示關(guān)鍵詞的權(quán)重,我們可以通過以下語法來設置關(guān)鍵詞的權(quán)重:在選中關(guān)鍵詞的同時,按下鍵盤上的Ctrl+上下來快速調(diào)整權(quán)重。每次調(diào)整的權(quán)重值為0.1,建議將權(quán)重值控制在0.7-1.4之間。

簡單來說,將每個提示詞看作一個獨立的個體,權(quán)重默認為1,而后面的數(shù)值就相當于在修改這個默認值。當然,我們也可以將權(quán)重調(diào)整為負數(shù),從而在提示中產(chǎn)生與原意相反的影響。

通過這種方法,我們可以更加精確地控制提示關(guān)鍵詞的權(quán)重,以達到更好的提示效果。同時,我們也需要注意保持提示內(nèi)容的流暢性和自然性,避免過度的修改導致提示內(nèi)容的語義不連貫或不符合實際情況。

3. 圖像的輸出

畫面的信息量取決于輸出圖片的大小。在全身構(gòu)圖中,一些細節(jié),例如臉部、飾品和復雜的紋樣,只有在較大的圖像中才能得到充分的展示空間,如圖像太小,臉部,手部,一些細節(jié)就會被壓縮成一團,無法得到充分的表現(xiàn),以下圖的風景為例,當畫幅越大時,展示的內(nèi)容越多。

二、界面部分

1. 采樣迭代步數(shù)

輸出畫面需要的步數(shù),每一次采樣步數(shù)都是在上一次的迭代步驟基礎上繪制生成一個新的圖片,一般來說采樣迭代步數(shù)保持在18-30左右即可,低的采樣步數(shù)會導致畫面計算不完整,高的采樣步數(shù)僅在細節(jié)處進行優(yōu)化,對比輸出速度得不償失。

2. 采樣方法的介紹

常用的有三種,分別是Euler a,DPM++2S a Karras和DDI

Euler a:

i. Euler a是一種用于控制時間步長大小的可調(diào)參數(shù),在Stable Diffusion中采用Euler時間步長采樣方法。適當?shù)腅uler a值能夠捕捉到細節(jié)和紋理,但如果值太大會導致過度擬合,生成圖像出現(xiàn)噪點等不良效果。

ii. 一句話概括:采樣生成速度最快,但是如果說在高細節(jié)圖增加采樣步數(shù)時,會產(chǎn)生不可控突變(如人物臉扭曲,細節(jié)扭曲等)。

適合:ICON,二次元圖像,小場景。

下圖為大家展示同提示詞不同步幅。

DPM++2S a Karras :

i. 采用 DPM++2S a Karras 采樣方法生成高質(zhì)量圖像,該方法在每個時間步長中執(zhí)行多次操作,同等分辨率下細節(jié)會更多,比如可以在小圖下塞進全身,代價是采樣速度更慢。

ii. 適合:寫實人像,復雜場景刻畫。

下圖展示elura a同提示詞不同步幅下的輸出圖像,可以看到步幅越高,細節(jié)刻畫越好。

DDIM

i. DDIM 采樣方法可以快速生成高質(zhì)量的圖像,相比其他采樣方法具有更高的效率,想嘗試超高步數(shù)時可以使用,隨著步數(shù)增加可以疊加細節(jié)。

ii. 適合:寫實人像,復雜場景刻畫。

下圖為大家展示DDIM同提示詞不同步幅下的輸出圖像,可以看到隨著步幅的提高,細節(jié)和豐富度逐漸提高。

3. 提示詞相關(guān)性

Stable Diffusion中的提示詞相關(guān)性指的是輸入提示詞對生成圖像的影響程度。當我們提高提示詞相關(guān)性時,生成的圖像將更符合提示信息的樣子;相反,如果提示詞相關(guān)性較低,對應的權(quán)重也較小,則生成的圖像會更加隨機。因此,通過調(diào)整提示詞相關(guān)性,可以引導模型生成更符合預期的樣本,從而提高生成的樣本質(zhì)量。

i. 在具體應用中,對于人物類的提示詞,一般將提示詞相關(guān)性控制在7-15之間。

ii. 而對于建筑等大場景類的提示詞,一般控制在3-7左右。這樣可以在一定程度上突出隨機性,同時又不會影響生成圖像的可視化效果。因此,提示詞相關(guān)性可以幫助我們通過引導模型生成更符合預期的樣本,從而提高生成的樣本質(zhì)量。

4. 隨機種子

i. 隨機種子是一個可以鎖定生成圖像的初始狀態(tài)的值。當使用相同的隨機種子和其他參數(shù),我們可以生成完全相同的圖像。設置隨機種子可以增加模型的可比性和可重復性,同時也可以用于調(diào)試和優(yōu)化模型,以觀察不同參數(shù)對圖像的影響。

ii. 在Stable Diffusion中,常用的隨機種子有-1和其他數(shù)值。當輸入-1或點擊旁邊的骰子按鈕時,生成的圖像是完全隨機的,沒有任何規(guī)律可言。而當輸入其他隨機數(shù)值時,就相當于鎖定了隨機種子對畫面的影響,這樣每次生成的圖像只會有微小的變化。因此,使用隨機種子可以控制生成圖像的變化程度,從而更好地探索模型的性能和參數(shù)的影響。

在工作產(chǎn)出中,如果細微調(diào)整,我們將會固定某個種子參數(shù)然后進行批量生成。

三、Checkpoint,VAE,embedding和lora的使用詳解

1. 安裝路徑自查

2. Checkpoint的介紹

i. 對于模型作者而言,訓練模型通常指生成Checkpoint文件。這些文件包含了模型參數(shù)和優(yōu)化器狀態(tài)等信息,是訓練過程中定期保存的狀態(tài)快照。

ii. 對于使用者而言,可以將Checkpoint文件理解為一種風格濾鏡,例如油畫、漫畫、寫實風等。通過選擇對應的Checkpoint文件,您可以將Stable Diffusion模型生成的結(jié)果轉(zhuǎn)換為您所選擇的特定風格。需要注意的是,一些Checkpoint文件可能需要與特定的低碼率編碼器(如Lora)配合使用,以獲得更好的效果。

iii. 在下載Checkpoint文件時,您可以查看相應的模型簡介,通常作者會提供相應的文件和說明事項,以幫助您更好地使用和理解該文件。

總之,Checkpoint文件是Stable Diffusion模型訓練過程中定期保存的狀態(tài)快照,使用者可以將其理解為一種風格濾鏡,用于將模型輸出結(jié)果轉(zhuǎn)換為特定的風格。在使用Checkpoint文件時,需要注意文件的匹配和相應的使用說明。

3. VAE的介紹

i. 可以將VAE理解為對模型的濾鏡加微調(diào),不同的VAE可能有一些細節(jié)上的差異,但不會影響輸出的效果。

ii. 它可以增強模型的表現(xiàn),有些模型文件已經(jīng)自帶了VAE效果,因此不需要盲目地去掛載,可以選擇自動模式來簡化日常使用。

4. embedding的介紹

i. 如果你有做過UI的經(jīng)驗,那么你應該知道組件的概念。在Stable Diffusion中,embedding技術(shù)就可以被理解為一種組件,它可以將輸入數(shù)據(jù)轉(zhuǎn)換成向量表示,方便模型進行處理和生成。

ii. 舉個例子,如果我們想要生成一個開心的皮卡丘,通常需要輸入很多描述詞,如黃毛、老鼠、長耳朵、腮紅等等。但是,如果引入皮卡丘的embedding,我們只需要輸入兩個詞:皮卡丘和開心。皮卡丘的embedding打包了所有皮卡丘的特征描述,這樣我們就不用每次輸入很多單詞來控制生成的畫面了。

iii. 在日常使用中,embedding技術(shù)通常用于控制人物的動作和特征,或者生成特定的畫風。相比于其他模型(如LORA),embedding的大小只有幾十KB,而不是幾百兆或幾GB,除了還原度對比lora差一些但在存儲和使用上更加方便。

iiii. 總之,embedding技術(shù)將輸入數(shù)據(jù)轉(zhuǎn)換為向量表示,為模型的處理和生成提供了便利。通過使用embedding,我們可以更加輕松地生成符合預期的樣本,而不需要手動輸入大量的描述詞匯。

5. LORA的介紹

LORA與embedding在本質(zhì)上類似,因為攜帶著大量的訓練數(shù)據(jù),所以LORA對人物和細節(jié)特征的復刻更加細膩。

使用技巧:

i. 通常來說,每個 LORA 模型都有對應的底膜和觸發(fā)詞匯。我們可以查看 LORA 作者產(chǎn)出的相關(guān)圖片,從中獲取模型信息,并從中選擇一些提示詞和排除詞來指定生成圖像的方向。需要注意的是,每個 LORA 模型對輸出圖像的權(quán)重設置是非常重要的。權(quán)重設置越大,對畫面的影響因素就越淺。通常情況下,權(quán)重應該控制在 0.7-1 之間。如果權(quán)重過高,會大幅度影響出圖的質(zhì)量。

ii. 為了獲得最佳效果,我們可以根據(jù)不同的 LORA 模型選擇適當?shù)奶崾驹~和排除詞,并在設置權(quán)重時進行調(diào)整。同時,我們還可以參考其他作者的經(jīng)驗和技巧,以便更好地利用 LORA 生成圖像。

四、圖生圖下的功能詳解

簡介:

是一種生成圖像的方法,它可以通過對已有的圖像進行修改或變形,生成新的圖像。在 Stable Diffusion 中,我們可以將墊圖的圖像看作是一張“初始圖像”,通過多次迭代,對其進行修改和變形,逐步生成與墊圖風格類似想要的圖片。

需注意的是圖生圖相對于文生圖多出兩個功能。

重繪幅度:

i. 指的是每次迭代中圖像被重新繪制的程度或幅度,也就是新生成的圖像與上一次迭代生成的圖像之間的差異程度。

ii. 它的取值范圍在 0 到 1 之間。當 值等于 0 時,新生成的圖像與上一次迭代生成的圖像完全一致,即沒有重新繪制;

當值等于 1 時,新生成的圖像與上一次迭代生成的圖像完全不同,即完全重新繪制。

需要注意的是,重繪幅度的大小會影響生成圖像的質(zhì)量和逼真程度。當重繪幅度較小時,生成的圖像可能會比較模糊或粗糙;

當重繪幅度較大時,生成的圖像可能會出現(xiàn)明顯的噪點或瑕疵。

縮放模式:

  • 拉伸:不改變寬高比的前提下將圖片拉伸,寬度高度充滿畫面空間的100%。
  • 裁剪:保留寬高比的基礎上,然后裁剪掉超出去的部分,使用時我們可以提前調(diào)整好輸出圖片的寬高比例。
  • 填充:它指在縮放圖像時,將原始圖像放置在目標尺寸的中心位置,多出去的部分用一定的顏色值(通常為黑色)填充周圍的空白區(qū)域。

直接縮放:

i. 指對圖像進行簡單的縮放處理,即直接將原始圖像縮放到目標尺寸。

ii. 在 Stable Diffusion 中,如果生成的圖像尺寸與原始圖像尺寸不一致,就需要進行縮放處理。直接縮放是一種簡單粗暴的縮放方式,它直接將原始圖像縮放到目標尺寸,不進行任何額外的處理。這種縮放方式的優(yōu)點是簡單快速,但缺點是可能會導致圖像失真或模糊,特別是當縮放比例較大時。

1. 圖生圖

主要用來做圖片放大和造型背景的變化,或者三次元改二次元時用的,通常配合著ControlNet來使用。

2. 繪圖

i. 通過手動繪制或修改圖像的局部區(qū)域,來指導生成器生成更加符合用戶期望的圖像,使用時可以利用繪圖工具,如筆刷、橡皮擦等,對圖像的局部區(qū)域進行修改。修改后的圖像會被作為下一次迭代的初始圖像,從而影響后續(xù)的圖像生成過程。

ii. 通過繪圖,可以更加精細地控制生成圖像的細節(jié)和特征,從而獲得更符合預期輸出。

3. 局部重繪

i. 也稱為上傳蒙版法,提前在作圖軟件里用畫筆涂抹好需要重新繪制的區(qū)域,黑色區(qū)域表示需要修復的區(qū)域,白色區(qū)域表示不需要修復的區(qū)域。

(注意:因此只需要在需要修復的區(qū)域涂黑色,其他區(qū)域可以涂白或保留原始顏色。上傳蒙版的話也只需在繪圖軟件里把需要修復的區(qū)域涂黑即可)

ii. 局部重繪的目的是盡可能地保留原始圖像的結(jié)構(gòu)和紋理特征,使修復后的圖像更加自然和真實。

4. 批量處理

指使用已有的圖像生成新的圖像。而圖生圖的批量處理是指同時對多張輸入圖像進行圖生圖操作,生成對應的多張輸出圖像。

五、ControlNet的使用

1. 一圖搞定插件安裝

權(quán)重:

ControlNet的權(quán)重與圖生圖權(quán)重的對比關(guān)系時:

  • 低重繪強度配高權(quán)重,可以鎖定圖片的細節(jié),更改畫風上的展現(xiàn),拓展延伸推薦。
  • 高重回強度配低權(quán)重,修改圖片細節(jié),定風格圖后小修改推薦。

預處理器與模型的關(guān)系:

i. 使用預處理器時要與模型一一對應起來,如與處理器選擇canny,則相對應的模型也要選擇canny。

ii. 預處理器和模型在 Stable Diffusion 中是相輔相成的,預處理器通過對輸入圖像進行預處理和數(shù)據(jù)增強,為模型提供了更好的輸入,而模型則通過對輸入進行特征提取和生成高質(zhì)量圖像,為預處理器提供了更好的反饋。

介入時機和退出時機:

i. 介入時機:代表第幾步介入對畫面的影響;退出時機:代表第幾步退出對畫面的影響。

ii. 如,現(xiàn)在是一個生成步幅為30步的圖像:

  • 現(xiàn)在介入時機為0.2,則從30×0.2=6,第六步的時候ControlNet開始介入
  • 現(xiàn)在退出時機為0.8,則從30×0.8=24,第二十四步的時候ControlNet退出對輸出的介入

2. Canny 邊緣檢測

i. Canny 是一種經(jīng)典的邊緣檢測算法,能夠很好地識別出圖像中的邊緣信息,對于圖像生成任務來說,可以幫助模型更好地生成具有清晰邊緣的圖像。

ii. 處理圖片的方式是將圖片專為線稿,對于畫面細節(jié)不復雜的圖像來說很好,但處理復雜圖像時,主體會容易被除主題元素以外的元素影響。

iii. 細節(jié)刻畫上,一種是分辨率越高,線條越清晰,閾值越少,對應的細節(jié)也越多。

4. Hed 邊緣檢測,細節(jié)保留

i. 該算法的特點是能夠同時預測多個尺度的邊緣,從而提高了邊緣檢測的精度,對邊緣清晰的圖像生成效果更好。

ii. 當用草圖轉(zhuǎn)上色時,可以在繪圖軟件將描邊加粗加深一些,從而能更方便獲取邊緣。

5. MLSD 線性檢測

i. mlsd模型,可以進行直線檢測,通過分析圖片的線條結(jié)構(gòu)來構(gòu)建出建筑外框,適合建筑設計的使用。

ii. 可以配合canny一起使用,效果更佳。

6. Open pose-人物擺pose

判斷主圖的主體動作,然后將動作附加在主圖上 一般配合著open pose editer。

7. LeRes深度信息估算

對有場景深度的圖片效果更佳,生成的圖像景深更易區(qū)分。

六、結(jié)語

隨著AI技術(shù)的快速發(fā)展,圖像生成領域的大型模型正在成為研究的熱點,但是由于該領域的相對新穎和復雜性,相關(guān)的教程和資源目前還相對匱乏。希望本文可以幫助各位設計師快速入門Stable Diffusion,并為您提供一些有用的參考資料。

相信在不久的將來,一些真正具有商業(yè)價值的大模型將會涌現(xiàn)出來,為設計和其他領域帶來更多的創(chuàng)新和效益,最后,希望大家能不斷探索和學習,掌握更多的技能和知識,為設計賦能!

本文由 @尹承元 原創(chuàng)發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載

題圖來自 Unsplash,基于 CC0 協(xié)議。

該文觀點僅代表作者本人,人人都是產(chǎn)品經(jīng)理平臺僅提供信息存儲空間服務。

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定