發(fā)布時(shí)間:2023-12-05 09:26:05 瀏覽量:290次
機(jī)器之心原創(chuàng)
作者:小舟
AIGC,不只是一場(chǎng)狂歡。
最近,社交平臺(tái)上一些 AI 作畫(huà)工具引起廣泛關(guān)注,比如因「情侶合影」刷屏的 Midjourney v5 和剛剛開(kāi)啟公測(cè)的 Stable Diffusion XL。

Midjourney v5 和 Stable Diffusion XL 生成的圖像。
AI 生成的圖像天馬行空,在互聯(lián)網(wǎng)上掀起了一場(chǎng)狂歡,AIGC(人工智能生成內(nèi)容)也成為一個(gè)爆款詞匯,人們驚呼 AI 技術(shù)的迅速發(fā)展。
狂歡之后,我們需要想想:AIGC 的現(xiàn)實(shí)價(jià)值是什么?
AIGC 被認(rèn)為是繼專(zhuān)業(yè)生產(chǎn)內(nèi)容(PGC)、用戶(hù)生產(chǎn)內(nèi)容(UGC)之后的新型內(nèi)容創(chuàng)作方式,人們期待 AI 能夠掀起新一輪內(nèi)容生產(chǎn)變革。當(dāng)前,大部分 AI 作畫(huà)工具是面向個(gè)人消費(fèi)者(to C)的應(yīng)用產(chǎn)品,這些產(chǎn)品的生成效果的確讓人眼前一亮。
但想讓 AIGC 賦能各行各業(yè),提升生產(chǎn)力,做出面向 B 端客戶(hù)的高效、專(zhuān)業(yè)的應(yīng)用才是關(guān)鍵。
最近,長(zhǎng)期深耕 to B 業(yè)務(wù)的商湯科技宣布推出秒畫(huà) SenseMirage,為 AI 作畫(huà)打開(kāi)了商業(yè)應(yīng)用的新格局。
秒畫(huà)是基于商湯自研的文生圖大模型,依托商湯 AI 大裝置 SenseCore 強(qiáng)大算力集群的 AI 作畫(huà)平臺(tái)。在秒畫(huà)平臺(tái)上,B 端客戶(hù)可以使用商湯自研的文生圖大模型快速生成圖像。
其效果如何?背后技術(shù)是什么?有哪些特色與優(yōu)勢(shì)?讓我們一一為你揭秘。
多種風(fēng)格、秒速生成
不同于 Stable Diffusion、Midjourney,秒畫(huà)是一個(gè) to B 的 AI 作畫(huà)平臺(tái),將廣泛應(yīng)用于設(shè)計(jì)、營(yíng)銷(xiāo)、游戲動(dòng)畫(huà)、工程建筑、醫(yī)學(xué)、教育科普等領(lǐng)域。我們來(lái)看一些秒畫(huà)平臺(tái)中商湯自研文生圖大模型的生成樣例。
首先,面向時(shí)尚設(shè)計(jì)領(lǐng)域,商湯自研大模型生成的「中國(guó)女士時(shí)尚街拍圖如下」:

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——中國(guó)女士時(shí)尚街拍圖。
還能生成巴黎時(shí)裝周攝影風(fēng)的模特圖像:

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——巴黎時(shí)裝周模特圖片。
我們也和其他文生圖模型進(jìn)行了效果對(duì)比,例如生成圖像:一只戴著珍珠耳環(huán)的鸚鵡,商湯自研模型的生成效果如下:
Prompt:(混合語(yǔ)言輸入)一只戴著珍珠耳環(huán)的鸚鵡,維米爾風(fēng)格,12K,高畫(huà)質(zhì),高清,octane render

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——戴珍珠耳環(huán)的鸚鵡。
同樣的 prompt 翻譯成英文后,我們嘗試用 Stable Diffusion XL 生成,但并沒(méi)有得到符合要求的結(jié)果。部分圖像沒(méi)有以鸚鵡作為主體,部分即便生成了鸚鵡,但缺少珍珠耳環(huán)等細(xì)節(jié)。

Stable Diffusion XL 生成的一組圖像。
在游戲動(dòng)畫(huà)領(lǐng)域,商湯自研的文生圖模型也有很強(qiáng)大的生成能力,生成的圖像符合文本描述,且細(xì)節(jié)豐富,有動(dòng)畫(huà)感染力。例如生成一只「憤怒的皮卡丘」:
Prompt:(中文輸入)憤怒的皮卡丘,它的眼睛是紅色的,周?chē)婇W雷鳴,超寫(xiě)實(shí)主義風(fēng)格

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——憤怒的皮卡丘。
同樣的 prompt 翻譯為英文輸入后,Stable Diffusion XL 生成的結(jié)果不盡如人意,要么是皮卡丘不夠憤怒,要么是圖像細(xì)節(jié)不到位。
Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style

Stable Diffusion XL 生成的一組圖像。
我們發(fā)現(xiàn),秒畫(huà)平臺(tái)中商湯自研的文生圖模型可以生成符合要求的高質(zhì)量圖像,而且非常適用于設(shè)計(jì)和游戲動(dòng)畫(huà)行業(yè)。下面我們就看一下這個(gè)文生圖大模型的具體細(xì)節(jié)。
超 10 億參數(shù)的自研文生圖大模型
要想讓大模型足夠好、AI 作畫(huà)足夠逼真,就要具備三個(gè)核心元素,包括模型架構(gòu)、優(yōu)化方法和底層基建。
首先,模型本身的結(jié)構(gòu)設(shè)計(jì)要足夠高效。一般來(lái)講,神經(jīng)網(wǎng)絡(luò)變得更大,模型學(xué)習(xí)能力就會(huì)更強(qiáng)。但如何保證在同等超大參數(shù)量下,模型能夠具有性能優(yōu)勢(shì),這就需要在模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上多下功夫。
從 2019 年開(kāi)始,商湯就研發(fā)了一套半自主的超大模型結(jié)構(gòu)設(shè)計(jì) pipeline。它能夠幫助研究員在模型參數(shù)量特別大的情況下,設(shè)計(jì)出高效的神經(jīng)網(wǎng)絡(luò)算子,同時(shí)商湯還使用 AutoML 平臺(tái)把這些算子結(jié)合起來(lái)。
因此,商湯自研的大模型是基于研究人員和 AI 一起設(shè)計(jì)出來(lái)的超大神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在這個(gè)結(jié)構(gòu)下,相同的數(shù)據(jù)、相同的參數(shù)量,商湯自研的模型在性能上就有顯著的優(yōu)勢(shì)。經(jīng)過(guò)訓(xùn)練的模型,在生成效果上會(huì)比單純把深度、寬度加大一些量級(jí)的模型好很多。
第二,在這套模型架構(gòu)設(shè)計(jì) pipeline 里,研究人員會(huì)手工設(shè)計(jì)一些優(yōu)化方法。
傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練都是用 SGD、Adam 優(yōu)化器等等。而在過(guò)去的幾年里,商湯在超大神經(jīng)網(wǎng)絡(luò)的梯度下降優(yōu)化方法上做了非常多的研究。
特別大的模型在優(yōu)化上有一個(gè)非常嚴(yán)重的問(wèn)題,是模型訓(xùn)練過(guò)程的收斂性很難保證。這可能因?yàn)閮?yōu)化器不夠好,也可能是因?yàn)閿?shù)據(jù)里有噪聲,導(dǎo)致模型在極個(gè)別錯(cuò)誤的樣本下產(chǎn)生極大的損失函數(shù)值。此外,對(duì)于基于擴(kuò)散模型的生成式模型來(lái)說(shuō),生成的語(yǔ)義完備性、物體宏觀結(jié)構(gòu)、細(xì)節(jié)(比如手指、四肢等)、推理步的加速等都有較大改進(jìn)空間。商湯的研究團(tuán)隊(duì)基于這些問(wèn)題做了大量的優(yōu)化,以確保商湯自研的文生圖、視覺(jué)感知等大模型都能夠在一個(gè)很長(zhǎng)周期內(nèi)保持訓(xùn)練穩(wěn)定、高效。
具體來(lái)說(shuō),為了讓該模型生成的圖像質(zhì)量更高、細(xì)節(jié)更豐富、風(fēng)格更多樣,商湯的研究團(tuán)隊(duì)自研了分層推理專(zhuān)家(hierarchical inference experts)、圖像質(zhì)量感知的分布式訓(xùn)練(image quality-aware distributed training)、圖像紋理指導(dǎo)的交叉注意力學(xué)習(xí)(texture-guided cross-attention learning)等優(yōu)化算法。
第三,算法與底層基建要綁定配合,聯(lián)合優(yōu)化。當(dāng)模型的體量足夠大,就需要用 3D 切割的方法從神經(jīng)網(wǎng)絡(luò)深度,寬度以及數(shù)據(jù) batch 的三個(gè)維度來(lái)切割神經(jīng)網(wǎng)絡(luò),再分配到上千塊 GPU 上,在每個(gè) GPU 上進(jìn)行局部計(jì)算,就會(huì)涉及到非常多機(jī)器學(xué)習(xí)系統(tǒng)的問(wèn)題。比如在計(jì)算每一個(gè)分塊計(jì)算的全局結(jié)果時(shí),需要把不同卡的計(jì)算結(jié)果結(jié)合起來(lái)。而這又會(huì)導(dǎo)致一個(gè)問(wèn)題 —— 每個(gè) GPU 上的子模型在相互通信時(shí),帶寬要求會(huì)非常大。
然而,機(jī)器學(xué)習(xí)系統(tǒng)中通常是一個(gè) POD 內(nèi)的 P2P 通信帶寬很大,POD 之間的通信帶寬很小,因此商湯的研究團(tuán)隊(duì)專(zhuān)門(mén)針對(duì)這個(gè)問(wèn)題對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了特異性設(shè)計(jì),讓只能在一個(gè) POD 內(nèi)通信的子模型盡量放在一個(gè) POD 里,而通信帶寬要求相對(duì)較小的一些模塊(比如不同的 experts)就放到不同的 POD 之間,這就可以讓大模型與商湯的 AI 大裝置進(jìn)行聯(lián)合優(yōu)化,以獲得更高的訓(xùn)練效率。
這三個(gè)技術(shù)要素讓商湯自研的文生圖大模型具備了更優(yōu)的文本理解能力和逼真的生成效果。在 prompt 比較詳細(xì)復(fù)雜的時(shí)候,該模型可以生成帶有故事性的逼真圖像。例如提供 prompt 讓模型生成皮卡丘和馬里奧打斗的場(chǎng)景:


“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——皮卡丘和馬里奧打斗。
在秒畫(huà)平臺(tái)上,商湯自研的文生圖大模型是一個(gè)基礎(chǔ)模型,B 端客戶(hù)僅用少量數(shù)據(jù)就可以迅速微調(diào)得到一個(gè)適用于下游任務(wù)的垂類(lèi)模型,大大降低了訓(xùn)練門(mén)檻。

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像。
獨(dú)具優(yōu)勢(shì)的文生圖平臺(tái)
除了商湯自研的文生圖大模型,秒畫(huà)還是一個(gè)可以導(dǎo)入其他開(kāi)源模型的平臺(tái),被稱(chēng)為「模型超市」。

可從第三方平臺(tái)導(dǎo)入模型,并啟動(dòng)秒畫(huà) SenseMirage 平臺(tái)的模型編譯技術(shù)進(jìn)行推理加速的效果展示。
在秒畫(huà)平臺(tái)上,用戶(hù)可以一鍵導(dǎo)入 Hugging Face、Civitai、GitHub 等第三方社區(qū)的開(kāi)源模型,并且添加至用戶(hù)「我的模型庫(kù)」列表中,方便進(jìn)行體驗(yàn),讓用戶(hù)免除本地化部署的繁瑣流程。
這是為了大幅降低 AI 作畫(huà)的商用門(mén)檻。對(duì)于一些中小型企業(yè)來(lái)說(shuō),本地化部署大模型的成本是非常高的。硬件方面,訓(xùn)練垂類(lèi)模型需要搭建一定規(guī)模的 GPU 算力集群,還需要專(zhuān)業(yè)的技術(shù)團(tuán)隊(duì),人力成本也是比較高的。
秒畫(huà)為商湯自研文生圖模型和開(kāi)源模型提供了一套算法框架和強(qiáng)大的算力基礎(chǔ)設(shè)施 ——AI 大裝置 SenseCore。B 端用戶(hù)可以直接在秒畫(huà)平臺(tái)上訓(xùn)練定制化的 LoRA 模型,基于現(xiàn)有商湯自研文生圖模型的高度泛化性,B 端用戶(hù)只需要拖拽 20 張左右圖片作為訓(xùn)練集,最低僅需 5 分鐘就能完成一個(gè)高質(zhì)量模型的訓(xùn)練。這讓中小型企業(yè)也能輕松擁有屬于自己的垂類(lèi)模型。
此外,秒畫(huà)還提供了特異性推理優(yōu)化服務(wù),開(kāi)源模型導(dǎo)入后會(huì)自動(dòng)采用秒畫(huà)平臺(tái)底層的模型編譯技術(shù)進(jìn)行加速。借助這項(xiàng)加速技術(shù),在本地 RTX 3070 顯卡上需要 10 秒生成的圖像,秒畫(huà)只要 2 秒的推理時(shí)間就可以生成。
總體來(lái)說(shuō),秒畫(huà)是一個(gè)依托商湯 AI 大裝置 SenseCore 的 to B 文生圖平臺(tái),它基于商湯自研的超 10 億參數(shù)文生圖大模型,也能一鍵導(dǎo)入第三方開(kāi)源模型,為 B 端客戶(hù)免去了本地化部署的繁瑣流程,并提供了簡(jiǎn)單快速的訓(xùn)練服務(wù)和推理加速功能。
打開(kāi) AIGC 的商業(yè)價(jià)值
隨著生成式 AI 模型迎來(lái)爆發(fā)式增長(zhǎng),越來(lái)越多的人開(kāi)始探索 AIGC 的潛在應(yīng)用場(chǎng)景。不同于 to C 的應(yīng)用軟件,to B 的 AIGC 平臺(tái)需要為各行業(yè)找到合適的商業(yè)模式。
作為深耕 to B 業(yè)務(wù)的公司,商湯自去年開(kāi)始就為 B 端用戶(hù)提供定制化的文生圖模型,當(dāng)時(shí)的常見(jiàn)做法是根據(jù)用戶(hù)的需求為客戶(hù)訓(xùn)練并封裝成 SDK 來(lái)交付。這樣的業(yè)務(wù)積累也讓商湯有了構(gòu)建通用文生圖平臺(tái)的新思路,秒畫(huà)應(yīng)運(yùn)而生。
在文生圖領(lǐng)域,設(shè)計(jì)、營(yíng)銷(xiāo)、游戲動(dòng)畫(huà)等行業(yè)未來(lái)將成為 AI 作畫(huà)的主要應(yīng)用場(chǎng)景。作為 to B 的文生圖平臺(tái),秒畫(huà)具備賦能這些行業(yè)的優(yōu)勢(shì)。
例如,對(duì)比同類(lèi)產(chǎn)品的生成效果,秒畫(huà)更適用于商業(yè)設(shè)計(jì)和產(chǎn)品營(yíng)銷(xiāo)。在下面這個(gè)生成汽車(chē)圖像的例子中,相比于 Stable Diffusion,商湯自研模型的生成結(jié)果更符合 prompt 中的「概念設(shè)計(jì)」和「水墨」這兩個(gè)關(guān)鍵詞。

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。
類(lèi)似地,在游戲動(dòng)畫(huà)行業(yè),圖像的展現(xiàn)效果將直接影響產(chǎn)品的質(zhì)量,這對(duì)賦能該行業(yè)的 AIGC 工具提出了更高的要求,包括圖像生成效果和對(duì)文本的理解能力兩方面。以下圖生成「夢(mèng)幻的蝴蝶」為例,基于商湯自研模型的優(yōu)化技術(shù),秒畫(huà)在圖像風(fēng)格、細(xì)節(jié)刻畫(huà)等方面都更符合行業(yè)要求。

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。
一方面,秒畫(huà)為 B 端客戶(hù)大幅降低了文生圖垂類(lèi)模型的構(gòu)建門(mén)檻和商用成本;另一方面,秒畫(huà)也符合當(dāng)前主流 AI 作畫(huà)的應(yīng)用場(chǎng)景,提高了文生圖模型的實(shí)用價(jià)值。
在 AI 作畫(huà)賺足眼球的今天,秒畫(huà)平臺(tái)從賦能行業(yè)的角度出發(fā),為 AIGC 打開(kāi)商業(yè)價(jià)值提供了一個(gè)新的思路。
最后,我們想說(shuō),文生圖只是 AIGC 的方向之一。隨著生成式 AI 模型的迅速發(fā)展,AI 生成文本、AI 生成視頻等等多個(gè)領(lǐng)域都在加快應(yīng)用落地,AI 終將掀起內(nèi)容生產(chǎn)的新一輪變革。
熱門(mén)資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
2. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫(huà)效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫(huà)效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
4. 一款免費(fèi)無(wú)限制的AI視頻生成工具火了!國(guó)內(nèi)無(wú)障礙訪(fǎng)問(wèn)!附教程
人人都可以動(dòng)手制作AI視頻! 打開(kāi)網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開(kāi)始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類(lèi)型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶(hù)可以使...
6. 零基礎(chǔ)10分鐘生成漫畫(huà),教大家如何用AI生成自己的漫畫(huà)
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫(huà)。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫(huà)作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫(huà)的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫(huà)軟件,提供詳細(xì)操作!有需要的快來(lái)...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
9. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來(lái)沒(méi)聽(tīng)過(guò)的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說(shuō)了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫(huà)模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!