當(dāng)前位置：首頁(yè) >人工智能 >賺足眼球的AI作畫(huà)，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

賺足眼球的AI作畫(huà)，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

發(fā)布時(shí)間：2023-12-05 09:26:05 瀏覽量：290次

機(jī)器之心原創(chuàng)

作者：小舟

AIGC，不只是一場(chǎng)狂歡。

最近，社交平臺(tái)上一些 AI 作畫(huà)工具引起廣泛關(guān)注，比如因「情侶合影」刷屏的 Midjourney v5 和剛剛開(kāi)啟公測(cè)的 Stable Diffusion XL。

Midjourney v5 和 Stable Diffusion XL 生成的圖像。

AI 生成的圖像天馬行空，在互聯(lián)網(wǎng)上掀起了一場(chǎng)狂歡，AIGC（人工智能生成內(nèi)容）也成為一個(gè)爆款詞匯，人們驚呼 AI 技術(shù)的迅速發(fā)展。

狂歡之后，我們需要想想：AIGC 的現(xiàn)實(shí)價(jià)值是什么？

AIGC 被認(rèn)為是繼專(zhuān)業(yè)生產(chǎn)內(nèi)容（PGC）、用戶(hù)生產(chǎn)內(nèi)容（UGC）之后的新型內(nèi)容創(chuàng)作方式，人們期待 AI 能夠掀起新一輪內(nèi)容生產(chǎn)變革。當(dāng)前，大部分 AI 作畫(huà)工具是面向個(gè)人消費(fèi)者（to C）的應(yīng)用產(chǎn)品，這些產(chǎn)品的生成效果的確讓人眼前一亮。

但想讓 AIGC 賦能各行各業(yè)，提升生產(chǎn)力，做出面向 B 端客戶(hù)的高效、專(zhuān)業(yè)的應(yīng)用才是關(guān)鍵。

最近，長(zhǎng)期深耕 to B 業(yè)務(wù)的商湯科技宣布推出秒畫(huà) SenseMirage，為 AI 作畫(huà)打開(kāi)了商業(yè)應(yīng)用的新格局。

秒畫(huà)是基于商湯自研的文生圖大模型，依托商湯 AI 大裝置 SenseCore 強(qiáng)大算力集群的 AI 作畫(huà)平臺(tái)。在秒畫(huà)平臺(tái)上，B 端客戶(hù)可以使用商湯自研的文生圖大模型快速生成圖像。

其效果如何？背后技術(shù)是什么？有哪些特色與優(yōu)勢(shì)？讓我們一一為你揭秘。

多種風(fēng)格、秒速生成

不同于 Stable Diffusion、Midjourney，秒畫(huà)是一個(gè) to B 的 AI 作畫(huà)平臺(tái)，將廣泛應(yīng)用于設(shè)計(jì)、營(yíng)銷(xiāo)、游戲動(dòng)畫(huà)、工程建筑、醫(yī)學(xué)、教育科普等領(lǐng)域。我們來(lái)看一些秒畫(huà)平臺(tái)中商湯自研文生圖大模型的生成樣例。

首先，面向時(shí)尚設(shè)計(jì)領(lǐng)域，商湯自研大模型生成的「中國(guó)女士時(shí)尚街拍圖如下」：

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——中國(guó)女士時(shí)尚街拍圖。

還能生成巴黎時(shí)裝周攝影風(fēng)的模特圖像：

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——巴黎時(shí)裝周模特圖片。

我們也和其他文生圖模型進(jìn)行了效果對(duì)比，例如生成圖像：一只戴著珍珠耳環(huán)的鸚鵡，商湯自研模型的生成效果如下：

Prompt：（混合語(yǔ)言輸入）一只戴著珍珠耳環(huán)的鸚鵡，維米爾風(fēng)格，12K，高畫(huà)質(zhì)，高清，octane render

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——戴珍珠耳環(huán)的鸚鵡。

同樣的 prompt 翻譯成英文后，我們嘗試用 Stable Diffusion XL 生成，但并沒(méi)有得到符合要求的結(jié)果。部分圖像沒(méi)有以鸚鵡作為主體，部分即便生成了鸚鵡，但缺少珍珠耳環(huán)等細(xì)節(jié)。

Stable Diffusion XL 生成的一組圖像。

在游戲動(dòng)畫(huà)領(lǐng)域，商湯自研的文生圖模型也有很強(qiáng)大的生成能力，生成的圖像符合文本描述，且細(xì)節(jié)豐富，有動(dòng)畫(huà)感染力。例如生成一只「憤怒的皮卡丘」：

Prompt：（中文輸入）憤怒的皮卡丘，它的眼睛是紅色的，周?chē)婇W雷鳴，超寫(xiě)實(shí)主義風(fēng)格

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——憤怒的皮卡丘。

同樣的 prompt 翻譯為英文輸入后，Stable Diffusion XL 生成的結(jié)果不盡如人意，要么是皮卡丘不夠憤怒，要么是圖像細(xì)節(jié)不到位。

Prompt: A pikachu with an angry expression and red eyes, with lightning around it, hyper realistic style

Stable Diffusion XL 生成的一組圖像。

我們發(fā)現(xiàn)，秒畫(huà)平臺(tái)中商湯自研的文生圖模型可以生成符合要求的高質(zhì)量圖像，而且非常適用于設(shè)計(jì)和游戲動(dòng)畫(huà)行業(yè)。下面我們就看一下這個(gè)文生圖大模型的具體細(xì)節(jié)。

超 10 億參數(shù)的自研文生圖大模型

要想讓大模型足夠好、AI 作畫(huà)足夠逼真，就要具備三個(gè)核心元素，包括模型架構(gòu)、優(yōu)化方法和底層基建。

首先，模型本身的結(jié)構(gòu)設(shè)計(jì)要足夠高效。一般來(lái)講，神經(jīng)網(wǎng)絡(luò)變得更大，模型學(xué)習(xí)能力就會(huì)更強(qiáng)。但如何保證在同等超大參數(shù)量下，模型能夠具有性能優(yōu)勢(shì)，這就需要在模型的神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)設(shè)計(jì)上多下功夫。

從 2019 年開(kāi)始，商湯就研發(fā)了一套半自主的超大模型結(jié)構(gòu)設(shè)計(jì) pipeline。它能夠幫助研究員在模型參數(shù)量特別大的情況下，設(shè)計(jì)出高效的神經(jīng)網(wǎng)絡(luò)算子，同時(shí)商湯還使用 AutoML 平臺(tái)把這些算子結(jié)合起來(lái)。

因此，商湯自研的大模型是基于研究人員和 AI 一起設(shè)計(jì)出來(lái)的超大神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。在這個(gè)結(jié)構(gòu)下，相同的數(shù)據(jù)、相同的參數(shù)量，商湯自研的模型在性能上就有顯著的優(yōu)勢(shì)。經(jīng)過(guò)訓(xùn)練的模型，在生成效果上會(huì)比單純把深度、寬度加大一些量級(jí)的模型好很多。

第二，在這套模型架構(gòu)設(shè)計(jì) pipeline 里，研究人員會(huì)手工設(shè)計(jì)一些優(yōu)化方法。

傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)訓(xùn)練都是用 SGD、Adam 優(yōu)化器等等。而在過(guò)去的幾年里，商湯在超大神經(jīng)網(wǎng)絡(luò)的梯度下降優(yōu)化方法上做了非常多的研究。

特別大的模型在優(yōu)化上有一個(gè)非常嚴(yán)重的問(wèn)題，是模型訓(xùn)練過(guò)程的收斂性很難保證。這可能因?yàn)閮?yōu)化器不夠好，也可能是因?yàn)閿?shù)據(jù)里有噪聲，導(dǎo)致模型在極個(gè)別錯(cuò)誤的樣本下產(chǎn)生極大的損失函數(shù)值。此外，對(duì)于基于擴(kuò)散模型的生成式模型來(lái)說(shuō)，生成的語(yǔ)義完備性、物體宏觀結(jié)構(gòu)、細(xì)節(jié)（比如手指、四肢等）、推理步的加速等都有較大改進(jìn)空間。商湯的研究團(tuán)隊(duì)基于這些問(wèn)題做了大量的優(yōu)化，以確保商湯自研的文生圖、視覺(jué)感知等大模型都能夠在一個(gè)很長(zhǎng)周期內(nèi)保持訓(xùn)練穩(wěn)定、高效。

具體來(lái)說(shuō)，為了讓該模型生成的圖像質(zhì)量更高、細(xì)節(jié)更豐富、風(fēng)格更多樣，商湯的研究團(tuán)隊(duì)自研了分層推理專(zhuān)家（hierarchical inference experts）、圖像質(zhì)量感知的分布式訓(xùn)練（image quality-aware distributed training）、圖像紋理指導(dǎo)的交叉注意力學(xué)習(xí)（texture-guided cross-attention learning）等優(yōu)化算法。

第三，算法與底層基建要綁定配合，聯(lián)合優(yōu)化。當(dāng)模型的體量足夠大，就需要用 3D 切割的方法從神經(jīng)網(wǎng)絡(luò)深度，寬度以及數(shù)據(jù) batch 的三個(gè)維度來(lái)切割神經(jīng)網(wǎng)絡(luò)，再分配到上千塊 GPU 上，在每個(gè) GPU 上進(jìn)行局部計(jì)算，就會(huì)涉及到非常多機(jī)器學(xué)習(xí)系統(tǒng)的問(wèn)題。比如在計(jì)算每一個(gè)分塊計(jì)算的全局結(jié)果時(shí)，需要把不同卡的計(jì)算結(jié)果結(jié)合起來(lái)。而這又會(huì)導(dǎo)致一個(gè)問(wèn)題 —— 每個(gè) GPU 上的子模型在相互通信時(shí)，帶寬要求會(huì)非常大。

然而，機(jī)器學(xué)習(xí)系統(tǒng)中通常是一個(gè) POD 內(nèi)的 P2P 通信帶寬很大，POD 之間的通信帶寬很小，因此商湯的研究團(tuán)隊(duì)專(zhuān)門(mén)針對(duì)這個(gè)問(wèn)題對(duì)神經(jīng)網(wǎng)絡(luò)的結(jié)構(gòu)進(jìn)行了特異性設(shè)計(jì)，讓只能在一個(gè) POD 內(nèi)通信的子模型盡量放在一個(gè) POD 里，而通信帶寬要求相對(duì)較小的一些模塊（比如不同的 experts）就放到不同的 POD 之間，這就可以讓大模型與商湯的 AI 大裝置進(jìn)行聯(lián)合優(yōu)化，以獲得更高的訓(xùn)練效率。

這三個(gè)技術(shù)要素讓商湯自研的文生圖大模型具備了更優(yōu)的文本理解能力和逼真的生成效果。在 prompt 比較詳細(xì)復(fù)雜的時(shí)候，該模型可以生成帶有故事性的逼真圖像。例如提供 prompt 讓模型生成皮卡丘和馬里奧打斗的場(chǎng)景：

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像——皮卡丘和馬里奧打斗。

在秒畫(huà)平臺(tái)上，商湯自研的文生圖大模型是一個(gè)基礎(chǔ)模型，B 端客戶(hù)僅用少量數(shù)據(jù)就可以迅速微調(diào)得到一個(gè)適用于下游任務(wù)的垂類(lèi)模型，大大降低了訓(xùn)練門(mén)檻。

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像。

獨(dú)具優(yōu)勢(shì)的文生圖平臺(tái)

除了商湯自研的文生圖大模型，秒畫(huà)還是一個(gè)可以導(dǎo)入其他開(kāi)源模型的平臺(tái)，被稱(chēng)為「模型超市」。

可從第三方平臺(tái)導(dǎo)入模型，并啟動(dòng)秒畫(huà) SenseMirage 平臺(tái)的模型編譯技術(shù)進(jìn)行推理加速的效果展示。

在秒畫(huà)平臺(tái)上，用戶(hù)可以一鍵導(dǎo)入 Hugging Face、Civitai、GitHub 等第三方社區(qū)的開(kāi)源模型，并且添加至用戶(hù)「我的模型庫(kù)」列表中，方便進(jìn)行體驗(yàn)，讓用戶(hù)免除本地化部署的繁瑣流程。

這是為了大幅降低 AI 作畫(huà)的商用門(mén)檻。對(duì)于一些中小型企業(yè)來(lái)說(shuō)，本地化部署大模型的成本是非常高的。硬件方面，訓(xùn)練垂類(lèi)模型需要搭建一定規(guī)模的 GPU 算力集群，還需要專(zhuān)業(yè)的技術(shù)團(tuán)隊(duì)，人力成本也是比較高的。

秒畫(huà)為商湯自研文生圖模型和開(kāi)源模型提供了一套算法框架和強(qiáng)大的算力基礎(chǔ)設(shè)施 ——AI 大裝置 SenseCore。B 端用戶(hù)可以直接在秒畫(huà)平臺(tái)上訓(xùn)練定制化的 LoRA 模型，基于現(xiàn)有商湯自研文生圖模型的高度泛化性，B 端用戶(hù)只需要拖拽 20 張左右圖片作為訓(xùn)練集，最低僅需 5 分鐘就能完成一個(gè)高質(zhì)量模型的訓(xùn)練。這讓中小型企業(yè)也能輕松擁有屬于自己的垂類(lèi)模型。

此外，秒畫(huà)還提供了特異性推理優(yōu)化服務(wù)，開(kāi)源模型導(dǎo)入后會(huì)自動(dòng)采用秒畫(huà)平臺(tái)底層的模型編譯技術(shù)進(jìn)行加速。借助這項(xiàng)加速技術(shù)，在本地 RTX 3070 顯卡上需要 10 秒生成的圖像，秒畫(huà)只要 2 秒的推理時(shí)間就可以生成。

總體來(lái)說(shuō)，秒畫(huà)是一個(gè)依托商湯 AI 大裝置 SenseCore 的 to B 文生圖平臺(tái)，它基于商湯自研的超 10 億參數(shù)文生圖大模型，也能一鍵導(dǎo)入第三方開(kāi)源模型，為 B 端客戶(hù)免去了本地化部署的繁瑣流程，并提供了簡(jiǎn)單快速的訓(xùn)練服務(wù)和推理加速功能。

打開(kāi) AIGC 的商業(yè)價(jià)值

隨著生成式 AI 模型迎來(lái)爆發(fā)式增長(zhǎng)，越來(lái)越多的人開(kāi)始探索 AIGC 的潛在應(yīng)用場(chǎng)景。不同于 to C 的應(yīng)用軟件，to B 的 AIGC 平臺(tái)需要為各行業(yè)找到合適的商業(yè)模式。

作為深耕 to B 業(yè)務(wù)的公司，商湯自去年開(kāi)始就為 B 端用戶(hù)提供定制化的文生圖模型，當(dāng)時(shí)的常見(jiàn)做法是根據(jù)用戶(hù)的需求為客戶(hù)訓(xùn)練并封裝成 SDK 來(lái)交付。這樣的業(yè)務(wù)積累也讓商湯有了構(gòu)建通用文生圖平臺(tái)的新思路，秒畫(huà)應(yīng)運(yùn)而生。

在文生圖領(lǐng)域，設(shè)計(jì)、營(yíng)銷(xiāo)、游戲動(dòng)畫(huà)等行業(yè)未來(lái)將成為 AI 作畫(huà)的主要應(yīng)用場(chǎng)景。作為 to B 的文生圖平臺(tái)，秒畫(huà)具備賦能這些行業(yè)的優(yōu)勢(shì)。

例如，對(duì)比同類(lèi)產(chǎn)品的生成效果，秒畫(huà)更適用于商業(yè)設(shè)計(jì)和產(chǎn)品營(yíng)銷(xiāo)。在下面這個(gè)生成汽車(chē)圖像的例子中，相比于 Stable Diffusion，商湯自研模型的生成結(jié)果更符合 prompt 中的「概念設(shè)計(jì)」和「水墨」這兩個(gè)關(guān)鍵詞。

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。

類(lèi)似地，在游戲動(dòng)畫(huà)行業(yè)，圖像的展現(xiàn)效果將直接影響產(chǎn)品的質(zhì)量，這對(duì)賦能該行業(yè)的 AIGC 工具提出了更高的要求，包括圖像生成效果和對(duì)文本的理解能力兩方面。以下圖生成「夢(mèng)幻的蝴蝶」為例，基于商湯自研模型的優(yōu)化技術(shù)，秒畫(huà)在圖像風(fēng)格、細(xì)節(jié)刻畫(huà)等方面都更符合行業(yè)要求。

“商湯秒畫(huà) SenseMirage”基于商湯自研 AIGC 模型生成的圖像與Stable Diffusion模型生成圖像對(duì)比。

一方面，秒畫(huà)為 B 端客戶(hù)大幅降低了文生圖垂類(lèi)模型的構(gòu)建門(mén)檻和商用成本；另一方面，秒畫(huà)也符合當(dāng)前主流 AI 作畫(huà)的應(yīng)用場(chǎng)景，提高了文生圖模型的實(shí)用價(jià)值。

在 AI 作畫(huà)賺足眼球的今天，秒畫(huà)平臺(tái)從賦能行業(yè)的角度出發(fā)，為 AIGC 打開(kāi)商業(yè)價(jià)值提供了一個(gè)新的思路。

最后，我們想說(shuō)，文生圖只是 AIGC 的方向之一。隨著生成式 AI 模型的迅速發(fā)展，AI 生成文本、AI 生成視頻等等多個(gè)領(lǐng)域都在加快應(yīng)用落地，AI 終將掀起內(nèi)容生產(chǎn)的新一輪變革。

上一篇北師大未來(lái)設(shè)計(jì)學(xué)院在第六屆中國(guó)教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 AI繪畫(huà)商用案例教程 | 用Midjourney兩小時(shí)做了兩套書(shū)籍封面設(shè)計(jì)

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

賺足眼球的AI作畫(huà)，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

請(qǐng)綁定手機(jī)號(hào)

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

賺足眼球的AI作畫(huà)，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案

請(qǐng)綁定手機(jī)號(hào)

賺足眼球的AI作畫(huà)，如何實(shí)現(xiàn)AIGC的價(jià)值，商湯給出了答案