當(dāng)前位置：首頁 >人工智能 >計(jì)算機(jī)行業(yè)AIGC:GPT-4v如何實(shí)現(xiàn)強(qiáng)大多模態(tài)，從文生圖到圖生文

計(jì)算機(jī)行業(yè)AIGC:GPT-4v如何實(shí)現(xiàn)強(qiáng)大多模態(tài)，從文生圖到圖生文

發(fā)布時(shí)間：2024-04-02 15:51:05 瀏覽量：200次

報(bào)告出品方：申萬宏源

以下為報(bào)告原文節(jié)選

------

1.海外 AI 應(yīng)用更新，集中體現(xiàn)多模態(tài)能力

近期，海外 AI 應(yīng)用催化較多：1）Open AI 升級(jí)了圖片、語音多模態(tài)能力，并即將應(yīng)用在最新 ChatGPT 中；2）微軟宣布本月底更新 AI Copilot 系統(tǒng)，全面集成 Open AI 模型能力。
1.1 Open AI 在 ChatGPT 中升級(jí)了圖片、語音多模態(tài)能力

9 月 25 日，Open AI 宣布即將發(fā)布新的多模態(tài)功能，包括圖像讀取與理解、語音對(duì)話和語音生成。ChatGPT 即將在兩周內(nèi)對(duì) Plus 用戶與企業(yè)用戶開放一系列新功能，其中圖文能力（如下圖）對(duì)全平臺(tái)開放，與 Chatgpt 語音對(duì)話的能力僅對(duì) ios 及安卓客戶端開放。

對(duì)話能力：通過語音直接對(duì) ChatGPT 對(duì)話，同時(shí) GPT 可以直接語音回復(fù)客戶，可選 5種定制聲音，支持 ios 和 Android 移動(dòng)應(yīng)用使用；圖像-文本能力：ChatGPT 除了文字之外，可以理解客戶上傳的圖片信息。GPT 能夠理解照片、圖片截圖、包含圖像的文檔等?？蛻艨梢陨蟼饕粡埢蛘叨鄰垐D片給系統(tǒng)，甚至可以用畫筆標(biāo)注重點(diǎn)內(nèi)容，讓系統(tǒng)讀取理解，可以用于輔導(dǎo)學(xué)生作業(yè)、搜索日常食譜等各個(gè)方向。
語音和圖像提供了更多在生活中使用 ChatGPT 的方式。例如在旅行時(shí)拍攝地標(biāo)的照片，并就其進(jìn)行實(shí)時(shí)對(duì)話問答；拍攝冰箱和食品儲(chǔ)藏室的照片，以確定晚餐的食物（并詢問后續(xù)問題以獲取分步食譜）；通過直接拍攝家庭作業(yè)照片來獲得解答，或分析與工作相關(guān)的數(shù)據(jù)的復(fù)雜圖表。

此前，OPEN AI 也升級(jí)了 DALL?E 3 模型能力。新的 DALL·E 模型與 ChatGPT 能力合并，畫作更加細(xì)膩，同時(shí)可以不用 prompt，準(zhǔn)確還原細(xì)節(jié)，并且為圖片配上文字。Plus和企業(yè)版用戶通過文本就能直接在 ChatGPT 中生成各種類型圖片，不僅加強(qiáng)提示詞的生成圖像體驗(yàn)，而且增強(qiáng)模型理解用戶指令的能力，圖像效果也有提升。

更好的掌握用戶提出的每一個(gè)描述。例如上圖，“享受夜間生活的行人”“滿月的光輝”“蒸汽朋克電話”“和怒氣沖沖的老商人討價(jià)還價(jià)”等多個(gè)較難以體現(xiàn)的細(xì)節(jié)描述，都體現(xiàn)在圖畫中。
同時(shí)可以對(duì)生成內(nèi)容進(jìn)行多輪自然語言對(duì)話編輯。例如讓 DALL-E 模型生成多個(gè)刺猬圖片，選出其中一只取名為 Larry，并要求模型生成更多 Larry 圖片，甚至可以詢問模型“為什么 Larry 這么可愛”，模型可以做出文字解答，期間完成了 5 輪對(duì)話和修改。
1.2 GPT-4V 的使用方法、工作模式、任務(wù)能力

微軟在 Open AI 發(fā)布后，公布了 GPT-4V 詳細(xì)測評(píng)《 The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)》。
5 種使用方式：輸入圖像（images）、子圖像（sub-images）、文本（texts）、場景文本（scene texts）和視覺指針（visual pointers）。即同時(shí)支持純圖像輸入、也支持圖像、文本交互輸入、同時(shí)也可以對(duì)圖片進(jìn)行指向性提示（例如畫箭頭、畫圈）?；旧虾w了圖-文多模態(tài)的每個(gè)場景。

3 種支持的能力：指令遵循（instruction following）、思維鏈（chain-of-thoughts）、上下文少樣本學(xué)習(xí)（in-context few-shot learning）。

此外，微軟也展示了 GPT-4V 的多項(xiàng)基本能力：1）視覺-語言能力；2）與人類的互動(dòng)：視覺參考提示；3）時(shí)間和視頻理解；4）其它，包括智商測試、情商測試，以及創(chuàng)新場景應(yīng)用。
1）視覺-語言能力：除常見的人物、地標(biāo)等識(shí)別外，GPT-4V 還可以理解人和物體間的關(guān)系，計(jì)數(shù)、生成字幕和描述，解釋笑話，回答科學(xué)問題，根據(jù)手寫數(shù)學(xué)方程生成 LaTeX代碼等。

2）與人類的互動(dòng)：視覺參考提示。在與多模態(tài)系統(tǒng)的人機(jī)交互中，指向特定空間位置是一項(xiàng)基本能力，例如進(jìn)行基于視覺的對(duì)話。

3）時(shí)間和視頻理解：多圖像序列、視頻理解、基于時(shí)間理解的視覺參考提示。輸入視頻的幾個(gè)關(guān)鍵幀，可以理解事件前后關(guān)聯(lián)。

4）視覺推理、智商、情商測試等，此外 GPT-4v 還可以用于工業(yè)、醫(yī)藥、汽車保險(xiǎn)、具身智能、GUI 交互等。

整體來看，GPT-4V：1）展現(xiàn)出強(qiáng)大的混合輸入能力，并且可以較好的支持 LLM 中觀察到的 test-time 技術(shù)，包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等；

2）在不同領(lǐng)域人物中完成度和通用性都較強(qiáng)，包括開放世界視覺理解、視覺描述、多模態(tài)知識(shí)、常識(shí)、場景文本理解、文檔推理、編碼、時(shí)間推理、抽象推理、情感理解等；

3）像素級(jí)編輯能力擴(kuò)展了 4V 的使用邊界；

4）4V 出現(xiàn)后人工智能應(yīng)用空間進(jìn)一步打開，包括工業(yè)、醫(yī)療、金融、具身智能等多個(gè)產(chǎn)品都看到應(yīng)用可能。
1.3 微軟 AI Copilot 系統(tǒng)更新，Office Copilot 辦公能力即將發(fā)布

AI Copilot 9 月 26 日起發(fā)布，Office Copilot 11 月 1 日起大范圍開放。1）9 月 21日，微軟更新AI Copilot 功能，并宣布Copilot 功能將自9 月26 日起，隨著更新的 Windows11 以初期版本形式免費(fèi)更新，支持在多個(gè) APP 和設(shè)備運(yùn)行；2）Office Copilot 將于 11月 1 日開始大范圍開放，此前 7 月，微軟曾表示將把 Copilot 的價(jià)格定在每人每月 30 美元，這是傳統(tǒng) Office 365 訂閱價(jià)格之外的額外費(fèi)用。
這次 Win 11 版本更新了超過 150 個(gè)新功能，新版本中 AI Copilot 既可以始終顯示在任務(wù)欄上，也可以通過 Win+C 的快捷鍵啟動(dòng)。新功能包括為 Windows PC 帶來Copilot 功能以及畫圖、照片、Clipchamp 等應(yīng)用。必應(yīng)將增加對(duì) OpenAI 最新 DALL?E 3 模型的支持。

我們認(rèn)為，本次發(fā)布的 AI Copilot/Office Copilot 亮點(diǎn)包括：

1、圖像能力顯著提升：正式加入 DALL?E 3 模型，新增圖文生成、圖片理解、AI編輯 P 圖等功能。
此前 Open AI 發(fā)布了第三代 AI 繪圖工具 DALL?E 3，集成了 ChatGPT，用戶不需要在 prompt 上多費(fèi)時(shí)間就能生成圖像。相比上一代，DALL?E 3 提供了更強(qiáng)的細(xì)節(jié)渲染，還可以更好地理解要求，提供更準(zhǔn)確的圖像。

同時(shí)微軟必應(yīng)中也集成了這一 AI 設(shè) 計(jì)工具 Microsoft Designer。用戶在使用Designer 可在通過拖曳、prompt 等簡單操作直接將原始畫質(zhì)圖像添加到自己的設(shè)計(jì)中。
比如使用本地圖片設(shè)計(jì)封面，并直接執(zhí)行消除背景等操作，或通過 AI 創(chuàng)作圖片內(nèi)容對(duì)圖像進(jìn)行延申。

此外，基于 DALL?E 3，微軟更新了 Bing 搜索引擎和 Edge 瀏覽器的 AI 功能。例如在購物中，以圖識(shí)圖搜索商品細(xì)節(jié)，根據(jù)網(wǎng)絡(luò)上的買家評(píng)論，結(jié)合優(yōu)惠券和促銷打折碼幫忙尋找合適的產(chǎn)品和最優(yōu)惠價(jià)格。
同時(shí)，微軟通過加密方法向 Bing 中所有 AIGC 圖像添加“內(nèi)容憑證”（Content Credentials）。即一種不可見的數(shù)字水印，包括最初的創(chuàng)建時(shí)間和日期。
2、AI Copilot 升級(jí)了多端和團(tuán)隊(duì)協(xié)同能力。
AI Copilot 支持下，Outlook for Windows 可連接到谷歌、蘋果等不同公司的多個(gè)（云端）賬戶。文件管理器 File Explorer 的主頁、地址欄和搜索框能直接訪問重要且相關(guān)的內(nèi)容，無需打開文件便可進(jìn)行協(xié)作。備份 Backup 功能可將大多數(shù)文件、應(yīng)用程序和個(gè)性化設(shè)置等從一臺(tái) Windows 電腦無縫轉(zhuǎn)移到另一臺(tái)上。
Copilot 還可從用戶手機(jī)（例如短信）中獲取內(nèi)容，導(dǎo)入 Win11 系統(tǒng)。假設(shè)用戶要給家人發(fā)送航班時(shí)刻表，Copilot 會(huì)根據(jù)要求將數(shù)據(jù)導(dǎo)入電腦桌面上，無需拿出手機(jī)就可完成信息發(fā)送。
3、集合展示了 word、excel、ppt、OneNote 中的 copilot 能力。
本次發(fā)布會(huì)展示的辦公軟件插件能力與此前多次發(fā)布并無較大差異。仍然包括：Word：文檔摘要、重寫內(nèi)容、調(diào)整語氣、從副本中生成表格等。
Excel：通過自然語言 Prompt 實(shí)現(xiàn)數(shù)據(jù)可視化、添加計(jì)算公式等。
OneNote：對(duì) note 提出較為綜合的問題、生成摘要、文章快速編輯等。

基于以上，本次增加了辦公軟件 AI 助手功能：Microsoft 365 Chat?？墒崂砉ぷ髦械母鱾€(gè)數(shù)據(jù)領(lǐng)域信息，包括電子郵件、會(huì)議、聊天記錄、文檔以及網(wǎng)絡(luò)信息。Microsoft 365Copilot 企業(yè)版將提取用戶的企業(yè)數(shù)據(jù)來幫助撰寫電子郵件、規(guī)劃活動(dòng)等。
我們認(rèn)為，本次發(fā)布會(huì)相對(duì)超預(yù)期的點(diǎn)包括：1）展示了 AI 能力在 Windows 操作系統(tǒng)中的全局管理能力；2）融合圖片大模型 DALL?E 3 基礎(chǔ)，從純文本能力升級(jí)到文本-圖片多模態(tài)，同時(shí)圖片 AIGC 水平遠(yuǎn)超前一代；3）明確 Win11 更新免費(fèi)，可以使更多人體驗(yàn) AI Copilot；4）對(duì) Office Copilot 發(fā)布給定明確時(shí)間。
但同時(shí)，我們認(rèn)為目前發(fā)布也存在爭議點(diǎn)，包括：1）Office Copilot 體現(xiàn)出的能力、尤其語言文字理解能力相比于 3 月發(fā)布并無顯著優(yōu)勢；2）而 Office Copilot 定價(jià) 30 美金/月，能否體現(xiàn)增量價(jià)值有待商榷；2）部分 Win 系統(tǒng)中通過 AI 操作調(diào)用需要大量 Prompt，便捷性需要驗(yàn)證。

2.多模態(tài)原理解析：從文生圖到圖生文

2022 年后，隨著 Transformer 技術(shù)的發(fā)展，Transformer 也使用在了 CV 領(lǐng)域，并形成了 Vision Transformer 技術(shù)。2023 年后，基于 Transformer 的多模態(tài)大模型出現(xiàn)，AI 大模型應(yīng)用新的空間打開。

2.1 文生圖：最先成熟的 AIGC 應(yīng)用，核心在 CLIP

DALL·E：基于 CLIP，可以按照文字描述、生成對(duì)應(yīng)圖片。DALL·E 是 OpenAI 2021年發(fā)布的多模態(tài)-文生圖模型，DALL·E 基于 GPT-3，經(jīng)過文本-圖像數(shù)據(jù)集訓(xùn)練，有 120億參數(shù)。

Dall-E 一代的創(chuàng)新點(diǎn)：CLIP 形成文字和圖片對(duì)照。
1）在文字輸入部分，仍然使用了與 GPE-3 類似的 transformer 語言模型，且參數(shù)量大幅降低。
DALL·E 有 12B 參數(shù)，相比 GPT-3 的 175B 大幅降低，該模型是在 250M 圖像-文本對(duì)的數(shù)據(jù)集上訓(xùn)練的。訓(xùn)練后的模型根據(jù)提供的文本生成了幾個(gè)樣本（最多 512 個(gè)），然后再由 CLIP 進(jìn)行排序。
2）CLIP，暴力美學(xué)下的文本-圖像對(duì)應(yīng)工具，DALL-E 的最大創(chuàng)新點(diǎn)。
CLIP（Contrastive Language-Image Pre-Training）用于將相關(guān)文本和圖像對(duì)應(yīng)，背后思路簡單，Open AI 從網(wǎng)上爬蟲，抓取已經(jīng)有過描述的文本-圖像數(shù)據(jù)集，但是數(shù)據(jù)集規(guī)模達(dá)到了 4 億。

然后在數(shù)據(jù)集上訓(xùn)練對(duì)比模型。對(duì)比模型可以給來自同一對(duì)的圖像和文本產(chǎn)生高相似度得分，而對(duì)不匹配的文本和圖像產(chǎn)生低分。如下圖左對(duì)比式無監(jiān)督預(yù)訓(xùn)練。

--- 報(bào)告摘錄結(jié)束更多內(nèi)容請閱讀報(bào)告原文 ---

報(bào)告合集專題一覽 X 由【報(bào)告派】定期整理更新

（特別說明：本文來源于公開資料，摘錄內(nèi)容僅供參考，不構(gòu)成任何投資建議，如需使用請參閱報(bào)告原文。）

精選報(bào)告來源：報(bào)告派

科技 / 電子 / 半導(dǎo)體 /

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇二舅都能看懂的AIGC賦能UI設(shè)計(jì)教程丨Midjourney教程

熱門課程推薦

熱門資訊

1. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
2. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果，這4個(gè)方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢吧！
9. 10個(gè)建筑AI工具，從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的

講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

計(jì)算機(jī)行業(yè)AIGC:GPT-4v如何實(shí)現(xiàn)強(qiáng)大多模態(tài)，從文生圖到圖生文

精選報(bào)告來源：報(bào)告派

請綁定手機(jī)號(hào)