發(fā)布時(shí)間:2024-04-02 15:51:05 瀏覽量:200次
報(bào)告出品方:申萬宏源
以下為報(bào)告原文節(jié)選
------
1.海外 AI 應(yīng)用更新,集中體現(xiàn)多模態(tài)能力
近期,海外 AI 應(yīng)用催化較多:1)Open AI 升級(jí)了圖片、語音多模態(tài)能力,并即將應(yīng)用在最新 ChatGPT 中;2)微軟宣布本月底更新 AI Copilot 系統(tǒng),全面集成 Open AI 模型能力。
1.1 Open AI 在 ChatGPT 中升級(jí)了圖片、語音多模態(tài)能力
9 月 25 日,Open AI 宣布即將發(fā)布新的多模態(tài)功能,包括圖像讀取與理解、語音對(duì)話和語音生成。ChatGPT 即將在兩周內(nèi)對(duì) Plus 用戶與企業(yè)用戶開放一系列新功能,其中圖文能力(如下圖)對(duì)全平臺(tái)開放,與 Chatgpt 語音對(duì)話的能力僅對(duì) ios 及安卓客戶端開放。

對(duì)話能力:通過語音直接對(duì) ChatGPT 對(duì)話,同時(shí) GPT 可以直接語音回復(fù)客戶,可選 5種定制聲音,支持 ios 和 Android 移動(dòng)應(yīng)用使用;圖像-文本能力:ChatGPT 除了文字之外,可以理解客戶上傳的圖片信息。GPT 能夠理解照片、圖片截圖、包含圖像的文檔等??蛻艨梢陨蟼饕粡埢蛘叨鄰垐D片給系統(tǒng),甚至可以用畫筆標(biāo)注重點(diǎn)內(nèi)容,讓系統(tǒng)讀取理解,可以用于輔導(dǎo)學(xué)生作業(yè)、搜索日常食譜等各個(gè)方向。
語音和圖像提供了更多在生活中使用 ChatGPT 的方式。例如在旅行時(shí)拍攝地標(biāo)的照片,并就其進(jìn)行實(shí)時(shí)對(duì)話問答;拍攝冰箱和食品儲(chǔ)藏室的照片,以確定晚餐的食物(并詢問后續(xù)問題以獲取分步食譜);通過直接拍攝家庭作業(yè)照片來獲得解答,或分析與工作相關(guān)的數(shù)據(jù)的復(fù)雜圖表。

此前,OPEN AI 也升級(jí)了 DALL?E 3 模型能力。新的 DALL·E 模型與 ChatGPT 能力合并,畫作更加細(xì)膩,同時(shí)可以不用 prompt,準(zhǔn)確還原細(xì)節(jié),并且為圖片配上文字。Plus和企業(yè)版用戶通過文本就能直接在 ChatGPT 中生成各種類型圖片,不僅加強(qiáng)提示詞的生成圖像體驗(yàn),而且增強(qiáng)模型理解用戶指令的能力,圖像效果也有提升。

更好的掌握用戶提出的每一個(gè)描述。例如上圖,“享受夜間生活的行人”“滿月的光輝”“蒸汽朋克電話”“和怒氣沖沖的老商人討價(jià)還價(jià)”等多個(gè)較難以體現(xiàn)的細(xì)節(jié)描述,都體現(xiàn)在圖畫中。
同時(shí)可以對(duì)生成內(nèi)容進(jìn)行多輪自然語言對(duì)話編輯。例如讓 DALL-E 模型生成多個(gè)刺猬圖片,選出其中一只取名為 Larry,并要求模型生成更多 Larry 圖片,甚至可以詢問模型“為什么 Larry 這么可愛”,模型可以做出文字解答,期間完成了 5 輪對(duì)話和修改。
1.2 GPT-4V 的使用方法、工作模式、任務(wù)能力
微軟在 Open AI 發(fā)布后,公布了 GPT-4V 詳細(xì)測評(píng)《 The Dawn of LMMs:Preliminary Explorations with GPT-4V(ision)》。
5 種使用方式:輸入圖像(images)、子圖像(sub-images)、文本(texts)、場景文本(scene texts)和視覺指針(visual pointers)。即同時(shí)支持純圖像輸入、也支持圖像、文本交互輸入、同時(shí)也可以對(duì)圖片進(jìn)行指向性提示(例如畫箭頭、畫圈)?;旧虾w了圖-文多模態(tài)的每個(gè)場景。

3 種支持的能力:指令遵循(instruction following)、思維鏈(chain-of-thoughts)、上下文少樣本學(xué)習(xí)(in-context few-shot learning)。


此外,微軟也展示了 GPT-4V 的多項(xiàng)基本能力:1)視覺-語言能力;2)與人類的互動(dòng):視覺參考提示;3)時(shí)間和視頻理解;4)其它,包括智商測試、情商測試,以及創(chuàng)新場景應(yīng)用。
1)視覺-語言能力:除常見的人物、地標(biāo)等識(shí)別外,GPT-4V 還可以理解人和物體間的關(guān)系,計(jì)數(shù)、生成字幕和描述,解釋笑話,回答科學(xué)問題,根據(jù)手寫數(shù)學(xué)方程生成 LaTeX代碼等。

2)與人類的互動(dòng):視覺參考提示。在與多模態(tài)系統(tǒng)的人機(jī)交互中,指向特定空間位置是一項(xiàng)基本能力,例如進(jìn)行基于視覺的對(duì)話。


3)時(shí)間和視頻理解:多圖像序列、視頻理解、基于時(shí)間理解的視覺參考提示。輸入視頻的幾個(gè)關(guān)鍵幀,可以理解事件前后關(guān)聯(lián)。

4)視覺推理、智商、情商測試等,此外 GPT-4v 還可以用于工業(yè)、醫(yī)藥、汽車保險(xiǎn)、具身智能、GUI 交互等。


整體來看,GPT-4V:1)展現(xiàn)出強(qiáng)大的混合輸入能力,并且可以較好的支持 LLM 中觀察到的 test-time 技術(shù),包括指令跟隨、思維鏈、上下文少樣本學(xué)習(xí)等;
2)在不同領(lǐng)域人物中完成度和通用性都較強(qiáng),包括開放世界視覺理解、視覺描述、多模態(tài)知識(shí)、常識(shí)、場景文本理解、文檔推理、編碼、時(shí)間推理、抽象推理、情感理解等;
3)像素級(jí)編輯能力擴(kuò)展了 4V 的使用邊界;
4)4V 出現(xiàn)后人工智能應(yīng)用空間進(jìn)一步打開,包括工業(yè)、醫(yī)療、金融、具身智能等多個(gè)產(chǎn)品都看到應(yīng)用可能。
1.3 微軟 AI Copilot 系統(tǒng)更新,Office Copilot 辦公能力即將發(fā)布
AI Copilot 9 月 26 日起發(fā)布,Office Copilot 11 月 1 日起大范圍開放。1)9 月 21日,微軟更新AI Copilot 功能,并宣布Copilot 功能將自9 月26 日起,隨著更新的 Windows11 以初期版本形式免費(fèi)更新,支持在多個(gè) APP 和設(shè)備運(yùn)行;2)Office Copilot 將于 11月 1 日開始大范圍開放,此前 7 月,微軟曾表示將把 Copilot 的價(jià)格定在每人每月 30 美元,這是傳統(tǒng) Office 365 訂閱價(jià)格之外的額外費(fèi)用。
這次 Win 11 版本更新了超過 150 個(gè)新功能,新版本中 AI Copilot 既可以始終顯示在任務(wù)欄上,也可以通過 Win+C 的快捷鍵啟動(dòng)。新功能包括為 Windows PC 帶來Copilot 功能以及畫圖、照片、Clipchamp 等應(yīng)用。必應(yīng)將增加對(duì) OpenAI 最新 DALL?E 3 模型的支持。
我們認(rèn)為,本次發(fā)布的 AI Copilot/Office Copilot 亮點(diǎn)包括:
1、圖像能力顯著提升:正式加入 DALL?E 3 模型,新增圖文生成、圖片理解、AI編輯 P 圖等功能。
此前 Open AI 發(fā)布了第三代 AI 繪圖工具 DALL?E 3,集成了 ChatGPT,用戶不需要在 prompt 上多費(fèi)時(shí)間就能生成圖像。相比上一代,DALL?E 3 提供了更強(qiáng)的細(xì)節(jié)渲染,還可以更好地理解要求,提供更準(zhǔn)確的圖像。

同時(shí)微軟 必應(yīng)中 也集成了 這一 AI 設(shè) 計(jì)工具 Microsoft Designer。用戶在使用Designer 可在通過拖曳、prompt 等簡單操作直接將原始畫質(zhì)圖像添加到自己的設(shè)計(jì)中。
比如使用本地圖片設(shè)計(jì)封面,并直接執(zhí)行消除背景等操作,或通過 AI 創(chuàng)作圖片內(nèi)容對(duì)圖像進(jìn)行延申。

此外,基于 DALL?E 3,微軟更新了 Bing 搜索引擎和 Edge 瀏覽器的 AI 功能。例如在購物中,以圖識(shí)圖搜索商品細(xì)節(jié),根據(jù)網(wǎng)絡(luò)上的買家評(píng)論,結(jié)合優(yōu)惠券和促銷打折碼幫忙尋找合適的產(chǎn)品和最優(yōu)惠價(jià)格。
同時(shí),微軟通過加密方法向 Bing 中所有 AIGC 圖像添加“內(nèi)容憑證”(Content Credentials)。即一種不可見的數(shù)字水印,包括最初的創(chuàng)建時(shí)間和日期。
2、AI Copilot 升級(jí)了多端和團(tuán)隊(duì)協(xié)同能力。
AI Copilot 支持下,Outlook for Windows 可連接到谷歌、蘋果等不同公司的多個(gè)(云端)賬戶。文件管理器 File Explorer 的主頁、地址欄和搜索框能直接訪問重要且相關(guān)的內(nèi)容,無需打開文件便可進(jìn)行協(xié)作。備份 Backup 功能可將大多數(shù)文件、應(yīng)用程序和個(gè)性化設(shè)置等從一臺(tái) Windows 電腦無縫轉(zhuǎn)移到另一臺(tái)上。
Copilot 還可從用戶手機(jī)(例如短信)中獲取內(nèi)容,導(dǎo)入 Win11 系統(tǒng)。假設(shè)用戶要給家人發(fā)送航班時(shí)刻表,Copilot 會(huì)根據(jù)要求將數(shù)據(jù)導(dǎo)入電腦桌面上,無需拿出手機(jī)就可完成信息發(fā)送。
3、集合展示了 word、excel、ppt、OneNote 中的 copilot 能力。
本次發(fā)布會(huì)展示的辦公軟件插件能力與此前多次發(fā)布并無較大差異。仍然包括:Word:文檔摘要、重寫內(nèi)容、調(diào)整語氣、從副本中生成表格等。
Excel:通過自然語言 Prompt 實(shí)現(xiàn)數(shù)據(jù)可視化、添加計(jì)算公式等。
OneNote:對(duì) note 提出較為綜合的問題、生成摘要、文章快速編輯等。

基于以上,本次增加了辦公軟件 AI 助手功能:Microsoft 365 Chat??墒崂砉ぷ髦械母鱾€(gè)數(shù)據(jù)領(lǐng)域信息,包括電子郵件、會(huì)議、聊天記錄、文檔以及網(wǎng)絡(luò)信息。Microsoft 365Copilot 企業(yè)版將提取用戶的企業(yè)數(shù)據(jù)來幫助撰寫電子郵件、規(guī)劃活動(dòng)等。
我們認(rèn)為,本次發(fā)布會(huì)相對(duì)超預(yù)期的點(diǎn)包括:1)展示了 AI 能力在 Windows 操作系統(tǒng)中的全局管理能力;2)融合圖片大模型 DALL?E 3 基礎(chǔ),從純文本能力升級(jí)到文本-圖片多模態(tài),同時(shí)圖片 AIGC 水平遠(yuǎn)超前一代;3)明確 Win11 更新免費(fèi),可以使更多人體驗(yàn) AI Copilot;4)對(duì) Office Copilot 發(fā)布給定明確時(shí)間。
但同時(shí),我們認(rèn)為目前發(fā)布也存在爭議點(diǎn),包括:1)Office Copilot 體現(xiàn)出的能力、尤其語言文字理解能力相比于 3 月發(fā)布并無顯著優(yōu)勢;2)而 Office Copilot 定價(jià) 30 美金/月,能否體現(xiàn)增量價(jià)值有待商榷;2)部分 Win 系統(tǒng)中通過 AI 操作調(diào)用需要大量 Prompt,便捷性需要驗(yàn)證。
2.多模態(tài)原理解析:從文生圖到圖生文
2022 年后,隨著 Transformer 技術(shù)的發(fā)展,Transformer 也使用在了 CV 領(lǐng)域,并形成了 Vision Transformer 技術(shù)。2023 年后,基于 Transformer 的多模態(tài)大模型出現(xiàn),AI 大模型應(yīng)用新的空間打開。

2.1 文生圖:最先成熟的 AIGC 應(yīng)用,核心在 CLIP
DALL·E:基于 CLIP,可以按照文字描述、生成對(duì)應(yīng)圖片。DALL·E 是 OpenAI 2021年發(fā)布的多模態(tài)-文生圖模型,DALL·E 基于 GPT-3,經(jīng)過文本-圖像數(shù)據(jù)集訓(xùn)練,有 120億參數(shù)。

Dall-E 一代的創(chuàng)新點(diǎn):CLIP 形成文字和圖片對(duì)照。
1)在文字輸入部分,仍然使用了與 GPE-3 類似的 transformer 語言模型,且參數(shù)量大幅降低。
DALL·E 有 12B 參數(shù),相比 GPT-3 的 175B 大幅降低,該模型是在 250M 圖像-文本對(duì)的數(shù)據(jù)集上訓(xùn)練的。訓(xùn)練后的模型根據(jù)提供的文本生成了幾個(gè)樣本(最多 512 個(gè)),然后再由 CLIP 進(jìn)行排序。
2)CLIP,暴力美學(xué)下的文本-圖像對(duì)應(yīng)工具,DALL-E 的最大創(chuàng)新點(diǎn)。
CLIP(Contrastive Language-Image Pre-Training)用于將相關(guān)文本和圖像對(duì)應(yīng),背后思路簡單,Open AI 從網(wǎng)上爬蟲,抓取已經(jīng)有過描述的文本-圖像數(shù)據(jù)集,但是數(shù)據(jù)集規(guī)模達(dá)到了 4 億。

然后在數(shù)據(jù)集上訓(xùn)練對(duì)比模型。對(duì)比模型可以給來自同一對(duì)的圖像和文本產(chǎn)生高相似度得分,而對(duì)不匹配的文本和圖像產(chǎn)生低分。如下圖左對(duì)比式無監(jiān)督預(yù)訓(xùn)練。

--- 報(bào)告摘錄結(jié)束 更多內(nèi)容請閱讀報(bào)告原文 ---
報(bào)告合集專題一覽 X 由【報(bào)告派】定期整理更新
(特別說明:本文來源于公開資料,摘錄內(nèi)容僅供參考,不構(gòu)成任何投資建議,如需使用請參閱報(bào)告原文。)
科技 / 電子 / 半導(dǎo)體 /
人工智能 | Ai產(chǎn)業(yè) | Ai芯片 | 智能家居 | 智能音箱 | 智能語音 | 智能家電 | 智能照明 | 智能馬桶 | 智能終端 | 智能門鎖 | 智能手機(jī) | 可穿戴設(shè)備 |半導(dǎo)體 | 芯片產(chǎn)業(yè) | 第三代半導(dǎo)體 | 藍(lán)牙 | 晶圓 | 功率半導(dǎo)體 | 5G | GA射頻 | IGBT | SIC GA | SIC GAN | 分立器件 | 化合物 | 晶圓 | 封裝封測 | 顯示器 | LED | OLED | LED封裝 | LED芯片 | LED照明 | 柔性折疊屏 | 電子元器件 | 光電子 | 消費(fèi)電子 | 電子FPC | 電路板 | 集成電路 | 元宇宙 | 區(qū)塊鏈 | NFT數(shù)字藏品 | 虛擬貨幣 | 比特幣 | 數(shù)字貨幣 | 資產(chǎn)管理 | 保險(xiǎn)行業(yè) | 保險(xiǎn)科技 | 財(cái)產(chǎn)保險(xiǎn) |
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果,這4個(gè)方法操作簡單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實(shí)現(xiàn),快來嘗試一下吧!
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢吧!
9. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!