發(fā)布時(shí)間:2023-11-28 14:55:10 瀏覽量:137次
彌合真實(shí)世界與抽象語(yǔ)義之間的鴻溝
我們希望人工智能能夠像人類一樣,從現(xiàn)實(shí)世界的視頻、音頻等媒介中獲得知識(shí)和智能。為了實(shí)現(xiàn)這一目標(biāo),我們需要將復(fù)雜而含有噪音的現(xiàn)實(shí)世界,轉(zhuǎn)化為能夠捕獲世界本質(zhì)信息和動(dòng)態(tài)變化的抽象表示。微軟亞洲研究院正在探索多媒體與人工智能的協(xié)同發(fā)展,從對(duì)媒體基礎(chǔ)(Media Foundation)的創(chuàng)新研究中找到新的突破口,這一探索將為多模態(tài)大模型的研究帶來(lái)新的思路。
——呂巖,微軟亞洲研究院全球研究合伙人
呂巖
自1956年達(dá)特茅斯會(huì)議提出“人工智能”一詞,人類足足用了近70年的時(shí)間,才積累了足夠的技術(shù)和資源促成人工智能的爆發(fā)。而當(dāng)我們跨過(guò)“臨界點(diǎn)”,大語(yǔ)言模型(LLMs)在自然語(yǔ)言理解、語(yǔ)音識(shí)別、圖像生成等方面展現(xiàn)出的一系列巨大進(jìn)步令人目不暇接。隨著ChatGPT、DALL-E等應(yīng)用的出現(xiàn),我們看到人工智能開(kāi)始展現(xiàn)出更復(fù)雜的能力,比如觀察、學(xué)習(xí)和理解真實(shí)世界,并進(jìn)一步實(shí)現(xiàn)推理和創(chuàng)造。
如今我們對(duì)人工智能有了更高的期待。我們不僅希望人工智能能夠進(jìn)行創(chuàng)作,也希望它能如同人類一樣,通過(guò)各種渠道從真實(shí)世界中獲取知識(shí)、實(shí)現(xiàn)成長(zhǎng)。然而人工智能與人類的認(rèn)知能力還有很大的差距:人腦能夠接收和解析物理世界的絕大多數(shù)現(xiàn)象,如視頻、聲音、語(yǔ)言、文字等,并將其抽象為可保存和積累的信息、知識(shí)或技能。而能完成通用任務(wù)的多模態(tài)人工智能模型,卻還處在蹣跚學(xué)步的早期階段。
我們希望人工智能能夠從現(xiàn)實(shí)世界的數(shù)據(jù)中進(jìn)行學(xué)習(xí)和迭代。然而如何在復(fù)雜且充滿噪聲的真實(shí)世界和人工智能所處在的抽象語(yǔ)義世界之間架起橋梁呢?是否可以為不同類型媒體信息構(gòu)建與自然語(yǔ)言平行的,另一種可被人工智能學(xué)習(xí)理解的語(yǔ)言?我認(rèn)為這是非常值得探索的方向。我和微軟亞洲研究院的同事們正致力于從神經(jīng)編解碼器(Neural Codec)入手,構(gòu)建一個(gè)全面的媒體基礎(chǔ)(Media Foundation)框架,通過(guò)提取真實(shí)世界中不同媒體內(nèi)容的表征,形成可被人工智能理解的語(yǔ)義,從而彌合真實(shí)世界與抽象語(yǔ)義之間的鴻溝,為多模態(tài)人工智能研究開(kāi)啟一扇新的大門。
人類之所以能成為無(wú)出其右的卓越“學(xué)習(xí)者”,是因?yàn)槿祟惸芡ㄟ^(guò)視覺(jué)、聽(tīng)覺(jué)、觸覺(jué)和語(yǔ)言等多種方式來(lái)觀察物理世界并與之互動(dòng),從中汲取廣泛的技能和知識(shí),從而不斷提高我們的智能水平。我們希望能將人類的這一特征“復(fù)制”到人工智能身上,使其能夠從豐富的真實(shí)世界數(shù)據(jù)中進(jìn)行學(xué)習(xí)和迭代。
目前絕大多數(shù)人工智能大模型的基座模型都建立在大語(yǔ)言模型之上,通過(guò)抽象、緊湊的文本表達(dá)來(lái)獲得對(duì)世界的認(rèn)知。雖然人們陸續(xù)研發(fā)出針對(duì)不同媒體形式的預(yù)訓(xùn)練模型,但它們并不能充分反映真實(shí)世界的動(dòng)態(tài)變化。來(lái)自物理世界的視頻和音頻信號(hào)是復(fù)雜且充滿噪聲的,我們需要找到一種有效方法,將其轉(zhuǎn)換為能夠捕獲真實(shí)世界本質(zhì)信息和動(dòng)態(tài)變化的抽象表示。
過(guò)去一段時(shí)間,我和微軟亞洲研究院的同事們一直在探索與大語(yǔ)言模型平行的人工智能發(fā)展之路。多媒體研究立足于捕捉、壓縮、解釋、重構(gòu)和生成各種模態(tài)的媒體中的豐富信息,如圖像、視頻、音頻和文本等,并自然而然地將復(fù)雜而嘈雜的真實(shí)世界轉(zhuǎn)化為一種抽象表示。我們希望這種抽象表示具有三方面的特性:富有語(yǔ)義、緊湊的大小和信息的完整保留。如果能在該領(lǐng)域有所突破,是否就可以為視頻、音頻等多媒體信號(hào)和抽象且語(yǔ)義化的人工智能模型之間搭建橋梁?
于是我們產(chǎn)生了這樣的想法:建立一個(gè)全面的媒體基礎(chǔ)框架,通過(guò)神經(jīng)編解碼器,將不同模態(tài)的媒體信號(hào)轉(zhuǎn)換為緊湊且語(yǔ)義化的表征標(biāo)記,從而構(gòu)建真實(shí)世界及其動(dòng)態(tài)變化的抽象表示。

我們構(gòu)想的媒體基礎(chǔ)由兩個(gè)組件組成:在線媒體表征標(biāo)記和離線基座模型。其中,在線媒體表征標(biāo)記模型可以動(dòng)態(tài)地將多媒體信息轉(zhuǎn)換為緊湊抽象的語(yǔ)義表示,以供人工智能觀察現(xiàn)實(shí)世界并與之交互。而離線基座模型可以由現(xiàn)實(shí)世界中提取的媒體表征標(biāo)記來(lái)離線構(gòu)建,并通過(guò)離線學(xué)習(xí)的知識(shí)預(yù)測(cè)動(dòng)態(tài)變化。無(wú)論人工智能用來(lái)學(xué)習(xí)的是語(yǔ)言文本,還是音頻或視頻,盡可能實(shí)現(xiàn)無(wú)損的壓縮都是其智能的源泉。
從本質(zhì)上講,整個(gè)媒體基礎(chǔ)框架可被視為一種更廣泛意義上的神經(jīng)編解碼器。對(duì)此我們?cè)O(shè)計(jì)了三個(gè)階段的發(fā)展計(jì)劃:首先,訓(xùn)練初始的編碼器和解碼器模型,學(xué)習(xí)每種模態(tài)的媒體表征;其次,為每種模態(tài)構(gòu)建基座模型,并進(jìn)一步優(yōu)化編碼器和解碼器;第三,學(xué)習(xí)包括自然語(yǔ)言在內(nèi)的跨模態(tài)關(guān)聯(lián),并構(gòu)建最終的多模態(tài)基座模型。媒體的動(dòng)態(tài)表征標(biāo)記與多模態(tài)基座模型一起構(gòu)成了我們的媒體基礎(chǔ),并為我們邁向多模態(tài)人工智能之路提供一種新的思路。
如前所述,抽象的語(yǔ)義表達(dá)更加緊湊和簡(jiǎn)潔,而視頻和音頻信號(hào)卻復(fù)雜且含有噪聲,我們的媒體基礎(chǔ)框架是否能夠?qū)⒄鎸?shí)世界的動(dòng)態(tài)變化進(jìn)行高效且盡可能無(wú)損的壓縮?至少此前我們所看到的多媒體編解碼器都難以勝任這項(xiàng)工作。因此,我們認(rèn)為當(dāng)務(wù)之急是開(kāi)發(fā)一個(gè)新的神經(jīng)編解碼器框架,用于高效構(gòu)建視頻、音頻及其動(dòng)態(tài)變化的抽象表示。
在過(guò)去的幾年里,我和同事們一直致力于開(kāi)發(fā)高效的神經(jīng)音頻/視頻編解碼器,并取得了令人興奮的進(jìn)展。在利用深度學(xué)習(xí)顛覆傳統(tǒng)編解碼器架構(gòu)的同時(shí),我們也實(shí)現(xiàn)了更低的計(jì)算成本及更優(yōu)的性能。我們開(kāi)發(fā)的神經(jīng)編解碼器的性能不僅超越了傳統(tǒng)的編解碼器,也顯著優(yōu)于現(xiàn)有的其它神經(jīng)編解碼器。
在神經(jīng)音頻編解碼器方面,我們首次實(shí)現(xiàn)了256bps的高質(zhì)量語(yǔ)音信號(hào)壓縮,并在256bps的極低比特率下,通過(guò)信息瓶頸實(shí)現(xiàn)了解耦的抽象語(yǔ)義表征學(xué)習(xí)。其意義不僅在于多媒體技術(shù)層面——通過(guò)這一創(chuàng)新,我們能夠利用捕捉到的音頻表征來(lái)實(shí)現(xiàn)各種音頻和語(yǔ)音任務(wù),例如語(yǔ)音轉(zhuǎn)換或語(yǔ)音到語(yǔ)音的翻譯。
此外,我們還開(kāi)發(fā)了DCVC-DC(Deep Contextual Video Compression-Diverse Contexts) 神經(jīng)視頻編解碼器。它可以將傳統(tǒng)編解碼中通過(guò)規(guī)則組合的不同模塊和算法轉(zhuǎn)換為深度學(xué)習(xí)的自動(dòng)學(xué)習(xí)方式,有效利用不同的上下文來(lái)大幅提高視頻壓縮率,這使得它在性能上超越了此前所有的視頻編解碼器。由于構(gòu)建全面、協(xié)同的媒體基礎(chǔ)對(duì)神經(jīng)視頻編解碼器帶來(lái)了全新的挑戰(zhàn),我們正在對(duì)DCVC-DC進(jìn)行深度改造。
我們開(kāi)發(fā)的神經(jīng)編解碼器,本質(zhì)上是通過(guò)從根本上改變對(duì)隱空間中的對(duì)象、動(dòng)作、情緒或概念等不同類型信息的建模方式,讓模型達(dá)到更高的壓縮比。這對(duì)多模態(tài)大模型的意義在于,通過(guò)神經(jīng)編解碼器可以將視覺(jué)、語(yǔ)言和聲音等信息轉(zhuǎn)換為隱空間的神經(jīng)表達(dá)——類似于自然語(yǔ)言處理中的抽象而緊湊的語(yǔ)義表征,但這些多媒體表征更符合自然規(guī)律,而且不局限于自然語(yǔ)言順序的簡(jiǎn)單描述,能夠支持更廣泛的應(yīng)用。
我們的探索驗(yàn)證了通過(guò)視頻和音頻構(gòu)建全新的媒體基礎(chǔ)的可行性,這為開(kāi)發(fā)人工智能帶來(lái)了全新的視角。雖然自然語(yǔ)言已被證明是構(gòu)建人工智能的有效方法,但如果我們總是試圖將復(fù)雜的多媒體信號(hào)轉(zhuǎn)化成文本語(yǔ)言或與之相關(guān)聯(lián),不僅過(guò)于繁瑣,還會(huì)限制人工智能的全面發(fā)展。相比之下,構(gòu)建基于神經(jīng)編解碼器的媒體基礎(chǔ)的思路可能更加有效。
當(dāng)然,通過(guò)媒體基礎(chǔ)和自然語(yǔ)言模型實(shí)現(xiàn)多模態(tài)大模型的方式雖然不同,但對(duì)于人工智能發(fā)展來(lái)說(shuō)都有不可替代的價(jià)值。我們不妨將人工智能學(xué)習(xí)的多媒體表征看作是與自然語(yǔ)言并行的另一種“語(yǔ)言”。這樣,大型多模態(tài)模型也可以被視為“大型多媒體語(yǔ)言模型”。我相信,神經(jīng)編解碼器的發(fā)展將成為媒體基礎(chǔ)演進(jìn)的巨大推動(dòng)力,其包含的媒體基座模型與大語(yǔ)言模型將共同構(gòu)建未來(lái)的多模態(tài)大模型,真正實(shí)現(xiàn)我們所期待的全方位、協(xié)同的多模態(tài)媒體基礎(chǔ)與融合,從而更好地釋放人工智能的潛力。
目前,我們?nèi)栽谂μ剿魃窠?jīng)編解碼器在隱空間中對(duì)多媒體信息的更多建模方法,全面、協(xié)同、融合的媒體基礎(chǔ)作為我們的設(shè)想和判斷,任何一個(gè)切入點(diǎn)都充滿了無(wú)窮的可能。如果我們的這一設(shè)想能夠?yàn)槿斯ぶ悄艿倪M(jìn)步帶來(lái)一些激發(fā)靈感的星星之火,那對(duì)我們來(lái)說(shuō)已經(jīng)足以感到欣慰和自豪了!
相關(guān)論文:
[1]Disentangled Feature Learning for Real-Time Neural Speech Coding,https://ieeexplore.ieee.org/abstract/document/10094723
[2]Neural Video Compression with Diverse Contexts,https://openaccess.thecvf.com/content/CVPR2023/papers/Li_Neural_Video_Compression_With_Diverse_Contexts_CVPR_2023_paper.pdf
本文作者:
呂巖,微軟亞洲研究院全球研究合伙人、多媒體計(jì)算方向負(fù)責(zé)人,領(lǐng)導(dǎo)團(tuán)隊(duì)從事多媒體通信、計(jì)算機(jī)視覺(jué)、語(yǔ)音增強(qiáng)、多模態(tài)信息融合、用戶界面虛擬化及云計(jì)算等方向的關(guān)鍵技術(shù)研究。
自 2004 年加入微軟亞洲研究院以來(lái),呂巖和團(tuán)隊(duì)的多項(xiàng)科研成果和原型系統(tǒng)已轉(zhuǎn)化至 Windows、Office、Teams、Xbox等關(guān)鍵產(chǎn)品中。近年來(lái),呂巖致力于推動(dòng)基于神經(jīng)網(wǎng)絡(luò)的端到端多媒體處理與通信框架和多模態(tài)智能交互系統(tǒng)的研究突破。呂巖在多媒體領(lǐng)域發(fā)表學(xué)術(shù)論文 100 余篇,獲得美國(guó)專利授權(quán) 30 余項(xiàng),有多項(xiàng)技術(shù)被 MPEG-4、H.264、H.265 和 AOM AV-1 等國(guó)際標(biāo)準(zhǔn)和工業(yè)標(biāo)準(zhǔn)所采用,曾獲國(guó)家技術(shù)發(fā)明二等獎(jiǎng)。
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過(guò)簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
2. 四款值得推薦的AI以圖生圖軟件,有需要的趕緊來(lái)試試!
近年來(lái),人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來(lái)試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來(lái)嘗試一下吧!
4. 一款免費(fèi)無(wú)限制的AI視頻生成工具火了!國(guó)內(nèi)無(wú)障礙訪問(wèn)!附教程
人人都可以動(dòng)手制作AI視頻! 打開(kāi)網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開(kāi)始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來(lái),我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來(lái)盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來(lái)...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來(lái),創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來(lái),快來(lái)了解Viggle AI的功能和優(yōu)勢(shì)吧!
9. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來(lái)沒(méi)聽(tīng)過(guò)的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說(shuō)了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來(lái)詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說(shuō)關(guān)于怎么樣利用AI來(lái)提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!