當(dāng)前位置：首頁 >人工智能 >探秘AI文生視頻背后的技術(shù)奧秘 | 火星時(shí)代教育

探秘AI文生視頻背后的技術(shù)奧秘 | 火星時(shí)代教育

發(fā)布時(shí)間：2024-05-18 10:24:44 瀏覽量：186次

新年還沒過完，AI屆又發(fā)生了轟轟烈烈的事情，由openai實(shí)現(xiàn)的文生視頻火遍了全網(wǎng)，那你知道它背后都是什么樣的技術(shù)邏輯嗎？

實(shí)現(xiàn)原理

具體來說，在可變持續(xù)時(shí)間、分辨率和寬高比的視頻和圖像上聯(lián)合訓(xùn)練文本條件擴(kuò)散模型。他們利用transformer架構(gòu)，在視頻和圖像潛在代碼的時(shí)空補(bǔ)丁上運(yùn)行。最大的模型Sora能夠生成一分鐘的高保真視頻。其結(jié)果表明，縮放視頻生成模型是構(gòu)建物理世界通用模擬器的一條有希望的道路。

將視覺數(shù)據(jù)轉(zhuǎn)化為補(bǔ)丁

從大型語言模型中汲取靈感，這些模型通過互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)培訓(xùn)獲得通才能力。我們發(fā)現(xiàn)，補(bǔ)丁是一種高度可擴(kuò)展和有效的表示，用于訓(xùn)練不同類型的視頻和圖像的生成模型。

視頻壓縮網(wǎng)絡(luò)

訓(xùn)練一個(gè)減少視覺數(shù)據(jù)維度的網(wǎng)絡(luò)。這個(gè)網(wǎng)絡(luò)將原始視頻作為輸入，并輸出一個(gè)在時(shí)間和空間上壓縮的潛在表示。Sora接受訓(xùn)練，并隨后在這個(gè)壓縮的潛在空間中生成視頻。我們還訓(xùn)練了一個(gè)相應(yīng)的解碼器模型，將生成的潛在映射回像素空間。

時(shí)空潛伏補(bǔ)丁

給定一個(gè)壓縮的輸入視頻，提取一系列作為Transformer Token的時(shí)空補(bǔ)丁。此方案也適用于圖像，因?yàn)閳D像只是單幀的視頻?；谘a(bǔ)丁的表示使Sora能夠?qū)勺兎直媛省⒊掷m(xù)時(shí)間和寬高比的視頻和圖像進(jìn)行訓(xùn)練。

用于視頻生成的縮放Transformer

Sora是一個(gè)擴(kuò)散模型；給定輸入嘈雜的補(bǔ)?。ㄒ约拔谋咎崾镜日{(diào)理信息），它經(jīng)過訓(xùn)練來預(yù)測原始的“干凈”補(bǔ)丁。Sora的技術(shù)能夠有效擴(kuò)展視頻模型，在不同設(shè)備上創(chuàng)建內(nèi)容，并提高視頻質(zhì)量。

在這項(xiàng)工作中，發(fā)現(xiàn)擴(kuò)散Transformer作為視頻模型也能有效擴(kuò)展。隨著培訓(xùn)的進(jìn)行，展示了視頻樣本與固定種子和輸入的比較。隨著訓(xùn)練計(jì)算的提高，樣本質(zhì)量顯著提高。

可變持續(xù)時(shí)間、分辨率、寬高比

過去的圖像和視頻生成方法通常將視頻大小、裁剪或修剪為標(biāo)準(zhǔn)尺寸。Sora具有采樣靈活性，能夠生成不同分辨率、持續(xù)時(shí)間和寬高比的視頻，適應(yīng)不同的設(shè)備和需求。

我們實(shí)證地發(fā)現(xiàn)，以原生寬高比進(jìn)行視頻訓(xùn)練可以改善構(gòu)圖和構(gòu)圖。Sora能夠有效地改變視頻風(fēng)格和環(huán)境，提高視頻的審美質(zhì)量。

訓(xùn)練文本到視頻生成系統(tǒng)需要大量帶有相應(yīng)文本字幕的視頻。我們將重新字幕技術(shù)應(yīng)用于視頻，以提高文本保真度和視頻質(zhì)量。

新興的模能力

視頻模型表現(xiàn)出許多有趣的緊急能力，使Sora成為物理世界與數(shù)字世界模擬的強(qiáng)大工具。這些能力包括3D一致性、長期連貫性、對象持久性以及與世界的互動(dòng)等。

雖然目前sora僅僅開放給個(gè)別人，不過可以預(yù)見的是，全民開放僅僅是時(shí)間問題。未來已來，你準(zhǔn)備好迎接了嗎？

上一篇北師大未來設(shè)計(jì)學(xué)院在第六屆中國教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇 OpenAI與谷歌，或許都未亮明底牌

熱門課程推薦

熱門資訊

1. 華為手機(jī)神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領(lǐng)深V！

最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點(diǎn)擊查看！
2. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果，這4個(gè)方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個(gè)方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實(shí)現(xiàn)，快來嘗試一下吧！
4. 一款免費(fèi)無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程

人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具

以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
7. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle：讓靜態(tài)人物動(dòng)起來，創(chuàng)意無限！

Viggle AI是一款免費(fèi)制作視頻的AI工具，能讓靜態(tài)人物圖片動(dòng)起來，快來了解Viggle AI的功能和優(yōu)勢吧！
9. 10個(gè)建筑AI工具，從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的

講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

探秘AI文生視頻背后的技術(shù)奧秘 | 火星時(shí)代教育

將視覺數(shù)據(jù)轉(zhuǎn)化為補(bǔ)丁

視頻壓縮網(wǎng)絡(luò)

時(shí)空潛伏補(bǔ)丁

用于視頻生成的縮放Transformer

可變持續(xù)時(shí)間、分辨率、寬高比

新興的模能力

請綁定手機(jī)號

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

探秘AI文生視頻背后的技術(shù)奧秘 | 火星時(shí)代教育

將視覺數(shù)據(jù)轉(zhuǎn)化為補(bǔ)丁

視頻壓縮網(wǎng)絡(luò)

時(shí)空潛伏補(bǔ)丁

用于視頻生成的縮放Transformer

可變持續(xù)時(shí)間、分辨率、寬高比

新興的模能力

請綁定手機(jī)號

可變持續(xù)時(shí)間、分辨率、寬高比