亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

高校合作1:010-59833514 ?咨詢(xún)電話(huà):400-810-1418 服務(wù)與監(jiān)督電話(huà):400-810-1418轉(zhuǎn)接2

字節(jié)連發(fā)兩款A(yù)I視頻工具,一句話(huà)完成換臉、編輯,網(wǎng)友直呼Runway不香了!

發(fā)布時(shí)間:2024-04-01 19:02:25 瀏覽量:242次

文|尚恩

編輯|鄧詠儀

字節(jié)正在跑步AI化,產(chǎn)品側(cè)剛剛宣布對(duì)外測(cè)試AI對(duì)話(huà)產(chǎn)品豆包,又接連一口氣在Github上發(fā)布兩個(gè)AI視頻項(xiàng)目。一個(gè)主多模態(tài)動(dòng)畫(huà)生成,另一個(gè)則專(zhuān)注文本導(dǎo)向的視頻編輯。

目前在Github上,兩個(gè)項(xiàng)目加起來(lái)已經(jīng)拿到1000+星。

來(lái)源:公開(kāi)網(wǎng)絡(luò)

不僅如此,還引來(lái)大批網(wǎng)友圍觀,有人就直接表示:“一直想在TikTok火,有了AI這下可好辦了”!

來(lái)源:Dave Villalva推特

目前,字節(jié)的這倆項(xiàng)目雖已上傳GitHub和arxiv,但還沒(méi)有公開(kāi)代碼,所以想上手玩還得稍等等了。

對(duì)此就有不少網(wǎng)友已經(jīng)等不及,在線求代碼中…

來(lái)源:Don Jose Valle推特

話(huà)不多說(shuō),來(lái)具體看看這倆AI視頻生成項(xiàng)目的細(xì)節(jié)。

AI捕捉運(yùn)動(dòng)信號(hào),一鍵生成視頻

MagicAvatar由字節(jié)跳動(dòng)開(kāi)發(fā),是一款主打多模態(tài)輸入生成的多模態(tài)框架,可以將文本、視頻和音頻等不同輸入方式轉(zhuǎn)化為動(dòng)作信號(hào),從而生成和動(dòng)畫(huà)化一個(gè)虛擬人物。

具體來(lái)說(shuō),通過(guò)簡(jiǎn)單的文本提示就能創(chuàng)建虛擬人物,也可以根據(jù)源視頻生成跟隨給定動(dòng)作生產(chǎn),還能對(duì)特定主題的虛擬人物進(jìn)行動(dòng)畫(huà)化。

比如,輸入“一個(gè)在火山里踢踏舞的宇航員”就能生成一個(gè)相應(yīng)的虛擬形象。

來(lái)源:MagicAvatar

或者直接提供一個(gè)源視頻,然后AI就會(huì)創(chuàng)建一個(gè)跟隨給定動(dòng)作的形象。

來(lái)源:MagicAvatar

看過(guò)生成效果,不少網(wǎng)友驚呼,Runway的Gen-1、Gen-2不香了!

來(lái)源:推特

根據(jù)字節(jié)團(tuán)隊(duì)的解釋?zhuān)啾纫酝苯訌亩嗄B(tài)輸入生成視頻,MagicAvatar獨(dú)特之處主要是將視頻生成明確分解為兩個(gè)階段。

第一階段,主要將多模態(tài)輸入(文本、視頻、語(yǔ)音等)轉(zhuǎn)換為表示運(yùn)動(dòng)的信號(hào),如人體姿態(tài)、深度信息、DensePose等。第二階段,則是將第一階段生成的運(yùn)動(dòng)信號(hào)與外觀描述一起輸入到模型,然后生成視頻。

這里提一嘴,DensePose是一種計(jì)算機(jī)視覺(jué)技術(shù),用于將人體在圖像上的姿態(tài)信息與一個(gè)3D人體模型進(jìn)行關(guān)聯(lián)。

來(lái)源:MagicAvatar

比如,我們想生成一個(gè)“女子交叉手臂在舞池跳舞”的視頻,直接把提示詞投喂給AI,AI會(huì)先識(shí)別生成交叉手臂的動(dòng)作,然后再生成目標(biāo)形象。

這樣做的好處優(yōu)勢(shì)在于降低了學(xué)習(xí)難度,不同模態(tài)之間不僅可以使用獨(dú)立的數(shù)據(jù)進(jìn)行訓(xùn)練,且不需要所有模態(tài)都同時(shí)存在的數(shù)據(jù)集。

另外,MagicAvatar還支持用戶(hù)上傳目標(biāo)人物的圖片,來(lái)為特定人物生成動(dòng)畫(huà),實(shí)現(xiàn)個(gè)性化需求。

來(lái)源:MagicAvatar

未來(lái)研究團(tuán)隊(duì)表示,還將推出音頻引導(dǎo)形象生成的功能,到時(shí)候用戶(hù)只用通過(guò)音頻輸入就能創(chuàng)建形象,比如說(shuō)話(huà)、唱歌。

三階段訓(xùn)練,AI高保真編輯

MagicEdit是一個(gè)文生視頻的編輯工具。用戶(hù)只需要自然語(yǔ)言提示,就能輕松地改變視頻的風(fēng)格、場(chǎng)景甚至替換視頻里的對(duì)象或添加元素,同時(shí)保持原視頻的動(dòng)作和外觀一致,還可以通過(guò)視頻混合功能創(chuàng)造出新穎的概念。

比如,把左邊這只小兔子變成一個(gè)像兔子的老虎,直接提示Tiger就搞定。

OS:(雖然看著有點(diǎn)怪,不過(guò)意思是到了…)

來(lái)源:MagicEdit

具體來(lái)說(shuō),MagicEdit可以清晰地分離視頻對(duì)象的外觀和動(dòng)作并進(jìn)行學(xué)習(xí),實(shí)現(xiàn)了高質(zhì)量和時(shí)間連貫的視頻編輯。它能夠獨(dú)立地處理和優(yōu)化這兩個(gè)方面,然后再將它們合成到一個(gè)新的完整的視頻中。這樣做的好處是,編輯過(guò)程更加靈活和高效,同時(shí)也能保證視頻的質(zhì)量和時(shí)間連貫性。

來(lái)源:MagicEdit

比如,你正在編輯一個(gè)視頻,其中有一個(gè)人在跳舞,外觀就是這個(gè)人的衣服、發(fā)型、臉型等,而動(dòng)作就是他跳舞的動(dòng)作。

來(lái)源:MagicEdit

簡(jiǎn)單來(lái)說(shuō),MagicEdit就像是一個(gè)聰明的導(dǎo)演,它能分別調(diào)整這個(gè)人的衣服和跳舞動(dòng)作,然后再把這兩者完美地結(jié)合在一起,按照不同個(gè)性化需求生成新的視頻。

新視頻可能背景、場(chǎng)景和風(fēng)格不一樣了,但是保持了原視頻的人物外觀和動(dòng)作,同時(shí)整個(gè)視頻看起來(lái)既漂亮又流暢。

來(lái)源:公開(kāi)網(wǎng)絡(luò)

目前,MagicEdit支持多種編輯應(yīng)用,包括視頻風(fēng)格化、局部編輯、視頻混合(Video-MagicMix等功能。視頻風(fēng)格化就是能夠?qū)⒃匆曨l轉(zhuǎn)換成具有特定風(fēng)格,創(chuàng)建具有不同主題和背景的新場(chǎng)景,比如現(xiàn)實(shí)、卡通等。

來(lái)源:MagicEdit

局部編輯則允許用戶(hù)對(duì)視頻進(jìn)行局部修改,同時(shí)保持其他區(qū)域不變。視頻混合(Video-MagicMix)就類(lèi)似于MagicMix,可以在視頻領(lǐng)域內(nèi)混合兩個(gè)不同的概念,以創(chuàng)建一個(gè)新的概念。

除此以外,MagicEdit還支持視頻擴(kuò)展功能,可以在不重新訓(xùn)練的情況下進(jìn)行視頻擴(kuò)展任務(wù)。

來(lái)源:MagicEdit

按照以前的邏輯,視頻擴(kuò)展通常需要針對(duì)此任務(wù)特別訓(xùn)練模型或微調(diào),靈活性比較差。

因此研究團(tuán)隊(duì),通過(guò)在去噪過(guò)程中靈活注入反向潛碼(inverse latent)和隨機(jī)噪聲,這樣可以保證已知區(qū)域不變,未知區(qū)域生成新的內(nèi)容,然后無(wú)需重新訓(xùn)練就可以直接生成符合提示的新內(nèi)容,極大提高了視頻擴(kuò)展比例的魯棒性。

字節(jié)海外出品

根據(jù)論文顯示,這兩個(gè)AI視頻項(xiàng)目都是由字節(jié)的科學(xué)家共同發(fā)表,其中五位作者中有四人來(lái)自中國(guó),且都曾在字節(jié)實(shí)驗(yàn)室做過(guò)研究或?qū)嵙?xí)。

通訊作者嚴(yán)漢書(shū)(Hanshu YAN)是字節(jié)跳動(dòng)新加坡的研究科學(xué)家,致力于視頻/圖像生成模型。

他本科畢業(yè)于北京航空航天大學(xué)電氣工程專(zhuān)業(yè),碩士和PhD都在新加坡國(guó)立大學(xué),曾在新加坡海洋人工智能實(shí)驗(yàn)室(Sea AI Lab)實(shí)習(xí)。

來(lái)源:Hanshu YAN

Jun Hao Liew是字節(jié)跳動(dòng)新加坡的計(jì)算機(jī)視覺(jué)科學(xué)家,他本科畢業(yè)于英國(guó)倫敦大學(xué)學(xué)院(UCL)的電子電氣工程專(zhuān)業(yè),碩士和PhD則是在新加坡國(guó)立大學(xué)就讀,曾在Adobe實(shí)習(xí)。據(jù)Google Scholar顯示,目前其論文引用量已經(jīng)有1400多。

來(lái)源:GoogleScholar

其他幾位作者,也都是在新加坡讀博,并在字節(jié)跳動(dòng)新加坡參與科研。

加速布局AI視頻

2023年的字節(jié)跳動(dòng)在AI領(lǐng)域的布局,確實(shí)可以用加速跑來(lái)形容。

從近期大模型云雀獲批,到剛剛對(duì)外測(cè)試AI對(duì)話(huà)產(chǎn)品的豆包,以及6月字節(jié)跳動(dòng)旗下火山引擎發(fā)布大模型服務(wù)平臺(tái)“火山方舟”,面向企業(yè)提供模型精調(diào)、評(píng)測(cè)、推理等全方位的平臺(tái)服務(wù)。

來(lái)源:火山引擎

而作為一家以短視頻起家的互聯(lián)網(wǎng)公司,除了深耕TikTok、抖音等平臺(tái)外,視頻一直是字節(jié)的強(qiáng)關(guān)注領(lǐng)域。

比如今年4月字節(jié)就在美國(guó)上架了一款以照片、視頻為主的應(yīng)用程序Lemon8,類(lèi)似于海外的Instagram和Pinterest的混合體。除此以外,字節(jié)跳動(dòng)旗下的另一款視頻編輯工具“CapCut”,在蘋(píng)果應(yīng)用商店中被列為美國(guó)最受歡迎的應(yīng)用軟件之一。

雖然短視頻業(yè)務(wù)市場(chǎng)占有率不低,但要論擁抱AI的速度,字節(jié)確實(shí)說(shuō)不上快。對(duì)比之下,前段時(shí)間美圖發(fā)布2023上半年財(cái)報(bào),得益于AI視頻、繪圖等AIGC功能的推出,總收入12.61億人民幣,同比增長(zhǎng)了29.8%。

The Information此前報(bào)道表示,字節(jié)跳動(dòng)2022年總收入達(dá)到了850億美元,同比增長(zhǎng)38%,主要收入來(lái)自TikTok、視頻游戲和企業(yè)軟件等,AI還未能給字節(jié)帶來(lái)任何巨大收益。

長(zhǎng)按添加「智涌」小助手入群, 備注:公司+職務(wù)

熱門(mén)課程推薦

熱門(mén)資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話(huà)暢通!
確定