當(dāng)前位置：首頁(yè) >人工智能 >以假亂真!文字直接生成視頻，AI 視頻工具 Sora 是怎么做到的?

以假亂真!文字直接生成視頻，AI 視頻工具 Sora 是怎么做到的?

發(fā)布時(shí)間：2024-03-05 17:34:06 瀏覽量：214次

2024年2月16日，Open AI在X（原 Twitter）上發(fā)布了一條消息，隆重介紹了自己的新文本轉(zhuǎn)視頻模型——Sora。

這個(gè)模型可以生成最長(zhǎng)60秒的視頻，并且在這個(gè)過(guò)程中，還能夠自己切換鏡頭，甚至給出特寫(xiě)。下面這些，就是視頻提示詞譯文及Sora直接根據(jù)提示詞英文原文生成的“作品”。

一位時(shí)尚的女士走在亮著霓虹燈和廣告牌的東京街頭。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子，手提一只黑色包包。她戴著太陽(yáng)鏡，涂著紅色口紅。她走路既自信又隨意。街道潮濕，地面上的水能夠像鏡面一樣反射色彩斑斕的燈光，路上有很多行人來(lái)來(lái)往往。

一段3D動(dòng)畫(huà)，展現(xiàn)一種又小又圓的毛茸茸生物在一個(gè)充滿活力的、被魔法環(huán)繞的森林中探險(xiǎn)。這種生物是兔子和松鼠的混合體，擁有柔軟的藍(lán)色皮毛和一條蓬松的帶有條紋的尾巴。它沿著一條閃閃發(fā)光的小溪跳躍，眼睛充滿了好奇。森林里充滿了魔法元素：有發(fā)光并能變換顏色的花朵，有紫色和銀色葉子的樹(shù)木，以及有類(lèi)似螢火蟲(chóng)的漂浮的光點(diǎn)。這個(gè)生物最終停下來(lái)與一群圍繞著蘑菇跳舞的小仙子玩耍。這個(gè)生物抬頭敬畏地看著一棵巨大發(fā)光樹(shù)木，這棵樹(shù)似乎是森林的心臟。

乍一看這些視頻，你可能會(huì)以為它們是專(zhuān)業(yè)拍攝團(tuán)隊(duì)或者是動(dòng)畫(huà)公司制作的視頻短片。在OpenAI的社區(qū)中，也不乏同樣感受的網(wǎng)友評(píng)論稱(chēng)擔(dān)心Sora會(huì)搶走動(dòng)畫(huà)師的飯碗。

圖片為機(jī)器翻譯后截取自：community.openai.com

還有一些人擔(dān)心這樣的技術(shù)會(huì)不會(huì)被用來(lái)偽造視頻，甚至被用來(lái)在法庭上作偽證。

圖片為機(jī)器翻譯后截取自：X

那Sora是如何生成這樣的視頻的？它真的無(wú)所不能，會(huì)搶走人類(lèi)飯碗嗎？

Sora怎么生成視頻？

從2022年下半年開(kāi)始，Midjourney、Stable Diffusion之類(lèi)的應(yīng)用已經(jīng)可以根據(jù)文本提示詞生成對(duì)應(yīng)的圖片了。在2023年9月，GPT 4.0和DALLE 3結(jié)合，也讓我們能夠用聊天化的方式生成、修改圖片。

AI生成視頻也不是什么新鮮事了。在這次的Sora發(fā)布之前，也已經(jīng)有一些視頻生成AI，比如Pika、Stable video、RunwayML等等。但與Sora相比，其他模型生成視頻的時(shí)長(zhǎng)都比較短，而且在攝像機(jī)的運(yùn)動(dòng)、鏡頭切換等方面也要弱很多。

那么，Sora又是如何生成視頻的呢？

Open AI發(fā)布了一份Sora的技術(shù)報(bào)告，在報(bào)告中提到“Sora是一個(gè)擴(kuò)散模型”。

Sora是一個(gè)擴(kuò)散模型，圖片來(lái)源：Open AI官網(wǎng)

擴(kuò)散模型本身很復(fù)雜，我們不去講具體的細(xì)節(jié)，僅僅通過(guò)一個(gè)簡(jiǎn)單的例子，大致理解擴(kuò)散模型的思路。

假如我們現(xiàn)在有一張狗狗的照片，我們可以一步步給這張照片增加噪點(diǎn)，讓它變得越來(lái)越模糊，最終會(huì)變成一堆雜亂的噪點(diǎn)。

添加噪聲與去除噪聲，圖片來(lái)源：參考資料[3]

假如把這個(gè)過(guò)程倒過(guò)來(lái)，對(duì)于一堆雜亂無(wú)章的噪點(diǎn)，我們同樣可以一步步去除噪點(diǎn)，把它還原成目標(biāo)圖片，擴(kuò)散模型的關(guān)鍵就是學(xué)會(huì)逆向去除噪點(diǎn)。

當(dāng)然了，擴(kuò)散模型不僅可以用來(lái)生成圖片，還可以用來(lái)生成視頻。比如，在Sora的技術(shù)報(bào)告中提到了，Open AI對(duì)視頻數(shù)據(jù)進(jìn)行了一些轉(zhuǎn)換處理，讓視頻數(shù)據(jù)可以直接用來(lái)訓(xùn)練模型，從而讓Sora能夠直接根據(jù)提示詞生成視頻。

Sora對(duì)視頻數(shù)據(jù)進(jìn)行轉(zhuǎn)換處理，圖片來(lái)源：Open AI官網(wǎng)

Sora強(qiáng)大的視頻創(chuàng)作能力

按照Open AI的說(shuō)法，Sora“繼承”了Open AI對(duì)文本的理解能力，能夠根據(jù)提示詞生成出高質(zhì)量的圖片和視頻，并且能夠?qū)σ曨l進(jìn)行向前或者向后的拓展。比如，可以基于同一個(gè)視頻開(kāi)頭繼續(xù)拓展，延伸出不一樣的結(jié)尾?；蛘呤菑牟煌拈_(kāi)頭引入，最終匯聚到同一個(gè)結(jié)尾。

這三個(gè)視頻開(kāi)頭最終都會(huì)走向同一個(gè)結(jié)尾，圖片截取自：Open AI官網(wǎng)

另外，Sora不僅可以根據(jù)文本生成視頻，也可以直接輸入圖片或者視頻，對(duì)圖片和視頻進(jìn)行編輯調(diào)整。

比如可以將這輛行駛在普通道路上的汽車(chē)變得更“賽博朋克”一些。

圖片截取自：Open AI官網(wǎng)

另外，Sora也表現(xiàn)出了一些之前未曾想到的本領(lǐng)，比如它可以跟隨著對(duì)象移動(dòng)鏡頭，并且在移動(dòng)鏡頭轉(zhuǎn)換角度的時(shí)候，依然能保持周?chē)木跋蟮暮侠?、完?/span>。

“強(qiáng)大的Sora”仍有一些缺陷

雖然Sora展現(xiàn)出了強(qiáng)大的能力，但現(xiàn)階段它還不夠完美。

并不是每一次Sora都能生成出令人滿意的視頻?！堵槭±砉た萍荚u(píng)論（MIT Technology Review）》主筆Will Douglas Heaven寫(xiě)道：“Sora發(fā)布出來(lái)的視頻已經(jīng)是從大量的成果中挑選出的佼佼者了?！钡幢闶沁@些“經(jīng)過(guò)挑選的佼佼者”也不完美。

在Sora的技術(shù)報(bào)告中也承認(rèn)，現(xiàn)階段Sora生成的視頻存在一些缺陷。比如，下面這個(gè)“考古工作者們挖掘出一個(gè)塑料椅”的視頻片段里，這個(gè)塑料椅顯然有點(diǎn)不遵守客觀的物理規(guī)律。

另外，下面這個(gè)玻璃杯破碎的過(guò)程也不那么“科學(xué)”——在杯子破裂之前，杯子里的液體就已經(jīng)流出來(lái)了。

所以，Sora還有很多需要完善的地方。但毫無(wú)疑問(wèn)，目前Sora展現(xiàn)出來(lái)的能力已經(jīng)說(shuō)明了，這是一條非常有前景的道路。

Sora安全嗎？

會(huì)取代人類(lèi)嗎？

這幾天，Sora生成的視頻刷爆了許多人的朋友圈，人們除了感嘆Sora的厲害，同樣也展現(xiàn)出了擔(dān)憂，這些擔(dān)憂集中在兩個(gè)方面。

第一個(gè)擔(dān)憂是：Sora生成視頻的能力實(shí)在是太厲害了，如果這樣的技術(shù)被用來(lái)造假，豈不是太可怕了？未來(lái)我們?cè)趺粗揽吹降囊曨l是真的還是假的？

而另一個(gè)擔(dān)憂主要來(lái)自視頻行業(yè)的從業(yè)者，如果Sora這樣的模型普及開(kāi)來(lái)，視頻行業(yè)從業(yè)者是不是都要丟了飯碗？

先說(shuō)說(shuō)安全問(wèn)題。其實(shí)，Open AI也考慮到了Sora可能帶來(lái)的安全問(wèn)題。目前，Sora僅對(duì)少數(shù)人開(kāi)放，在確保它不會(huì)被用來(lái)做壞事之前，Sora是不會(huì)向大眾開(kāi)放的。

那Sora是否會(huì)代替人類(lèi)視頻工作者？

可以肯定的是，Sora的出現(xiàn)可能會(huì)威脅一些動(dòng)畫(huà)素材的制作者。

比如，今年1月，《好萊塢報(bào)道》進(jìn)行了一項(xiàng)針對(duì)300名娛樂(lè)行業(yè)領(lǐng)導(dǎo)者的調(diào)查，有四分之三的受訪者表示AI會(huì)減少未來(lái)的工作崗位，未來(lái)3年內(nèi)大約會(huì)有20多萬(wàn)個(gè)職位受到影響。而Sora優(yōu)異的表現(xiàn)會(huì)加重這一影響。

但換一個(gè)角度想，每一次新興技術(shù)的出現(xiàn)在帶來(lái)威脅的同時(shí)也會(huì)帶來(lái)新的機(jī)會(huì)。

包括Sora在內(nèi)的視頻生成AI只是一個(gè)工具，視頻的創(chuàng)意來(lái)源還是需要人類(lèi)提供。Sora或許能夠幫助人類(lèi)更高效地生產(chǎn)視頻，同時(shí)，也讓每一個(gè)普通人都有機(jī)會(huì)制作自己的創(chuàng)意視頻。

上一篇北師大未來(lái)設(shè)計(jì)學(xué)院在第六屆中國(guó)教博會(huì)發(fā)布五項(xiàng)PBL大挑戰(zhàn)項(xiàng)目

下一篇效果比Sora驚艷，著名AI平臺(tái)大動(dòng)作!文本生成超25秒視頻

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

以假亂真!文字直接生成視頻，AI 視頻工具 Sora 是怎么做到的?

請(qǐng)綁定手機(jī)號(hào)

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

以假亂真!文字直接生成視頻，AI 視頻工具 Sora 是怎么做到的?

請(qǐng)綁定手機(jī)號(hào)

以假亂真!文字直接生成視頻，AI 視頻工具 Sora 是怎么做到的?