發(fā)布時(shí)間:2024-04-08 11:00:43 瀏覽量:129次
貝殼財(cái)經(jīng)原創(chuàng)出品
記者 羅亦丹

一夜過去,AI行業(yè)又迎來了重大技術(shù)突破,這次有可能被“顛覆”的是視頻和電影制作。
北京時(shí)間2月16日凌晨,OpenAI在官網(wǎng)正式發(fā)布了文生視頻大模型Sora,其可以根據(jù)用戶提示生成長(zhǎng)達(dá)一分鐘的視頻,同時(shí)保持視頻中出現(xiàn)的人物、景色的連貫性,甚至即便切換鏡頭,人物依然能夠保持一致。
OpenAI首席執(zhí)行官山姆奧特曼在社交平臺(tái)下場(chǎng),對(duì)網(wǎng)友放言“留下想看什么的評(píng)論,我為你生成視頻”,并在兩小時(shí)內(nèi)“現(xiàn)點(diǎn)現(xiàn)做”放出了十多條視頻。這立刻引發(fā)了科技圈和影視圈的雙重“震撼”,油管粉絲高達(dá)2.39億的頂流網(wǎng)紅“野獸先生”直接在山姆奧特曼的社交賬號(hào)下哀求“求求你了山姆,不要讓我沒有工作。”
2月16日,DCCI互聯(lián)網(wǎng)研究院院長(zhǎng)劉興亮在接受貝殼財(cái)經(jīng)記者采訪時(shí)表示,Sora無(wú)疑是人工智能領(lǐng)域的一次重大突破。這一技術(shù)不僅展示了AI在理解和創(chuàng)造復(fù)雜視覺內(nèi)容方面的先進(jìn)能力,而且對(duì)內(nèi)容創(chuàng)作、娛樂和影視制作行業(yè)提出了前所未有的挑戰(zhàn)和機(jī)遇。
天圖萬(wàn)境創(chuàng)始人、導(dǎo)演圖拉古則告訴貝殼財(cái)經(jīng)記者,Sora 的潛力并不是代替拍攝或者創(chuàng)作,而是讓每一個(gè)人成為創(chuàng)作者,這必然會(huì)產(chǎn)生新的業(yè)態(tài)。
01
這個(gè)電影預(yù)告片是AIzuod 音視頻行業(yè)迎來“iPhone”時(shí)刻
“一部電影預(yù)告片,講述了30歲的太空人戴著紅色羊毛編織的摩托車頭盔、藍(lán)天、鹽漠、電影風(fēng)格的冒險(xiǎn)故事,用35毫米膠片拍攝,色彩生動(dòng)。”
這是OpenAI官網(wǎng)展示的諸多視頻生成提示語(yǔ)句之一,貝殼財(cái)經(jīng)記者發(fā)現(xiàn),根據(jù)該提示語(yǔ)句生成的視頻不僅達(dá)到了語(yǔ)句的內(nèi)容預(yù)期,還創(chuàng)造性地出現(xiàn)了多個(gè)鏡頭的切分,而且神奇的是,在不同角度的鏡頭中,視頻主角“太空人”可以看出是同一人。


圖片來源:OpenAI官網(wǎng)
這在此前的AI生成技術(shù)中是無(wú)法實(shí)現(xiàn)的。有AI從業(yè)者表示,此前的AI視頻往往都是單鏡頭生成,因?yàn)橐坏╃R頭切換,角色可能就會(huì)發(fā)生變化,這對(duì)于AI圖片生成同理。
貝殼財(cái)經(jīng)記者曾使用AI大模型技術(shù)生成圖片的技術(shù)輔助視頻制作,但其中的痛點(diǎn)之一就是,如果想要讓AI生成多個(gè)圖片,比如同一個(gè)人物在不同場(chǎng)景下的不同動(dòng)作,每當(dāng)輸入新的提示詞,人物往往也會(huì)發(fā)生變化,讓人覺得“不是同一個(gè)人”,因此AI難以直接取代傳統(tǒng)方式的視頻或者漫畫制作。
但隨著Sora的橫空出世,這一切將可能迎來改變。
在另一個(gè)OpenAI提供的例子中,輸入提示詞“中國(guó)龍的農(nóng)歷新年慶祝視頻”,就生成了一段人們舞龍的視頻,貝殼財(cái)經(jīng)記者發(fā)現(xiàn),這段視頻包含了龐大的慶祝隊(duì)伍和人群,但他們也都能保持前后的一致和連貫。

OpenAI表示,該模型對(duì)語(yǔ)言有深刻的理解,使其能夠準(zhǔn)確地解釋提示并生成表達(dá)生動(dòng)情感的引人注目的角色,“Sora還可以在單個(gè)生成的視頻中創(chuàng)建多個(gè)鏡頭,以準(zhǔn)確保留角色和視覺風(fēng)格?!?/span>
劉興亮表示,Sora模型的發(fā)布標(biāo)志著AI技術(shù)在內(nèi)容創(chuàng)作領(lǐng)域的一個(gè)新紀(jì)元,“通過簡(jiǎn)短的文本提示或一張靜態(tài)圖片,Sora能夠生成持續(xù)一分鐘左右的1080P高清視頻,涵蓋多個(gè)角色、不同類型的動(dòng)作和背景細(xì)節(jié)等,幾乎達(dá)到了電影級(jí)別的逼真場(chǎng)景。這種能力不僅為內(nèi)容創(chuàng)作者提供了前所未有的工具,使他們能夠以更低的成本和更快的速度將創(chuàng)意變?yōu)楝F(xiàn)實(shí),而且為觀眾帶來了更豐富和多樣化的視覺體驗(yàn)。技術(shù)創(chuàng)新的這一巨大飛躍,預(yù)示著AI在未來人類生活的各個(gè)方面都將發(fā)揮更加重要的作用。”
不過,據(jù)貝殼財(cái)經(jīng)記者觀察,目前Sora生成的還基本限于“短視頻”,如果生成帶劇情的長(zhǎng)篇故事似乎還有更多挑戰(zhàn)。
對(duì)此,圖拉古告訴記者,Sora更大的潛力在于傳遞蒙太奇故事,而不是準(zhǔn)確和具有節(jié)奏的敘事,“它準(zhǔn)確地傳遞某一個(gè)人的百分之百的意圖還是差一點(diǎn),不過大部分創(chuàng)作者不會(huì)在意這些。也就是說,它其實(shí)能夠傳遞某一個(gè)人90%的情緒感覺或者表達(dá)這已經(jīng)足夠了?!?/span>
Sora的發(fā)布讓圖拉古十分激動(dòng),他目前正在打造一個(gè)被稱為“超感影游”的沉浸式線下體驗(yàn)項(xiàng)目,在他看來,未來很多人都可以成為創(chuàng)作者,而不僅僅局限于現(xiàn)在的專業(yè)人士,電影的“KTV時(shí)代”,隨著AI的到來即將到來。
“技術(shù)總是跨越式進(jìn)步,后面可能會(huì)更超乎我們的想象。”圖拉古說。
“盡管Sora的技術(shù)創(chuàng)新帶來了巨大的潛力,但它也對(duì)傳統(tǒng)的影視制作行業(yè)提出了轉(zhuǎn)型的壓力。AI生成的視頻可能減少了對(duì)人類演員、導(dǎo)演和其他創(chuàng)意角色的需求,從而影響到這個(gè)行業(yè)的就業(yè)。此外,隨著AI技術(shù)的進(jìn)步,傳統(tǒng)的影視制作流程和商業(yè)模式也可能面臨重塑。然而,這種轉(zhuǎn)型并不意味著傳統(tǒng)影視行業(yè)的消亡,而是需要與AI技術(shù)融合,探索新的藝術(shù)形式和表達(dá)方式。這種轉(zhuǎn)型壓力,雖然帶來了挑戰(zhàn),但也為行業(yè)的創(chuàng)新和發(fā)展提供了機(jī)遇?!眲⑴d亮告訴貝殼財(cái)經(jīng)記者。
02
如何克服一致性難題? 讓模型預(yù)見多幀內(nèi)容 奧特曼:專注打造通用人工智能
那么,OpenAI是如何做到克服AI生成視頻的一致性難題的呢?
根據(jù)OpenAI的技術(shù)解讀文件,Sora是一種擴(kuò)散模型,它能夠通過從一開始看似靜態(tài)噪聲的視頻出發(fā),經(jīng)過多步驟的噪聲去除過程,逐漸生成視頻,不僅能夠一次性生成完整的視頻,還能延長(zhǎng)已生成的視頻,“通過讓模型能夠預(yù)見多幀內(nèi)容,團(tuán)隊(duì)成功克服了確保視頻中的主體即便暫時(shí)消失也能保持一致性的難題?!?/span>
與GPT模型類似,Sora采用了Transformer架構(gòu),從而實(shí)現(xiàn)了卓越的性能擴(kuò)展。具體來看,OpenAI把視頻和圖像分解為較小的數(shù)據(jù)單元——“patches(小塊)”,每個(gè)“patches”相當(dāng)于GPT中的一個(gè)token(語(yǔ)句)。這種統(tǒng)一的數(shù)據(jù)表示方法能夠在更廣泛的視覺數(shù)據(jù)上訓(xùn)練模型,覆蓋了不同的持續(xù)時(shí)間、分辨率和縱橫比,而這一技術(shù)在之前不可能做到。
此外,Sora基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重標(biāo)注技術(shù),通過為視覺訓(xùn)練數(shù)據(jù)生成詳細(xì)描述的標(biāo)題,使模型更加準(zhǔn)確地遵循用戶的文本指令生成視頻。
OpenAI特別表示,Sora是能夠理解和模擬現(xiàn)實(shí)世界的模型的基礎(chǔ),“我們相信這一能力將是實(shí)現(xiàn)通用人工智能的重要里程碑?!?/span>
例如,當(dāng)輸入提示語(yǔ)句“動(dòng)畫場(chǎng)景的特寫鏡頭,一個(gè)毛茸茸的小怪物跪在一根融化的紅蠟燭旁邊。藝術(shù)風(fēng)格3D、逼真,重點(diǎn)是照明和紋理,情緒包括驚奇和好奇……”時(shí),Sora創(chuàng)造出了一個(gè)類似皮克斯和夢(mèng)工廠電影中的動(dòng)畫小怪物鏡頭。

值得注意的是,該視頻中,小怪物的毛發(fā)紋理極其自然。此前,移動(dòng)中的毛發(fā)紋理效果往往會(huì)耗費(fèi)動(dòng)畫公司極大精力,如皮克斯的《怪獸公司》中,技術(shù)團(tuán)隊(duì)為毛發(fā)紋理耗費(fèi)了幾個(gè)月的時(shí)間,但Sora僅僅依靠AI就生成出來。對(duì)此,OpenAI科學(xué)家Tim Brooks表示,Sora通過觀察大量數(shù)據(jù)學(xué)會(huì)了關(guān)于3D幾何形狀和一致性的知識(shí),“通用人工智能將能夠模擬物理世界,而Sora是朝這個(gè)方向邁出的關(guān)鍵一步?!?/span>
北京時(shí)間2月16日早上8點(diǎn),山姆奧特曼“趁熱”在社交平臺(tái)發(fā)布了招人公告,“OpenAI團(tuán)隊(duì)是我見過的最有才華、最友善的一群人,致力于解決最困難、最有趣和最重要的問題。我們所有關(guān)鍵資源均已到位,專注于打造通用人工智能,你或許應(yīng)該考慮加入我們。”
不過,OpenAI也坦承,目前Sora模型也有弱點(diǎn),“它可能難以準(zhǔn)確模擬復(fù)雜場(chǎng)景的物理特性,并且可能無(wú)法理解因果關(guān)系的具體實(shí)例。例如,一個(gè)人可能會(huì)咬一口餅干,但之后,餅干可能沒有咬痕。同時(shí),該模型還可能混淆提示的空間細(xì)節(jié),例如,左右混淆,并且可能難以精確描述隨時(shí)間推移發(fā)生的事件,例如遵循特定的相機(jī)軌跡。”
在劉興亮看來,Sora模型及其帶來的技術(shù)進(jìn)步,也引發(fā)了一系列倫理和社會(huì)挑戰(zhàn),“隨著AI生成內(nèi)容與現(xiàn)實(shí)之間的界限變得越來越模糊,如何確保內(nèi)容的真實(shí)性和透明性成為了一個(gè)重要問題。此外,版權(quán)、隱私和數(shù)據(jù)安全等問題也需要得到妥善解決。社會(huì)必須面對(duì)這些挑戰(zhàn),通過制定相關(guān)政策、法律和倫理準(zhǔn)則來確保技術(shù)的健康發(fā)展,同時(shí)保護(hù)個(gè)人和社會(huì)的利益不受侵害?!?/span>
目前,OpenAI已經(jīng)將Sora提供給了一些藝術(shù)家用于創(chuàng)作,但距離面向公眾發(fā)行還需要一段時(shí)間,“我們將采取幾個(gè)重要的安全措施,并進(jìn)行對(duì)抗性測(cè)試,一旦公開發(fā)布,我們的文本分類器將檢查違反使用政策的文本輸入提示,例如極端暴力、色情內(nèi)容、名人肖像等。”O(jiān)penAI表示。
“OpenAI的Sora模型不僅是技術(shù)創(chuàng)新的象征,也是對(duì)傳統(tǒng)行業(yè)轉(zhuǎn)型的推動(dòng)力和倫理挑戰(zhàn)的觸發(fā)點(diǎn)。面對(duì)這些變化,社會(huì)需要采取積極的態(tài)度,擁抱技術(shù)帶來的機(jī)遇,同時(shí)警惕和解決伴隨而來的挑戰(zhàn),以確保技術(shù)進(jìn)步能夠惠及全人類?!眲⑴d亮告訴貝殼財(cái)經(jīng)記者。
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡(jiǎn)單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點(diǎn)擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語(yǔ)以及上傳參考圖就能智能高效生成符合要求的...
3. 照片變漫畫效果,這4個(gè)方法操作簡(jiǎn)單有效,快來試試吧!
想將照片變成漫畫效果?這篇文章分享了4個(gè)方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡(jiǎn)單操作就能實(shí)現(xiàn),快來嘗試一下吧!
4. 一款免費(fèi)無(wú)限制的AI視頻生成工具火了!國(guó)內(nèi)無(wú)障礙訪問!附教程
人人都可以動(dòng)手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊(cè)后,點(diǎn)擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個(gè)完全免費(fèi)的AI視頻制作網(wǎng)站和工具
以下是一些免費(fèi)的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個(gè)基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個(gè)工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實(shí)中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動(dòng)起來,創(chuàng)意無(wú)限!
Viggle AI是一款免費(fèi)制作視頻的AI工具,能讓靜態(tài)人物圖片動(dòng)起來,快來了解Viggle AI的功能和優(yōu)勢(shì)吧!
9. 10個(gè)建筑AI工具,從設(shè)計(jì)到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫(kù)科技做出的探索,在這兒就不多說了。今天,我們?cè)囍谝?guī)劃設(shè)計(jì)、建筑方案設(shè)計(jì)、住宅設(shè)計(jì)、管道設(shè)計(jì)、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計(jì)徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!