發(fā)布時間:2024-05-17 17:44:15 瀏覽量:242次
新一輪的大模型之爭開始了。
24小時以前,OpenAI搶先發(fā)布GPT-4o,通過實時的語音、視頻和文本交互刷屏社交網(wǎng)絡(luò),震撼著全世界。僅僅過了一天,科技巨頭谷歌頂著壓力,全面反擊OpenAI。
5月15日凌晨,在一年一度的“科技界春晚”Google I/O 開發(fā)者大會上,谷歌展示了十來款新品和升級,其中就有由升級后Gemini模型驅(qū)動的AI助手項目Project Astra、對標(biāo)Sora的文生視頻模型Veo,以及在硬件方面發(fā)布的第六代Tensor處理器單元(TPU)Trillium芯片,還將搜索業(yè)務(wù)做了最徹底的AI改造。
谷歌首席執(zhí)行官桑達爾?皮查伊(Sundar Pichai)介紹,谷歌所有的工作都圍繞生成式AI模型Gemini來做。一年前,谷歌首次分享了原生多模態(tài)大模型 Gemini的計劃,現(xiàn)在已經(jīng)有超過150萬開發(fā)者正在使用谷歌的人工智能Gemini,“今天,我們希望每個人都能從Gemini的技術(shù)中受益。”
谷歌發(fā)布語音助手Astra,能力上全面對標(biāo)GPT-4o
這次大會,谷歌揭幕了一款名為Project Astra的通用人工智能系統(tǒng),旨在與OpenAI的GPT-4o展開競爭。
谷歌DeepMind首席執(zhí)行官兼聯(lián)合創(chuàng)始人Demis Hassabis親自展示了Astra模型。這款模型通過智能手機的攝像頭捕捉并分析周圍環(huán)境,還能與用戶進行實時對話。
在演示中,用戶手持手機,將攝像頭對準(zhǔn)辦公室的不同角落,并通過語言與系統(tǒng)進行交互。例如,當(dāng)用戶發(fā)出指令“請告訴我智能眼鏡在哪里”時,Astra能夠迅速識別物體,并與用戶進行實時的語音交流。同時,它能成功地識別出代碼序列、為電路圖提出改進建議、通過鏡頭“看到”倫敦國王十字區(qū)等等。

谷歌發(fā)布語音助手Astra。圖源:谷歌年度開發(fā)者I/O大會現(xiàn)場
大會上,谷歌官方演示了這款系統(tǒng)與AR眼鏡的結(jié)合使用,預(yù)示著它在日常生活場景中的廣泛應(yīng)用潛力。目前該應(yīng)用仍處于原型階段,但谷歌表示,計劃在今年晚些時候正式推出。
據(jù)介紹,谷歌在Gemini的基礎(chǔ)上開發(fā)了Astra的原型,可以通過連續(xù)編碼視頻幀、將視頻和語音輸入組合到事件時間線中以實現(xiàn)更快地處理信息。通過語音模型,谷歌也強化了智能助手的說話能力,讓其能夠給出更快速地回應(yīng)。
不過,在演示視頻中,谷歌AI助手的回應(yīng)速度似乎還是會比GPT-4o稍慢一些,語音所表現(xiàn)出的感情色彩也平淡一些。
前一天發(fā)布的GPT-4o多模態(tài)大模型,相較于GPT-4 Trubo速度更快、價格也更便宜。直播過程中,兩位公司員工向大家展示了GPT-4o的更新細(xì)節(jié),比如它能感知用戶情緒、具備不同情緒的聲音、實時視覺功能和更即時的語音交互。其中,ChatGPT-4o還能通過前置攝像頭觀察用戶的面部表情,檢測其情緒。
有評論稱,這個演示顯示,GPT-4o讓聊天機器人不再那么機械冷漠,而是更加接近真實人類,能夠理解并表達情緒,還可以讀取人類的情緒,但讀取還有一點困難。
有業(yè)內(nèi)人士評價,從演示上看,Astra的視覺理解能力確實讓人印象深刻,但在交互體驗上要比GPT-4o實時演示的能力要差許多。無論是響應(yīng)時長、語音的情感豐富度、可打斷等方面,GPT-4o的交互體驗似乎更自然。
谷歌發(fā)布視頻生成模型Veo反擊Sora,視覺效果頗為驚艷
在AI生成視頻方面,谷歌宣布推出視頻生成模型 Veo,能夠生成分辨率最高達1080p的高質(zhì)量視頻,時長可以超過一分鐘,涵蓋多種電影和視覺風(fēng)格。
據(jù)谷歌介紹,Veo在理解視頻內(nèi)容、渲染高清圖像、模擬物理原理等方面都有所突破,能精準(zhǔn)捕捉“延時攝影”、“航拍風(fēng)景”等電影術(shù)語,并將其轉(zhuǎn)化為生動的視覺表達。并具有更高的連貫性和一致性,人物、動物和物體的動作也更加逼真,視覺效果頗為驚艷。

Veo生成的視頻
本著“打不過就加入”原則,很多藝術(shù)家已在嘗試這個項目。谷歌展示了與電影制片人唐納德·格洛弗(Donald Glover)及其創(chuàng)意工作室吉爾加(Gilga)的一些合作,以及藝術(shù)家Wyclef Jean,Marc Rebillet和詞曲作者Justin Tranter在音樂AI沙盒的幫助下發(fā)布的新演示錄音。
早前OpenAI發(fā)布首個文生視頻模型Sora,在網(wǎng)上迅速刷屏,不少網(wǎng)友躍躍欲試。Sora可以快速制作最長一分鐘、準(zhǔn)確反映用戶提示、可一鏡到底的視頻,呈現(xiàn)“具有多個角色、特定類型的動作,以及主題和背景的準(zhǔn)確細(xì)節(jié)”的復(fù)雜場景。
但OpenAI表示,Sora存在不成熟之處,可能難以理解因果關(guān)系。多位人工智能領(lǐng)域人士表示,該問題可能因其概率模式的邏輯存有“硬傷”。加大訓(xùn)練量、增加訓(xùn)練數(shù)據(jù)與物理邏輯可改善該問題,但無法根治。想要真正突破最底層邏輯上的問題,因果關(guān)系是一條必經(jīng)之路。
對于Veo用戶,可以通過點擊“擴展”按鈕,持續(xù)增加視頻的時長,最終達到了1分10秒,超過了Sora的時長。至于它有哪些不足之處,目前暫無定論,還有待用戶體驗。
目前,Veo已經(jīng)開始在谷歌官網(wǎng)開放試用。此外,谷歌還在積極探索更多功能,使Veo能夠制作故事板和更長的場景,進一步拓展其應(yīng)用場景和創(chuàng)作空間。

完全聚焦于AI的這場主題演講總共提到了121次AI。 圖源:谷歌年度開發(fā)者I/O大會現(xiàn)場
在這次Google I/O開發(fā)者大會上,AI依舊是所有話題的中心,幾乎每一個功能更新都與AI緊密相關(guān)。例如,谷歌升級搜索引擎,還更新升級了Gemini1.5Pro版本,同時推出Gemini1.5Flash輕量化小模型。
根據(jù)發(fā)布會最后的官方統(tǒng)計,這場長達 110 分鐘的主題演講中,谷歌總共提到了121次AI。生成式AI的競爭,在此刻達到新的高潮。
這場AI的大角逐到底誰能最后勝出?目前尚無定論。從本次發(fā)布會的展示來看,谷歌和OpenAI之間的差距似乎正在逐漸縮小。兩家公司不僅在AI領(lǐng)域進行激烈的角逐,并且都在努力推動AI應(yīng)用于更廣泛的場景。
盡管我們從谷歌的搜索產(chǎn)品、模型產(chǎn)品上看到了谷歌的疲態(tài)和創(chuàng)新的缺失,外界評論稱,和GPT-4o不到30分鐘的發(fā)布會相比,谷歌“缺乏驚喜”。但從生態(tài)和用戶積累上,谷歌依然具有先天優(yōu)勢。
轉(zhuǎn)載請注明出處
想了解更多關(guān)于AI助手、視頻模型等人工智能技術(shù)的培訓(xùn)課程?不妨點擊點擊咨詢,了解火星時代教育提供的AI繪畫培訓(xùn)、AI音樂創(chuàng)作培訓(xùn)等課程。
熱門資訊
1. 華為手機神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
4. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
9. 10個建筑AI工具,從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!