發(fā)布時間:2024-01-19 17:06:21 瀏覽量:154次
文/李云輝
大數(shù)據(jù)有三個要素,一是海量,體現(xiàn)在數(shù)據(jù)容量越來越大,以新浪微博為例,每天會有幾百TB的增量;二是速度,體現(xiàn)在數(shù)據(jù)量增長越來越快,用戶的規(guī)模增長越來越快,產(chǎn)品業(yè)務(wù)越來越多,用戶行為越來越多,這些都會加快數(shù)據(jù)增長速度和實時性;三是多樣,指的是各種類型的數(shù)據(jù)庫,如文檔、日志、視頻等。
人工智能 (AI) 的基本要素,一是算法,以統(tǒng)計學(xué)為主,包括統(tǒng)計學(xué)的模型,以及深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)等一系列算法;二是數(shù)據(jù),數(shù)據(jù)是算法設(shè)計訓(xùn)練推理的依據(jù),要做算法,前提必須有大量數(shù)據(jù),尤其深度學(xué)習(xí)的場景,需要大量的標(biāo)注樣本;三是算力,深度學(xué)習(xí)是混合的價值獲取方式,目前算力不夠。
現(xiàn)在萬物皆媒,隨著5G的到來,機(jī)器也能生產(chǎn)新聞、創(chuàng)造信息,搭建基于數(shù)據(jù) + 算力 + 算法 + 網(wǎng)絡(luò)的基礎(chǔ)底座。大數(shù)據(jù)、AI驅(qū)動信息智能化變革主要體現(xiàn)在網(wǎng)絡(luò)、數(shù)據(jù)、算法和算力四個方面。
智能信息生態(tài)最下面是基礎(chǔ)層,包括芯片、傳感器、大數(shù)據(jù)、云計算;第二層體現(xiàn)在由CV做圖像識別、分類、排重、語音識別,以及垂直領(lǐng)域里面構(gòu)建的知識圖譜,支持做垂直領(lǐng)域的分發(fā)和金融上的信用。最上面是應(yīng)用層,從媒體的角度包括信息采集,以及采集后的聚合生產(chǎn)、內(nèi)容分發(fā)。還有媒資的管理、內(nèi)容生產(chǎn)源的管理、內(nèi)容安全風(fēng)控的管理、效果的追蹤,以及媒體的經(jīng)營、輿情的監(jiān)控、媒體版權(quán)的保護(hù)等。
(一)新浪大數(shù)據(jù)
下面從三個維度介紹大數(shù)據(jù)的應(yīng)用。一是多種數(shù)據(jù)來源,新浪體系下大概有10家以上的APP,包括新浪微博、財經(jīng)、新浪體育等,還包括第三方數(shù)據(jù)。二是多種數(shù)據(jù)形式,包括用戶的注冊信息、媒體信息、博文信息、內(nèi)容信息;非結(jié)構(gòu)化數(shù)據(jù)、包括用戶的行為日志、圖片、視頻、音頻;半結(jié)構(gòu)化數(shù)據(jù)指的是用戶的訪問和請求,以及博文特征、內(nèi)容標(biāo)簽。三是多種處理要求,包括在線和離線,在線是實時處理,算法用的會更多一些,以及模型的訓(xùn)練、在線模型預(yù)測、在線實時效果報表監(jiān)控;離線包括批處理、機(jī)器學(xué)習(xí),以及每天給高管看的各種經(jīng)營分析運(yùn)營報表。
? 大數(shù)據(jù)的基本組成體系,從下往上,從平臺的角度來講,整合了新浪集團(tuán)所有的業(yè)務(wù)相關(guān)數(shù)據(jù),也可以理解為是集團(tuán)的數(shù)據(jù)中心和平臺。基于維度建模思想面向主題、歷史、決策的數(shù)據(jù)倉庫,我們構(gòu)建了數(shù)據(jù)平臺,提供了大數(shù)據(jù)的傳輸,從前端日志的采集到實時、離線的采集,以及到后面實時的處理,為各用戶提供的基礎(chǔ)資源。第二層是對應(yīng)的服務(wù),面向不同業(yè)務(wù)類型、不同角色提供不同服務(wù)。比如,面向算法工程師,提供更多的是計算平臺、存儲平臺,以及外圍工具平臺、數(shù)據(jù)調(diào)度管理等;面向運(yùn)營、業(yè)務(wù)、分析師等更多的是提供更高效的查詢數(shù)據(jù)、統(tǒng)計數(shù)據(jù)自動化工具和多維的分析;面向產(chǎn)品提供KPI監(jiān)測和每天經(jīng)營的情況,以及大盤的指標(biāo)、漲跌的歸因等。在服務(wù)上我們提供了一些產(chǎn)品,對內(nèi)的工具和對外的商業(yè)化接口。從價值方面,可以提升內(nèi)容的商業(yè)變現(xiàn),也可以提升內(nèi)部的效率、產(chǎn)品的優(yōu)化和迭代。
? 大數(shù)據(jù)的流程架構(gòu),我們在開源體系上做了一些外圍工具開發(fā),以及內(nèi)部集成和優(yōu)化。一是數(shù)據(jù)源,包括用戶產(chǎn)生的UGC數(shù)據(jù)、行為數(shù)據(jù)、內(nèi)容管理數(shù)據(jù)。有了這些數(shù)據(jù)源后,前端服務(wù)器采集到這樣的日志,最終通過實時數(shù)據(jù)存檔的隊列;再對應(yīng)到中間部分的處理,通過集群,一部分寫到離線文件,一部分轉(zhuǎn)發(fā)到實時集群;對應(yīng)到處理方面,包括存儲、計算等。在此基礎(chǔ)上做了很多外圍工具,以及對應(yīng)的存儲周期和存儲邏輯、上下游的依賴等,都會在管理系統(tǒng)定位查詢。二是監(jiān)控,我們會監(jiān)控一些節(jié)點、任務(wù),以及監(jiān)控作業(yè)之間的效率,給用戶統(tǒng)一入口,通過網(wǎng)關(guān)方式登錄訪問存儲平臺。
在存儲計算平臺上搭建離線數(shù)據(jù)倉庫和實時數(shù)據(jù)倉庫,把這些結(jié)果實時處理完成,后面的應(yīng)用就是在這里進(jìn)行機(jī)器學(xué)習(xí)、模型訓(xùn)練學(xué)習(xí)、數(shù)據(jù)分析、數(shù)據(jù)挖掘、KPI報表、API服務(wù)等。圍繞大數(shù)據(jù)來講,標(biāo)準(zhǔn)化體系當(dāng)前有幾個主流方向。一是實時和離線數(shù)據(jù)湖,這是當(dāng)前的技術(shù)方向。數(shù)據(jù)要求的是實時處理,原來按天看報表,到后面按小時看報表;現(xiàn)在實時化看數(shù)據(jù),到線上模型實時特征訓(xùn)練,以及對應(yīng)預(yù)測。實時化是大數(shù)據(jù)處理的方向,包括實時處理能力。數(shù)據(jù)量越來越大,處理數(shù)據(jù)越來越大,異構(gòu)數(shù)據(jù)越來越多,怎樣搭建一套實時的數(shù)據(jù)處理平臺和倉庫。二是面向更復(fù)雜的多維分析,首先定義分析維度,然后數(shù)據(jù)準(zhǔn)備,再進(jìn)行多維分析。隨著業(yè)務(wù)的發(fā)展、用戶的運(yùn)營等,對用戶深入的洞察、對整體的分析要求越來越深入和靈活,針對不同粒度、不同維度下能不能任意交叉,實時統(tǒng)計和分析。三是不同角色的處理效率可以有很大提升,包括數(shù)據(jù)ETL抽取、調(diào)度這些源數(shù)據(jù),以及自動化查詢工具等。四是更多面向于圖數(shù)據(jù),如微博就是有大量節(jié)點的圖譜。五是在大數(shù)據(jù)中,現(xiàn)在提的比較多的方向是數(shù)據(jù)資產(chǎn)、數(shù)據(jù)治理,有了這些數(shù)據(jù),怎樣去評估它們的價值。作為企業(yè)來講,怎么反映數(shù)據(jù)給企業(yè)帶來的價值,這個數(shù)據(jù)的成本、數(shù)據(jù)給商業(yè)和內(nèi)部帶來的驅(qū)動;數(shù)據(jù)的資產(chǎn)不僅是企業(yè)內(nèi)部的數(shù)據(jù)資產(chǎn),還包含面對客戶服務(wù)的數(shù)據(jù)資產(chǎn),以及數(shù)據(jù)的治理、數(shù)據(jù)的安全,怎樣保證數(shù)據(jù)質(zhì)量一致性、完整性和安全性,做好數(shù)據(jù)安全的風(fēng)控。
大數(shù)據(jù)行業(yè)當(dāng)前推進(jìn)的趨勢和方向——實時數(shù)倉。我們的原數(shù)據(jù)是實時的,這些數(shù)據(jù)來自訪問日志,比如訪問了微博、看了某篇博文會上報一條用戶的訪問行為數(shù)據(jù);然后把后端的一些數(shù)據(jù)通過實時傳輸,進(jìn)入我們的ADS、MDS、ODS。這和前面介紹的離線有一些區(qū)別,這里會做一些結(jié)構(gòu)化動作。比如,我想知道今天體育博文的閱讀量就會針對博文做分類和結(jié)構(gòu)化,實時調(diào)算法的接口,再過濾一些條件、規(guī)則,同時按照產(chǎn)品、業(yè)務(wù)線進(jìn)行分流;然后把一些用戶的維度,比如用戶的行為數(shù)據(jù),與用戶的數(shù)據(jù)進(jìn)行交叉,這時會進(jìn)行實時過濾、處理。到MDS層,做一個相對顆粒度比較細(xì)的匯總,主要以用戶為總線,加上各維度統(tǒng)計用戶行為。ADS是面向于我們最后的高度匯總數(shù)據(jù),根據(jù)相關(guān)的博文實時計算?,F(xiàn)在從技術(shù)架構(gòu)體系和平臺來講,有依賴內(nèi)存的,還有用搜索機(jī)制去做的。統(tǒng)計出來的維度相對比較明確,這時維度要做實時多維分析?,F(xiàn)在放在ES里去做,能做到10億+的用戶、上千維特征任意的交叉統(tǒng)計,大概在100毫秒以內(nèi)。還有比較明細(xì)的數(shù)據(jù),用戶是無感知的,會根據(jù)用戶提交的不同業(yè)務(wù)類型自動分發(fā)到不同的分析引擎進(jìn)行分析,最后通過計算和分析引擎反饋到用戶。對應(yīng)在做實時熱點的發(fā)現(xiàn)、內(nèi)容消費的洞察,這方面主要是智能媒體和數(shù)字化的營銷。
(二)AI應(yīng)用
新浪集團(tuán)體系內(nèi)大數(shù)據(jù)的應(yīng)用規(guī)模,包括新浪集團(tuán)所有子公司和各產(chǎn)品線的研發(fā)、產(chǎn)品、運(yùn)營,同時在使用這個產(chǎn)品進(jìn)行日常數(shù)據(jù)化驅(qū)動。圍繞大數(shù)據(jù)的能力,以及大數(shù)據(jù)的一些數(shù)據(jù)平臺,結(jié)合我們的業(yè)務(wù)、算法做了哪些AI應(yīng)用?
新浪是一家媒體,落在智能信息平臺上,主要分為熱點發(fā)現(xiàn)、內(nèi)容編輯、審核擇優(yōu)、產(chǎn)品形式和智能傳播五個環(huán)節(jié)。發(fā)文章首先要有配圖、文字糾錯;如果發(fā)話題要有摘要、事件的詳情脈絡(luò)、信息流里自動的標(biāo)題、內(nèi)容的聚合、輿情的觀點等;審核需要做的是安全、敏感的審核;分發(fā)主要包括個性化分發(fā),以觀眾體系下社交下的分發(fā),還有運(yùn)營導(dǎo)向的熱點分發(fā)?,F(xiàn)在我們的生態(tài)是多終端的,既可以在APP上看到,也可以在手表、智能音箱上看到新浪提供的內(nèi)容。
1. 線索發(fā)現(xiàn)
新浪早期是門戶,后變成博客,隨后有了微博社交媒體,最后是新媒體的個性化,到當(dāng)前既有社交又有新媒體個性化綜合的信息平臺。帶來的最大變化是內(nèi)容底層、內(nèi)容生產(chǎn)者在變,原來有數(shù)萬的PGC,到現(xiàn)在數(shù)百萬的自媒體,再到現(xiàn)在的視頻化、社交化,如何從海量信息里篩選出用戶關(guān)心的重要新聞線索,是內(nèi)部運(yùn)營面臨的很大挑戰(zhàn)。新浪 + 微博是很大的優(yōu)勢,全網(wǎng)的熱點一般都是在微信或微博上先進(jìn)行傳播,形成一個全網(wǎng)級的發(fā)酵一定是微博帶來的更大傳播,所以能知道熱點事件所有傳播鏈路。我們總結(jié)編輯運(yùn)營經(jīng)驗,從業(yè)務(wù)數(shù)據(jù)化到數(shù)據(jù)特征化、到特征實時處理、到AI模型,最后是人工審核。作為一個資深編輯,其經(jīng)驗是建立在每天發(fā)生什么樣的事情,記下發(fā)生的時間、地點、場所,以及帶來的影響等,通過歷史數(shù)據(jù)可以判斷這件事情會不會有熱點。結(jié)合這些邏輯、模型會把這些數(shù)據(jù)源(包括全網(wǎng)的數(shù)據(jù)),以微博數(shù)據(jù)為核心,包括新浪新聞媒體的數(shù)據(jù)做結(jié)構(gòu)化,對事件進(jìn)行識別;還會針對博文的統(tǒng)計特征進(jìn)行分析,傳播的鏈路、賬號的屬性和內(nèi)容,什么時間發(fā)的,它們之間是什么關(guān)系,是不是傳播節(jié)點、引爆節(jié)點,以及對應(yīng)的行為;對應(yīng)的行為及對應(yīng)過程中有沒有大V評論,從而就構(gòu)建了一些特征。根據(jù)這樣的特征構(gòu)建熱點分析和預(yù)測,就可以看到是一個什么走勢,以及對統(tǒng)計走勢的判斷。運(yùn)營再進(jìn)行線索的審核,審核完成對應(yīng)到熱點的運(yùn)營。
我們內(nèi)部使用的大數(shù)據(jù)賦能熱點實時發(fā)現(xiàn)平臺,現(xiàn)在做到每分鐘基于微博全國量的數(shù)據(jù),如重要的產(chǎn)品用戶指標(biāo),與過去30天異動的指數(shù),結(jié)合用戶的畫像,知道哪些用戶關(guān)心的熱點和不同地域下用戶關(guān)心的熱點是什么,以及他們關(guān)注的詞匯是什么,點了這些詞云后就知道有哪些熱點博文。對熱點博文的排序、當(dāng)下最熱博文,以及對應(yīng)熱門博文的用戶畫像等,輔助運(yùn)營第一時間發(fā)現(xiàn)熱點。
例如,巴黎圣母院大火。這個事件涉及到60+領(lǐng)域、5000+頭部用戶參與,全部用戶發(fā)博300+萬、曝光40+億。這個熱點有很明顯特征,10分鐘內(nèi)博文量超過平常的3倍多。根據(jù)用戶在后續(xù)有沒有興趣關(guān)注點的變化和遷移,我們有很多熱點延伸,希望給用戶提供更豐富的內(nèi)容服務(wù)。
實時熱點的發(fā)現(xiàn)從內(nèi)容源頭能夠監(jiān)測前面所有線索、突發(fā)熱點,人工審核完成后一鍵發(fā)布、自動審核;然后直接看到下發(fā)大屏效果,以及各人群效果,再調(diào)整內(nèi)容下發(fā)的策略,這是全鏈條邏輯。
2. 內(nèi)容生產(chǎn)端
內(nèi)容生產(chǎn)平臺算法分為NLP和CV兩部分,文本能力主要是做語言模型和語義理解。我們會做一些自動糾錯、錯別字識別,這些模型也在做這部分的訓(xùn)練學(xué)習(xí)。任務(wù)是以分類識別為主,如做了圖像的分類、人臉識別?;趦煞N場景,一是圖片構(gòu)建了百萬級別的語料庫,包括視頻的排重;二是基于上面這些平臺,做自動標(biāo)題、文章配圖、主題識別、摘要提煉、糾錯排重等。視覺能力主要是圖像質(zhì)量、圖像美學(xué)、視頻清晰度、視頻質(zhì)量、裁剪、智能配圖等。
模型算法案例一 文章自動配圖。因為是新聞場景,上面需要有一些配圖,機(jī)器配圖是一個很復(fù)雜的事情,來源文章內(nèi)所有圖片,策略會進(jìn)行圖片的質(zhì)量、分類、裁圖等。配圖是很復(fù)雜的模型,首先做識別判斷,比如一幅大圖里有很多文字不適宜作配圖;低質(zhì)的圖形識別出來要過濾掉。我們有一個百萬級別的圖像庫,對圖片打一個美學(xué)分?jǐn)?shù),配出的圖不能重復(fù),所以要進(jìn)行指紋排重。早期可能用各種特征去做,篩選后看一下文章和標(biāo)題的相關(guān)性。用多模態(tài)去做動態(tài)相關(guān)性模型,可以學(xué)到哪幅圖與標(biāo)題相關(guān),最后用美學(xué)和相關(guān)性做綜合排序,輸出侯選可以配圖的topN。在裁減時還要識別出圖片主題區(qū)域,將人臉拿出來單獨做人臉模型,裁減完成后會在前端根據(jù)落地的業(yè)務(wù)場景進(jìn)行自配。
模型算法案例二 視頻標(biāo)簽。視頻標(biāo)簽有一定難度。我們有百萬級的標(biāo)簽體系,希望一篇視頻打出來它屬于哪個領(lǐng)域、哪個主人物,以及對應(yīng)哪個IP,落地到相關(guān)推薦,根據(jù)人物推同一人物、明星,以及視頻的合集。視頻標(biāo)簽采用了多模態(tài)技術(shù),現(xiàn)在我們有圖文特征、標(biāo)題特征和音頻特征等千萬級樣本。最后是多任務(wù)的學(xué)習(xí)方式,進(jìn)行特征抽取網(wǎng)絡(luò),希望有一個對應(yīng)約束?,F(xiàn)在已經(jīng)做到第三個版本,準(zhǔn)確率在85%的水平,一級可能會高一些。
模型算法案例三 機(jī)器新聞。人工先定義出模板,深度學(xué)習(xí)在這里主要做預(yù)測工作。原始數(shù)據(jù)來源于全網(wǎng)重要資訊、財經(jīng)第三方數(shù)據(jù)和微博數(shù)據(jù),比如體育比賽在什么位置、有什么樣動作,這些都是人工梳理出來的模板,由這樣的句式和模板生成這篇基于前面采集到的信息,根據(jù)句式模式生成句子侯選和段落侯選,進(jìn)行表述銜接。我們會有一些表述銜接的語言生成,主要落地在財經(jīng)和體育方面,包括財經(jīng)快訊、行情股市資訊、直播間和賽事結(jié)果數(shù)據(jù)等。
3. 人工審核
人工審核采用的是多模態(tài)識別。這里網(wǎng)絡(luò)結(jié)構(gòu)是類似的,通過底層各內(nèi)容來源做識別,識別出來后會有人工二次審核工作,判定最后問題的歸類,進(jìn)行人工干預(yù)。
4. 分發(fā)
審核完成后進(jìn)行分發(fā),第一部分是用戶;第二部分是物料。用戶畫像是基于新浪集團(tuán)所有打通的數(shù)據(jù);物料包括運(yùn)營熱點、運(yùn)營專題,以及視頻垂直領(lǐng)域、圖文、音頻等;場景包括地理位置、時間、網(wǎng)絡(luò)、產(chǎn)品位;分發(fā)包括運(yùn)營分發(fā)、搜索分發(fā)、個性化分發(fā)和關(guān)注分發(fā)等。
5. 推薦
我們產(chǎn)品有個性化推薦、相關(guān)推薦、視頻推薦、主題推薦。推薦的架構(gòu)在行業(yè)內(nèi)都是標(biāo)準(zhǔn)的東西,主要區(qū)別是實現(xiàn)邏輯、模型、策略、物料不同??傮w上,數(shù)據(jù)收集到大數(shù)據(jù)平臺做樣本拼接、模型訓(xùn)練。我們主要做的是用戶請求,把用戶在曝光時有哪些特征,比如性別、年齡、地域的統(tǒng)計學(xué)特征、用戶興趣的統(tǒng)計學(xué)特征,以及用戶在最近一段時間各時間段、維度、產(chǎn)品、行為下的點擊,這些都要收集進(jìn)去,代表當(dāng)時是什么原因給用戶曝光文章;還包括一級和二級分類、標(biāo)簽,以及一些作者信息,這兩部分拼進(jìn)去了就可以回答用戶此時此刻請求的興趣有哪些,給他推薦哪些侯選。另外,因為有哪些靜態(tài)屬性、統(tǒng)計特征,所以進(jìn)來了這樣一個侯選,以及在這一側(cè)交叉的匹配;最后選擇排序邏輯。模型要學(xué)的就是這樣一個場景。我們要根據(jù)這個場景做拼接樣本、模型訓(xùn)練和預(yù)測。對應(yīng)的是在線推薦,一個是畫像類的;一個是召回類的,包括內(nèi)容、模型、熱門、策略等召回,這里重要的是要知道效果是否好。總之,從物料到召回、到排序,包括特征工程、模型訓(xùn)練、在線預(yù)測和在線評估,這是業(yè)內(nèi)比較通用的架構(gòu)。
6. 召回算法
現(xiàn)在推薦的大家都認(rèn)為千人千面,其實不然,推薦做的更多是滿足中短期興趣的推薦。召回算法主要分為三類,一是基于用戶畫像類。比如,我喜歡 C 羅,他喜歡足球,可以根據(jù)標(biāo)簽做吻合,再根據(jù)表現(xiàn)的打分做排序。用戶畫像的召回核心在于用戶畫像的計算,包括基礎(chǔ)的數(shù)據(jù)倉庫里做統(tǒng)計。現(xiàn)在畫像都是基于深度學(xué)習(xí)模型預(yù)測的,預(yù)測你的長期興趣、標(biāo)簽是什么程度。二是對應(yīng)模型類,協(xié)同過濾用的非常多,網(wǎng)絡(luò)結(jié)構(gòu)上包括后面的蒸餾;又要用到一些復(fù)雜網(wǎng)絡(luò),想在雙塔上做,這時就用單塔的目標(biāo)指引雙塔目標(biāo)學(xué)習(xí),后面會有一些多目標(biāo)。三是策略類,各家公司業(yè)務(wù)策略不同,對我們來講有策略邏輯,評價有熱度、相關(guān)度、覆蓋度等一系列指標(biāo)體系。
7. 排序
排序發(fā)展階段,從早期經(jīng)濟(jì)學(xué)的算法,廣告比較多,后面用到了多目標(biāo)排序。常見的目標(biāo)有點擊率,還有一些是互動類評估(如點贊)。排序算法的路徑除了算法學(xué)習(xí)上有一個迭代外,還有在模型的訓(xùn)練上有一個變化。在排序上的變化有幾個目標(biāo),圍繞多目標(biāo)的路線發(fā)展,體現(xiàn)在特征個數(shù)。真正的挑戰(zhàn)體現(xiàn)在特征的實時處理能力,而且還要保證實時特征處理數(shù)據(jù)的一致性,數(shù)據(jù)質(zhì)量是影響排序算法的關(guān)鍵因素。特征越實時統(tǒng)計,訓(xùn)練時與線上預(yù)測時的數(shù)據(jù)一致性要保證相同,實時性越強(qiáng),就有各種的客觀現(xiàn)象,能帶來各種延遲和不一致,這是客觀存在的現(xiàn)象。
多目標(biāo)發(fā)展的變化。原來我們多目標(biāo)的技術(shù),比如模型預(yù)估的概率和時長的值會做一個權(quán)重融合,很多是網(wǎng)絡(luò)搜索、交叉組合完后把所有模型訓(xùn)練學(xué)習(xí)一遍,選擇最優(yōu)的放到線上,用這種方式做的組合。之后我們希望模型能學(xué)到時長融合的權(quán)重,模型在線學(xué)習(xí)參數(shù),利用它做融合預(yù)測。發(fā)展到現(xiàn)在,用PSO方式做自動搜索是現(xiàn)在做的主流方向。從多目標(biāo)的網(wǎng)絡(luò)結(jié)構(gòu)上講,每個目標(biāo)都可以學(xué),學(xué)完后進(jìn)行融合。還有一種是用一個大模型學(xué)出多個目標(biāo)后,再用多個目標(biāo)融合,我們有這樣一個對應(yīng)的單模型和發(fā)展。另外一個發(fā)展就是會有一些專家網(wǎng)絡(luò)共享,就是現(xiàn)在的多目標(biāo)排序——排序結(jié)構(gòu)變化、多目標(biāo)網(wǎng)絡(luò)結(jié)構(gòu)變化,還有多目標(biāo)最后目標(biāo)的調(diào)參變化。
比如,社會熱點案例——貨拉拉事件的引爆,再到媒體集體發(fā)聲到社會反思,我們怎樣服務(wù)好用戶,做好用戶分發(fā)體驗。
在疫情下我們也做了很多創(chuàng)新,從2019年12月31日一直到現(xiàn)在,經(jīng)歷了各階段的發(fā)展,現(xiàn)在都是靠AI賦能,通過信息采集,到自動化信息聚合、解析,以及疫情專題的自動生成、疫情地圖的自動標(biāo)注做了一些閉環(huán)查詢,以及很多可視化產(chǎn)品,如策劃了新浪疫情地圖,方便用戶能夠更直觀看到疫情的態(tài)勢。
如果沒有大數(shù)據(jù)要做人工智能無從談起,大數(shù)據(jù)里需要一些流程和平臺,以及落地一些應(yīng)用。從面向統(tǒng)計型數(shù)據(jù)到分析型數(shù)據(jù)、價值型數(shù)據(jù),我們都是通過數(shù)據(jù)化指導(dǎo)日常工作。調(diào)優(yōu)能做到敏捷迭代,這是必不可少的。圍繞大數(shù)據(jù)做AI,包含基礎(chǔ)平臺、內(nèi)容搭建、生產(chǎn)、聚合,到分發(fā),利用大數(shù)據(jù)實時計算和算法的結(jié)合,賦能AI。如何做好內(nèi)容生產(chǎn)自動化,以及個性化算法分發(fā)概況和關(guān)鍵點,怎么去理解推進(jìn)其邏輯和建模思想。
未來與信息媒體相關(guān)的方向是5G、視頻和區(qū)塊鏈,以及智能化分發(fā)技術(shù)。直播是新浪很重要的產(chǎn)品線,5G超快網(wǎng)速、超低延遲的特點更加有助于視頻化的發(fā)展。
從內(nèi)容生產(chǎn)上看也是很明顯變化,從PGC到UGC、TGC,內(nèi)容生產(chǎn)結(jié)構(gòu)變的視頻化,而我們的需求沒有變,只是需求范圍變大、深度變深,需要看更多、更豐富的內(nèi)容。5G由PGC到TGC,比如可以看到元宇宙;還有智能冰箱本身也能產(chǎn)生很多數(shù)據(jù),智能烤箱可以看到烤面包的變化過程,這些都是TGC所生產(chǎn)的。未來會呈現(xiàn)大數(shù)據(jù)很重要的環(huán)節(jié),因為這些數(shù)據(jù)之間萬物互聯(lián),量大,形態(tài)變多。還有各種網(wǎng)絡(luò)結(jié)構(gòu),如何挖掘中間的關(guān)系和聯(lián)系,都是很大挑戰(zhàn),而且對深度學(xué)習(xí)、AI來講要求更高。所以,這個數(shù)據(jù)巨大,必須通過一些算法進(jìn)行相關(guān)處理。內(nèi)容消費場所的變化,生活中都有感受。現(xiàn)在最新的華為手機(jī)能測24小時動態(tài)血壓,用戶能看懂監(jiān)測報告,這些成果都是5G帶來的機(jī)會。不同的新技術(shù)帶來新產(chǎn)品形態(tài)和新業(yè)務(wù)形態(tài)。
視頻方面主要是5G和視頻的結(jié)合,面向于高清、多維、低延遲,最大的體現(xiàn)是正在做的AR、VR,比如奧運(yùn)會、交互式視頻、互動類視頻,視頻更清晰和高清,直播更流暢。
區(qū)塊鏈就是去識別原創(chuàng)文章和原創(chuàng)視頻,比如現(xiàn)在有很多的“搬運(yùn)工”和抄襲,如何識別文章是否原創(chuàng),可以通過區(qū)塊鏈的技術(shù)落地到版權(quán)。
新技術(shù)會推動媒體進(jìn)入新紀(jì)元,體現(xiàn)在主流的價值觀。新浪的主流價值觀是傳播正能量,提供優(yōu)質(zhì)內(nèi)容、深度內(nèi)容,利用大數(shù)據(jù)、AI更多滿足用戶獲取有價值信息,基本上就是全流程、全環(huán)節(jié),數(shù)字營銷也是如此。商業(yè)模式在智能化產(chǎn)品里,不管是內(nèi)部數(shù)字化賦能,還是提供智能化產(chǎn)品都會帶來很大變化。技術(shù)管理+內(nèi)容會帶來一些挑戰(zhàn)和發(fā)展。

選自《中國人工智能學(xué)會通訊》
2022年第12卷第2期
AI領(lǐng)域?qū)I(yè)技術(shù)的轉(zhuǎn)移轉(zhuǎn)化
熱門資訊
1. 華為手機(jī)神奇“AI修圖”功能,一鍵消除衣服!原圖變身大V領(lǐng)深V!
最近華為手機(jī)Pura70推出的“AI修圖”功能引發(fā)熱議,通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎?點擊查看!
近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術(shù)尤為引人注目。只需在特定軟件中輸入關(guān)鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...
想將照片變成漫畫效果?這篇文章分享了4個方法,包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖,簡單操作就能實現(xiàn),快來嘗試一下吧!
4. 一款免費無限制的AI視頻生成工具火了!國內(nèi)無障礙訪問!附教程
人人都可以動手制作AI視頻! 打開網(wǎng)址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...
5. 趕緊收藏好!這4個完全免費的AI視頻制作網(wǎng)站和工具
以下是一些免費的AI視頻制作網(wǎng)站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉(zhuǎn)換為視頻。 用戶可以使...
6. 零基礎(chǔ)10分鐘生成漫畫,教大家如何用AI生成自己的漫畫
接下來,我將親自引導(dǎo)你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...
就能快速生成一幅極具藝術(shù)效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細(xì)操作!有需要的快來...
8. AI視頻制作神器Viggle:讓靜態(tài)人物動起來,創(chuàng)意無限!
Viggle AI是一款免費制作視頻的AI工具,能讓靜態(tài)人物圖片動起來,快來了解Viggle AI的功能和優(yōu)勢吧!
9. 10個建筑AI工具,從設(shè)計到施工全覆蓋!肯定有你從來沒聽過的
講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設(shè)計、建筑方案設(shè)計、住宅設(shè)計、管道設(shè)計、出渲染圖、3D掃...
10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器
這下LOGO設(shè)計徹底不用求人了。接下來詳細(xì)演示一遍操作流程首先進(jìn)入Logo D... 想學(xué)習(xí)更多AI技能,比如說關(guān)于怎么樣利用AI來提高生產(chǎn)效率、還能做什么AI...
最新文章
同學(xué)您好!