當前位置：首頁 >人工智能 >谷歌讓大模型更具“心智”，GPT-4任務準確率大增

谷歌讓大模型更具“心智”，GPT-4任務準確率大增

發(fā)布時間：2023-11-28 14:54:52 瀏覽量：117次

心智水平已達人類七成

克雷西發(fā)自凹非寺

|

谷歌聯(lián)合多所高校的一項最新研究，讓大模型開始擁有了人類的“心智”。

在新的提示策略下，大模型不僅能推測出人類所面臨的問題，還學會了用推測的結論調整自己的行為。

有了這一成果，GPT-4的“心智”水平已經提高到了人類的71%。

具體來說，研究人員發(fā)現(xiàn)，現(xiàn)在的大模型，已經具備了在對話中推測人類“在想啥”的能力。但如果你要它根據這種推理給出行動建議，那可就難倒大模型了。

舉個例子，小明放學回家后把書包扔到沙發(fā)上就跑出去玩了，媽媽看到之后幫小明把包放到了臥室。

如果大模型能夠像人類一樣，在小明回來之后告訴他包在臥室，就說明大模型具備了“心智理論”。

研究人員把這種做法稱為Thinking for Doing(T4D)，并設計了相應的任務。

為了提高模型在T4D任務上的表現(xiàn)，團隊進一步提出了Foresee and Reflect(FaR)提示策略，結果讓大模型在“心智”上取得了重大突破。

論文的標題也包含了“How far……” ，一語雙關，既體現(xiàn)了FaR框架對大模型的幫助，又暗含了大模型離具有人類“心智”的距離。

那么，有了FaR的大模型，究竟擁有什么樣的“心智”呢？

大模型離具有“心智”更進一步

我們還是從例子說起，如下圖所示，一共有綠色和藍色兩個櫥柜，Tom在綠色櫥柜中放了一塊巧克力。

Tom離開后，Ella把這塊巧克力挪到了藍色的柜子里。

那么等Tom再回來，會從哪個柜子中找巧克力呢？（當然是綠色的）

這就是一個“推理”任務，是心理學上著名的“薩利-安妮”（用于測試“心智”）實驗的變體。

而T4D任務是這樣的：

如果你就在旁邊（并且知道發(fā)生了什么），會怎么做？

人類會選擇告訴Tom巧克力被挪走了，但（未經調教的）大模型就不一定會這樣做了。

為了更宏觀地測試大模型在調整前后的表現(xiàn)，研究團隊選擇了ToMi數(shù)據集并改編成了T4D-Tom數(shù)據集。

其中的ToMi是一個由大量“薩利-安妮”類情景組成的測試數(shù)據集，用于測試大模型的“心智推理”能力。

可以看出，在推理上，表現(xiàn)最好的GPT-4與人類已經相差無幾，但在T4D任務上才剛剛達到人類水平的一半。

于是，研究團隊提出的FaR方法登場了。

FaR框架的核心奧義就是模仿人類的理性思維方式，和A*搜索算法（用于搜索最短路徑）有些相似。

具體來說，F(xiàn)aR包括Foresee和Reflect兩步。

Foresee過程中模型會被要求預測接下來會發(fā)生什么，并分析人所面臨的“困難”。

Reflect發(fā)生在Foresee之后，模型會預測自己接下來的行為是否能解決相應的“困難”。

有了FaR框架，效果也是立竿見影。

相比于思維鏈（CoT）、思維樹（ToT）、自己提問等方式，F(xiàn)aR顯著提高了大模型在“薩利-安妮”類T4D問題上的準確率。

特別是GPT-4，準確率從人類的50%提升到了71%，GPT-3.5以及谷歌自家的PaLM表現(xiàn)也有提高。

消融實驗結果表明，F(xiàn)oresee和Reflect兩步都是FaR的關鍵步驟，缺一不可。

為了驗證FaR方法的通用性和魯棒性，研究團隊還進行了一系列泛化測試。

首先是在“薩利-安妮”情景的基礎上改變故事的結構，研究團隊一共嘗試了三種方式：

D1：增加房間的數(shù)量
D2：人物的數(shù)量增多
D3：容器的數(shù)量增加到四個

結果FaR依舊成功幫助大模型提高了任務的準確率，在第三種模式下GPT-4甚至取得了和人類相當?shù)某煽?/strong>。

即使故意設置干擾信息，F(xiàn)aR依舊可以提高大模型的表現(xiàn)。

研究團隊專門構建了包含困擾信息的“Faux Pas”數(shù)據集，結果GPT-4的表現(xiàn)從31%提高到了76%。

作者簡介

FaR論文的第一作者是南加州大學NLP實驗室的華人博士生Pei Zhou。

這項成果是他在谷歌實習期間完成的。

此外，來自谷歌（包括DeepMind）、卡耐基梅隆大學和的芝加哥大學的學者也參與了本項目。

那么對于大模型的“心智”，你有什么看法呢？

論文地址：
http://arxiv.org/abs/2310.03051

— 完 —

上一篇北師大未來設計學院在第六屆中國教博會發(fā)布五項PBL大挑戰(zhàn)項目

下一篇用暫停token重新訓練大模型，AI學會三思而后行

熱門課程推薦

熱門資訊

1. 華為手機神奇“AI修圖”功能，一鍵消除衣服！原圖變身大V領深V！

最近華為手機Pura70推出的“AI修圖”功能引發(fā)熱議，通過簡單操作可以讓照片中的人物換裝。想了解更多這款神奇功能的使用方法嗎？點擊查看！

2. 四款值得推薦的AI以圖生圖軟件，有需要的趕緊來試試!

近年來,人工智能逐漸走入公眾視野,其中的AI圖像生成技術尤為引人注目。只需在特定軟件中輸入關鍵詞描述語以及上傳參考圖就能智能高效生成符合要求的...

3. 照片變漫畫效果，這4個方法操作簡單有效，快來試試吧！

想將照片變成漫畫效果？這篇文章分享了4個方法，包括Photoshop、聰明靈犀、VanceAI Toongineer、醒圖，簡單操作就能實現(xiàn)，快來嘗試一下吧！

4. 一款免費無限制的AI視頻生成工具火了!國內無障礙訪問!附教程

人人都可以動手制作AI視頻! 打開網址https://pixverse.ai/,用郵箱注冊后,點擊右上角Create,就可以開始創(chuàng)作了。 PixVerse目前有文案生成視頻,和圖片生...

5. 趕緊收藏好!這4個完全免費的AI視頻制作網站和工具

以下是一些免費的AI視頻制作網站或工具,幫助您制作各種類型的視頻。 1. Lumen5:Lumen5是一個基于AI的視頻制作工具,可將文本轉換為視頻。用戶可以使...

6. 零基礎10分鐘生成漫畫，教大家如何用AI生成自己的漫畫

接下來,我將親自引導你,使用AI工具,創(chuàng)作一本既有趣又能帶來盈利的漫畫。我們將一起探索如何利用這個工具,發(fā)揮你的創(chuàng)意,制作出令人驚嘆的漫畫作品。讓...

7. 四款軟件讓你一鍵生成AI美女!

就能快速生成一幅極具藝術效果的作品,讓現(xiàn)實中不懂繪畫的人也能參與其中創(chuàng)作!真的超贊噠~趣趣分享幾款超厲害的AI繪畫軟件,提供詳細操作!有需要的快來...

8. AI視頻制作神器Viggle：讓靜態(tài)人物動起來，創(chuàng)意無限！

Viggle AI是一款免費制作視頻的AI工具，能讓靜態(tài)人物圖片動起來，快來了解Viggle AI的功能和優(yōu)勢吧！

9. 10個建筑AI工具，從設計到施工全覆蓋!肯定有你從來沒聽過的

講述了建筑業(yè)比較著名的AI公司小庫科技做出的探索,在這兒就不多說了。今天,我們試著在規(guī)劃設計、建筑方案設計、住宅設計、管道設計、出渲染圖、3D掃...

10. Logo Diffusion——基于sd繪畫模型的AI LOGO 生成器

這下LOGO設計徹底不用求人了。接下來詳細演示一遍操作流程首先進入Logo D... 想學習更多AI技能,比如說關于怎么樣利用AI來提高生產效率、還能做什么AI...

最新文章

1. 想回老家工作？沒問題！人還沒畢業(yè)、工作就安排上了、薪資也很滿意！

2. 除迪士尼外，無人能惡搞其IP

3. 從摸不到門檻的小白，到畢業(yè)成功入職大廠，只用6了個月？

4. 北京市出臺支持辦法推動游戲電競行業(yè)高質量發(fā)展

5. 2025 Google Play年度游戲頒獎：洞察移動游戲新趨勢

最新問答

1. ui都會做運營設計嘛

2. ui還是ue賺錢

3. ui還原度測試測什么

4. ui跟前端的區(qū)別

5. ui跟前端有什么區(qū)別

亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

谷歌讓大模型更具“心智”，GPT-4任務準確率大增

大模型離具有“心智”更進一步

作者簡介

請綁定手機號