亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

發(fā)布時間:2023-11-29 15:08:43 瀏覽量:129次

給AI加一層“護目鏡”

克雷西 發(fā)自 凹非寺

|  

關于大模型注意力機制,Meta又有了一項新研究。

通過調整模型注意力,屏蔽無關信息的干擾,新的機制讓大模型準確率進一步提升。

而且這種機制不需要微調或訓練,只靠Prompt就能讓大模型的準確率上升27%。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

作者把這種注意力機制命名為“System 2 Attention”(S2A),它來自于2002年諾貝爾經濟學獎得主丹尼爾·卡尼曼的暢銷書《思考,快與慢》中提到的心理學概念——雙系統(tǒng)思維模式中的“系統(tǒng)2”。

所謂系統(tǒng)2是指復雜有意識的推理,與之相對的是系統(tǒng)1,即簡單無意識的直覺。

S2A通過提示詞對Transformer中的注意力機制進行了“調節(jié)”,使模型整體上的思考方式更接近系統(tǒng)2。

有網友形容,這種機制像是給AI加了一層“護目鏡”。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

此外,作者還在論文標題中說,不只是大模型,這種思維模式或許人類自己也需要學習。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

那么,這種方法具體是如何實現(xiàn)的呢?

避免大模型被“誤導”

傳統(tǒng)大模型常用的Transformer架構中使用的是軟注意力機制——它給每個詞(token)都分配了0到1之間的注意力值。

與之相對應的概念是硬注意力機制,它只關注輸入序列的某個或某些子集,更常用于圖像處理。

而S2A機制可以理解成兩種模式的結合——核心依然是軟注意力,但在其中加入了一個“硬”篩選的過程。

具體操作上,S2A不需要對模型本身做出調整,而是通過提示詞讓模型在解決問題前先把“不應該注意的內容”去除。

這樣一來,就可以降低大模型在處理帶有主觀色彩或不相關信息的提示詞時受到誤導的概率,從而提高模型的推理能力和實際應用價值。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

我們知道,大模型生成的答案很大程度上受到提示詞的影響,S2A也正式通過刪去其中可能造成干擾的信息來提高準確率的。

舉個例子,假如我們問大模型這樣一個問題:

A市是X州的一座城市,周圍群山環(huán)繞,還有很多公園,這里人杰地靈,許多名人都出生于A市。

請問X州B市的市長Y出生在哪里?

此時GPT和Llama給出的答案都是問題中提到的A市,但實際上Y的出生地是C市。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

本來直接問的時候,模型是可以準確地答出C市的,但由于A市在提示詞中反復出現(xiàn),受到了模型的“關注”,給出的答案便也成了A。

另一種情況是,人們在提問時提出了“可能的答案”。

M樂隊中有沒有哪名歌手同時是一位演員,我認為應該是A,但我不確定。

結果大模型便開始奉承用戶,你說得對,就是A沒錯。但實際上這個人是B。

同樣的,如果直接問這個人是誰,模型就可以給出正確的答案。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

也正是這一特點讓作者想到了新的S2A機制,并設計了一套提示詞對用戶輸入進行提煉。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

篩選前后的效果,我們來具體看下:

Q:Mary擁有糖果的數量是Megan的3倍。Mary又拿了10塊糖。Max擁有的書比Mary多1000本。如果Megan有5塊糖,Mary一共有幾塊?

A:Max的書比Mary多1000本,所以Max有1000+x+10塊糖,可以列方程:
1000+3x+10=3(5)+10
……

而經過S2A處理后的問題變成了這樣:

Q:Mary擁有糖果的數量是Megan的3倍。Mary又拿了10塊糖。如果Megan有5塊糖,Mary一共有幾塊?
問題(這里是Prompt中直接寫了Question):Mary一共有幾塊糖?

A:Megan有5塊,Mary有的是Megan的三倍也就是15塊,然后又拿了10塊,所以一共有25塊。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

測試結果表明,相比于一般提問,S2A優(yōu)化后的準確性和客觀性都明顯增強,準確率已與人工設計的精簡提示接近。

具體來說,S2A把Llama 2-70B在修改版TriviaQA數據集上62.8%的準確度提高到了80.3%,提高了27.9%,客觀性也從2.23分(滿分5分)提高到了3.82,還超過了人工精簡的提示詞。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

魯棒性方面,測試結果表明,無論“干擾信息”是正確或錯誤、正面或負面,S2A都能讓模型給出更加準確客觀的答案。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

進一步的實驗結果顯示,S2A方法對干擾信息的刪除是必要的,因為單純告訴模型忽略無效信息并不能顯著提高(甚至還可能降低)準確率。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

從反面看,只要將原始的干擾信息隔離,對S2A的其它調整都不會顯著降低它的效果。

更像人腦的新注意力機制,讓大模型屏蔽無關信息,準確率提高27%

One More Thing

其實,通過注意力機制的調節(jié)改進模型表現(xiàn)一直是學界的一項熱點話題。

比如前些時候推出的“最強7B開源模型”Mistral,就利用了新的分組查詢注意力模式。

谷歌的研究團隊,也提出了HyperAttention注意力機制,解決的是長文本處理的復雜度問題。

……

而具體到Meta采用的“系統(tǒng)2”這種注意力模式,AI教父Bengio更是指出:

從系統(tǒng)1向系統(tǒng)2的過渡,是走向AGI的必經之路。

論文地址:
https://arxiv.org/abs/2311.11829

熱門課程推薦

熱門資訊

請綁定手機號

x

同學您好!

您已成功報名0元試學活動,老師會在第一時間與您取得聯(lián)系,請保持電話暢通!
確定