亚洲AV免费看深爱成人|日韩av另类一级特黄片在线|中国免费一级黄片|国产av一二三区|亚洲有码AV在线|久久亚洲国产日韩欧美|成人免费AV网站|婷婷一区综合一区|亚洲AV无码导航|高级欧美成人网站

高校合作1:010-59833514 ?咨詢電話:400-810-1418 服務(wù)與監(jiān)督電話:400-810-1418轉(zhuǎn)接2

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

發(fā)布時(shí)間:2023-11-28 14:54:20 瀏覽量:109次

只需一個(gè)簡(jiǎn)單指令

白交 發(fā)自 凹非寺

|  

GPT-4V來(lái)做目標(biāo)檢測(cè)?網(wǎng)友實(shí)測(cè):還沒有準(zhǔn)備好。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

雖然檢測(cè)到的類別沒問(wèn)題,但大多數(shù)邊界框都錯(cuò)放了。

沒關(guān)系,有人會(huì)出手!

那個(gè)搶跑GPT-4看圖能力幾個(gè)月的迷你GPT-4升級(jí)啦——MiniGPT-v2。

而且只是一句簡(jiǎn)單指令:[grounding] describe this image in detail就實(shí)現(xiàn)的結(jié)果。

不僅如此,還輕松處理各類視覺任務(wù)。

圈出一個(gè)物體,提示詞前面加個(gè) [identify] 可讓模型直接識(shí)別出來(lái)物體的名字。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

當(dāng)然也可以什么都不加,直接問(wèn)~

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

MiniGPT-v2由來(lái)自MiniGPT-4的原班人馬(KAUST沙特阿卜杜拉國(guó)王科技大學(xué))以及Meta的五位研究員共同開發(fā)。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

上次MiniGPT-4剛出來(lái)就引發(fā)巨大關(guān)注,一時(shí)間服務(wù)器被擠爆,如今GItHub項(xiàng)目已超22000+星。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

此番升級(jí),已經(jīng)有網(wǎng)友開始用上了~

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

多視覺任務(wù)的通用界面

大模型作為各文本應(yīng)用的通用界面,大家已經(jīng)司空見慣了。受此靈感,研究團(tuán)隊(duì)想要建立一個(gè)可用于多種視覺任務(wù)的統(tǒng)一界面,比如圖像描述、視覺問(wèn)題解答等。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

「如何在單一模型的條件下,使用簡(jiǎn)單多模態(tài)指令來(lái)高效完成各類任務(wù)?」成為團(tuán)隊(duì)需要解決的難題。

簡(jiǎn)單來(lái)說(shuō),MiniGPT-v2由三個(gè)部分組成:視覺主干、線性層和大型語(yǔ)言模型。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

該模型以ViT視覺主干為基礎(chǔ),所有訓(xùn)練階段都保持不變。從ViT中歸納出四個(gè)相鄰的視覺輸出標(biāo)記,并通過(guò)線性層將它們投影到 LLaMA-2語(yǔ)言模型空間中。

團(tuán)隊(duì)建議在訓(xùn)練模型為不同任務(wù)使用獨(dú)特的標(biāo)識(shí)符,這樣一來(lái)大模型就能輕松分辨出每個(gè)任務(wù)指令,還能提高每個(gè)任務(wù)的學(xué)習(xí)效率。

訓(xùn)練主要分為三個(gè)階段:預(yù)訓(xùn)練——多任務(wù)訓(xùn)練——多模式指令調(diào)整。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

最終,MiniGPT-v2 在許多視覺問(wèn)題解答和視覺接地基準(zhǔn)測(cè)試中,成績(jī)都優(yōu)于其他視覺語(yǔ)言通用模型。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

最終這個(gè)模型可以完成多種視覺任務(wù),比如目標(biāo)對(duì)象描述、視覺定位、圖像說(shuō)明、視覺問(wèn)題解答以及從給定的輸入文本中直接解析圖片對(duì)象。

超火迷你GPT-4視覺能力暴漲,GitHub兩萬(wàn)星,華人團(tuán)隊(duì)出品

感興趣的朋友,可戳下方Demo鏈接體驗(yàn):

https://minigpt-v2.github.io/
https://huggingface.co/spaces/Vision-CAIR/MiniGPT-v2

論文鏈接:https://arxiv.o?rg/abs/2310.09478

GitHub鏈接:https://github.com/Vision-CAIR/MiniGPT-4

參考鏈接:https://twitter.com/leoyerrrr

熱門課程推薦

熱門資訊

請(qǐng)綁定手機(jī)號(hào)

x

同學(xué)您好!

您已成功報(bào)名0元試學(xué)活動(dòng),老師會(huì)在第一時(shí)間與您取得聯(lián)系,請(qǐng)保持電話暢通!
確定