日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁(yè)>疫情動(dòng)態(tài) >內(nèi)容

          小扎親自官宣Meta視覺(jué)大模型!多任務(wù)效果超OpenCLIP丨開(kāi)源

          2023-04-18 16:36:43來(lái)源:
          導(dǎo)讀 蕭簫 發(fā)自 凹非寺量子位 | 公眾號(hào) QbitAI無(wú)需文字標(biāo)簽,完全自監(jiān)督的Meta視覺(jué)大模型來(lái)了!小扎親自官宣,發(fā)布即收獲大量關(guān)注度——在...

          蕭簫 發(fā)自 凹非寺
          量子位 | 公眾號(hào) QbitAI

          無(wú)需文字標(biāo)簽,完全自監(jiān)督的Meta視覺(jué)大模型來(lái)了!

          小扎親自官宣,發(fā)布即收獲大量關(guān)注度——

          在語(yǔ)義分割、實(shí)例分割、深度估計(jì)和圖像檢索等任務(wù)中,這個(gè)名叫DINOv2的視覺(jué)大模型均取得了非常不錯(cuò)的效果。



          甚至有超過(guò)當(dāng)前最好的開(kāi)源視覺(jué)模型OpenCLIP之勢(shì)。

          雖然此前Meta就發(fā)布過(guò)自監(jiān)督學(xué)習(xí)視覺(jué)大模型DINO,不過(guò)這次AI識(shí)別圖像特征的能力顯然更進(jìn)一步,準(zhǔn)確分割出了視頻中的主體:



          可別以為DINOv2通過(guò)自監(jiān)督學(xué)會(huì)的只有圖片分割。事實(shí)上,它已經(jīng)能根據(jù)不同類別、不同場(chǎng)景下的照片,準(zhǔn)確識(shí)別出同種物體(狗)的頭部、身體和四肢長(zhǎng)在哪:



          換而言之,DINOv2自己學(xué)會(huì)了找圖像特征。

          目前Meta官方不僅已經(jīng)放出了開(kāi)源代碼,而且還給了網(wǎng)頁(yè)版Demo試玩。有網(wǎng)友內(nèi)涵:

          什么叫開(kāi)源,LLaMA,SAM,DINOv2這才叫開(kāi)源!



          一起來(lái)看看,DINOv2的效果究竟如何。

          準(zhǔn)確識(shí)別不同畫風(fēng)的同種物體

          事實(shí)上,DINOv2是基于上一代DINOv1打造的視覺(jué)大模型。

          這個(gè)模型參數(shù)量是10億級(jí),也仍然是視覺(jué)Transformer架構(gòu)(ViT),但與DINO不太一樣的是,這次DINOv2在數(shù)據(jù)集上經(jīng)過(guò)了精心挑選。

          具體來(lái)說(shuō),DINOv2構(gòu)建了一個(gè)數(shù)據(jù)篩選pipeline,將內(nèi)容相似的圖片精心篩選出來(lái),同時(shí)排除掉相同的圖片:



          最終呈現(xiàn)給DINOv2的訓(xùn)練數(shù)據(jù)圖片雖然沒(méi)有文字標(biāo)簽,但這些圖片的特征確實(shí)是相似的。

          采用這類數(shù)據(jù)訓(xùn)練出來(lái)的視覺(jué)模型,效果如何?

          這是DINOv2在8個(gè)視覺(jué)任務(wù)上的表現(xiàn),包括語(yǔ)義分割、分類、深度估計(jì)等,其中橙色是自監(jiān)督方法的效果,深粉色是弱監(jiān)督方法的效果。

          可以看見(jiàn),經(jīng)過(guò)自監(jiān)督學(xué)習(xí)的視覺(jué)模型,表現(xiàn)上已經(jīng)與經(jīng)過(guò)弱監(jiān)督學(xué)習(xí)的模型性能相當(dāng)。



          實(shí)際效果也不錯(cuò),即便在一系列照片中,相同物體的畫風(fēng)并不相似,DINOv2也能準(zhǔn)確識(shí)別它們的特征,并分到相似的列表中。

          如(a)組中都具有翅膀的鳥(niǎo)和飛機(jī)、(b)組中的大象和大象雕塑、(c)組中的汽車和汽車玩具模型、(d)組中的馬和涂鴉版馬:



          而且從PCA(主成分分析)圖像效果來(lái)看,DINOv2不僅能準(zhǔn)確分類,還能用不同顏色標(biāo)出它們“相同”的部分,例如象鼻都是綠色、車輪都是紅色、馬的尾巴是黃色等。

          換而言之,DINOv2能理解這些圖像中的相似之處,就像人會(huì)形容飛機(jī)“看起來(lái)像一只鳥(niǎo)”一樣。

          目前DINOv2已經(jīng)放出Demo,我們也試了試它的實(shí)際效果。

          Demo直接可玩

          官網(wǎng)已經(jīng)開(kāi)放語(yǔ)義分割、圖像檢索和深度估計(jì)功能的試玩。

          據(jù)Meta介紹,這幾個(gè)任務(wù)中,DINOv2在大多數(shù)基準(zhǔn)上超過(guò)了目前開(kāi)源視覺(jué)模型中表現(xiàn)最好的OpenCLIP。

          我們先來(lái)看看深度估計(jì)的效果。



          值得一提的是,在效果更好的情況下,DINOv2運(yùn)行的速度也比iBOT更快,相同硬件下只需三分之一的內(nèi)存,運(yùn)行速度就能比DINOv2快上2倍多。



          這是Meta論文中與OpenCLIP在實(shí)際例子上的比較效果:



          我們用這張版新寶島試一下,看起來(lái)還不錯(cuò),即使是高糊圖片也能比較好地估計(jì)出深度:



          接下來(lái)是語(yǔ)義分割的效果,這里也先給出Meta論文中的數(shù)據(jù)對(duì)比情況:



          這里也給出OpenCLIP和DINOv2的對(duì)比,中間的圖片是OpenCLIP的效果,右邊是DINOv2分割的效果:



          我們也用一張辦公室的圖片試了一下,看起來(lái)DINOv2還是能比較準(zhǔn)確地分割人體、物體的,但在細(xì)節(jié)上會(huì)有一些噪點(diǎn):



          最后是圖片檢索。

          官網(wǎng)上給出的圖片效果還是挺不錯(cuò)的,輸入鐵塔照片,可以生成不少含鐵塔的相似藝術(shù)圖片:



          這里我們也試了試,輸入一張華強(qiáng)買瓜,給出來(lái)的藝術(shù)圖片大多數(shù)與西瓜有關(guān):



          那么,這樣的自監(jiān)督視覺(jué)大模型可以用在哪里?

          從Meta給出的視頻來(lái)看,目前有一些比較環(huán)保的用途,例如用于估計(jì)全球各地的樹(shù)木高度:



          除此之外,如同扎克伯格所說(shuō),DINOv2還能被用于改善醫(yī)學(xué)成像、糧食作物生長(zhǎng)等。當(dāng)然這里小扎還進(jìn)一步強(qiáng)調(diào):

          可以被用于制作更具沉浸感的元宇宙。

          嗯,看來(lái)Meta的元宇宙路線還將繼續(xù)……

          試玩Demo地址:
          https://dinov2.metademolab.com/demos

          項(xiàng)目地址:
          https://github.com/facebookresearch/dinov2

          參考鏈接:
          https://.facebook.com/zuck/posts/pfbid02f3chCYQphfYnzRaDXeJxsT5EmyhbrFsjqLaU31KuTG63CMXFcDXQcukYPbWUMl

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

          猜你喜歡

          最新文章