日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁(yè)>科技 >內(nèi)容

          ImageNet數(shù)據(jù)集樹(shù)立人工智能新標(biāo)桿

          2019-08-05 10:01:37來(lái)源:億歐
          導(dǎo)讀 [ 億歐導(dǎo)讀 ] 上周日,F(xiàn)acebook人工智能研究院首席科學(xué)家,人工智能界的先驅(qū) Yan Lecun(楊立昆)宣布開(kāi)源了他們?cè)趫D像識(shí)別以及整個(gè)計(jì)算

          [ 億歐導(dǎo)讀 ] 上周日,F(xiàn)acebook人工智能研究院首席科學(xué)家,人工智能界的先驅(qū) Yan Lecun(楊立昆)宣布開(kāi)源了他們?cè)趫D像識(shí)別以及整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的最新模型。這一模型在圖像分類(lèi)、目標(biāo)檢測(cè)等多個(gè)計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域立下了新標(biāo)桿。上周日,F(xiàn)acebook人工智能研究院(Facebook Artificial Intelligence Research)首席科學(xué)家,人工智能界的先驅(qū) Yan Lecun(楊立昆)宣布開(kāi)源了他們?cè)趫D像識(shí)別以及整個(gè)計(jì)算機(jī)視覺(jué)領(lǐng)域的最新模型——“在Instagram的圖片標(biāo)簽上預(yù)訓(xùn)練,在ImageNet上微調(diào)(finetune)的ResNext101模型”。

          這一模型再次刷新了 ImageNet 數(shù)據(jù)集圖像分類(lèi)競(jìng)賽的準(zhǔn)確度,在圖像分類(lèi)、目標(biāo)檢測(cè)等多個(gè)計(jì)算機(jī)視覺(jué)技術(shù)領(lǐng)域立下了新標(biāo)桿。諸如目標(biāo)檢測(cè)、圖像分割等等計(jì)算機(jī)視覺(jué)基礎(chǔ)任務(wù)都可以將其骨干網(wǎng)絡(luò)替換為這一新模型,借助其強(qiáng)大的特征提取能力,有望取得更好的效果。換言之,整個(gè)計(jì)算機(jī)視覺(jué)業(yè)界都有機(jī)會(huì)因之受益。

          若你對(duì)這一領(lǐng)域有所了解,再著重關(guān)注一下上面引號(hào)里的那句描述,你可能就會(huì)不由自主地飆出一句:“有錢(qián)真 [敏感詞] 好啊!”。

          ImageNet,由李飛飛教授團(tuán)隊(duì)于2009年發(fā)布,包含了超過(guò)兩萬(wàn)類(lèi)物體,共計(jì)一千四百多萬(wàn)張圖片,為整個(gè)人工智能領(lǐng)域奠下數(shù)據(jù)基礎(chǔ)。自那時(shí)起,諸多計(jì)算機(jī)視覺(jué)任務(wù)的新模型、新思想都是在ImageNet數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,再在相應(yīng)的目標(biāo)任務(wù)上進(jìn)行微調(diào),以取得最好的效果。

          ImageNet數(shù)據(jù)集

          ImageNet數(shù)據(jù)集

          時(shí)過(guò)境遷,對(duì) FAIR 來(lái)說(shuō),角色一轉(zhuǎn),ImageNet 居然成了遷移、微調(diào)的對(duì)象。

          他們?cè)趤?lái)自 Instagram 的三十五億張(注意,比 ImageNet 的一千四百萬(wàn)足足多了兩百多倍)圖片上進(jìn)行了預(yù)訓(xùn)練,以人們?yōu)閳D片添加的標(biāo)簽(#hashtag)為類(lèi)別,最終再在(相對(duì)之下)小得多的 ImageNet上進(jìn)行微調(diào),成功擊敗一眾高手,站上頂峰。

          Instagram標(biāo)簽

          Instagram標(biāo)簽(右邊藍(lán)色#開(kāi)頭短語(yǔ)即為圖片標(biāo)簽hashtag)

          史無(wú)前例的海量數(shù)據(jù)之下,算力亦是重頭戲。

          為了處理三十五億張圖片,他們拿出了42臺(tái)服務(wù)器,用上336塊顯卡,又訓(xùn)練了足足22天。

          頗有股“有錢(qián)使得鬼推磨”的氣派。

          數(shù)據(jù)和算力,兩強(qiáng)結(jié)合之下,人工智能幾乎成了大力出奇跡的巨頭游戲。

          其實(shí)從一開(kāi)始,游戲的規(guī)則就是如此。

          近些年的人工智能革命,其實(shí)大抵建立于人工神經(jīng)網(wǎng)絡(luò)模型的大放異彩。

          而究其根本,在上世紀(jì)70年代,人工神經(jīng)網(wǎng)絡(luò)模型的理論架構(gòu)已經(jīng)基本成熟,卻在之后的幾十年里一直沒(méi)能得到認(rèn)可、應(yīng)用,直到近來(lái)才得以重見(jiàn)天日。

          前文提到的 Yann Lecun,更是因?yàn)橐恢眻?jiān)持神經(jīng)網(wǎng)絡(luò)而被學(xué)界排斥,郁郁不得志,直到如今才重獲認(rèn)可,獲頒計(jì)算機(jī)領(lǐng)域“諾貝爾獎(jiǎng)”之稱(chēng)的圖靈獎(jiǎng)。

          這其后的根源,就在于算力的限制。上世紀(jì)的計(jì)算機(jī)算力和你手中的新款手機(jī)比起都可謂云泥之別,遑論吸納海量數(shù)據(jù),對(duì)神經(jīng)網(wǎng)絡(luò)模型進(jìn)行訓(xùn)練。

          時(shí)至2012年,算力的突飛猛進(jìn),加上 ImageNet 等前所未有的“巨型數(shù)據(jù)集”的出現(xiàn),神經(jīng)網(wǎng)絡(luò)才真正再次登臺(tái),繪下人工智能新時(shí)代的奪目圖景。

          不過(guò),又過(guò)了 7 年,直到現(xiàn)在,ImageNet 才終于被更大的數(shù)據(jù)集所取代,在這背后,弱監(jiān)督學(xué)習(xí)功不可沒(méi)。

          強(qiáng)監(jiān)督、弱監(jiān)督、自監(jiān)督

          "弱"監(jiān)督學(xué)習(xí),自是相對(duì)于"強(qiáng)"監(jiān)督學(xué)習(xí)而言。

          ImageNet數(shù)據(jù)集里的一張圖片,標(biāo)注為波斯貓

          相比于 ImageNet 數(shù)據(jù)集為每一張圖片人工加注的物品類(lèi)別標(biāo)簽,Instagram 圖片的標(biāo)簽就要來(lái)的含混的多。為了吸粉,用戶更會(huì)刻意地為自己的圖片加上大量無(wú)論相關(guān)不相關(guān)的標(biāo)簽,以博取更多的瀏覽量。

          在這種情況下,人工智能模型還能學(xué)到圖片與含混描述之間的對(duì)應(yīng)關(guān)系嗎?

          在三十五億張圖片的暴力訓(xùn)練之下,效果顯著,也因而有了我們開(kāi)頭提到的新模型開(kāi)源。

          從此,人工標(biāo)注不再是計(jì)算機(jī)視覺(jué)領(lǐng)域的最大瓶頸,弱監(jiān)督標(biāo)簽搭配巨頭的強(qiáng)大算力,就能得到比悉心雕鑿,訓(xùn)練于 ImageNet 之上的“小數(shù)據(jù)”模型好得多的性能表現(xiàn)。

          算力為王,計(jì)算機(jī)視覺(jué)領(lǐng)域如此,在 AI 的另一重頭戲——自然語(yǔ)言處理領(lǐng)域,亦是如此。

          不同于 Facebook 視覺(jué)新模型的弱監(jiān)督訓(xùn)練,在自然語(yǔ)言處理領(lǐng)域,更進(jìn)一步的自監(jiān)督訓(xùn)練已成主流。

          Google 去年開(kāi)源的 BERT 模型,在訓(xùn)練時(shí)會(huì)將輸入句子的隨機(jī)單詞蓋住,然后讓模型根據(jù)上下文的內(nèi)容預(yù)測(cè)被蓋住的單詞是什么,通過(guò)這一方式,模型可以學(xué)習(xí)到自然語(yǔ)言隱含的句法,亦能對(duì)詞義句義有所掌握。

          更重要的是,這一方法不需要任何人工標(biāo)注,可謂“人有多大膽,地有多大產(chǎn)”,數(shù)字時(shí)代無(wú)數(shù)的自然語(yǔ)言資源 —— 電子書(shū)、網(wǎng)站、論壇帖子等等等等都能成為訓(xùn)練數(shù)據(jù)的來(lái)源。句子以自身信息作為監(jiān)督,對(duì)模型進(jìn)行訓(xùn)練,故稱(chēng)自監(jiān)督學(xué)習(xí)。

          在數(shù)據(jù)無(wú)限的前提之下,算力便顯得愈發(fā)重要。

          在 BERT 原論文里,Google 用了 16 塊自主研發(fā)的人工智能芯片——張量處理器(Tensor Processing Unit,TPU)訓(xùn)練了四天四夜,才最終收獲了突破性的結(jié)果。

          若你想以顯卡為標(biāo)準(zhǔn)作以比較,英偉達(dá)足足用了64張自家的頂級(jí)顯卡,在多方優(yōu)化之下訓(xùn)練了三天有余,才成功復(fù)現(xiàn)這一成果。

          谷歌TPU芯片

          谷歌TPU芯片

          今年卡耐基梅隆大學(xué)(CMU)和 Google 合作研發(fā)的 XLNet 模型,則在BERT的基礎(chǔ)上更進(jìn)一步,在足足 512 塊 TPU 上訓(xùn)練了兩天半時(shí)間。

          以 Google Cloud(谷歌云服務(wù))的計(jì)價(jià)標(biāo)準(zhǔn)計(jì)算,訓(xùn)練一次 XLNet 模型總共需要二十四萬(wàn)五千美元(合人民幣一百六十余萬(wàn))。若再考慮上模型研發(fā)過(guò)程中的不斷試錯(cuò),調(diào)參驗(yàn)證等等過(guò)程,XLNet 模型的開(kāi)銷(xiāo)簡(jiǎn)直天文數(shù)字。

          巨額開(kāi)支之下,中小團(tuán)隊(duì)自然無(wú)力競(jìng)爭(zhēng),自然語(yǔ)言處理的基礎(chǔ)模型研發(fā),也因而幾近成了巨頭獨(dú)霸的競(jìng)技場(chǎng)。

          算力壟斷之下,中小團(tuán)隊(duì)如何應(yīng)對(duì)?

          “站在巨人的肩膀上” 便是第一準(zhǔn)則。

          相互競(jìng)爭(zhēng)之中,算力巨頭們多會(huì)將自己訓(xùn)練好的模型對(duì)外開(kāi)源,讓沒(méi)有訓(xùn)練資源的團(tuán)隊(duì)也能得以在模型上進(jìn)行微調(diào),得以應(yīng)用。雖然這一過(guò)程亦對(duì)算力有所要求,但卻已比從頭訓(xùn)練現(xiàn)實(shí)的多。

          目前,不少?lài)?guó)內(nèi)互聯(lián)網(wǎng)公司已將BERT開(kāi)源模型應(yīng)用于自然語(yǔ)言處理系統(tǒng)之中,大大提升了系統(tǒng)的自然語(yǔ)言理解能力。視覺(jué)領(lǐng)域公司則可以從FAIR的新模型入手,對(duì)自身的圖像識(shí)別系統(tǒng)的骨干模型進(jìn)行更新升級(jí),以期取得更好的成效。

          “差異化”為核心。

          中小團(tuán)隊(duì)在算力上對(duì)大公司望塵莫及,亦因而無(wú)力在如多類(lèi)別圖片分類(lèi)等基礎(chǔ)問(wèn)題上與算力巨頭逐鹿競(jìng)技,卻可以基于自身的獨(dú)特優(yōu)勢(shì),在細(xì)分特定問(wèn)題上夯實(shí)基礎(chǔ)。

          在去年年底拿到四億美元C輪融資的Zymergen,便立足于自身在生物領(lǐng)域的深厚技術(shù)研發(fā),將AI運(yùn)用于藥物、材料研發(fā)中,避開(kāi)了與巨頭在圖像、自然語(yǔ)言處理等領(lǐng)域的白熱化競(jìng)爭(zhēng),成就了自己獨(dú)特的技術(shù)護(hù)城河。

          除此之外,隨著5G和物聯(lián)網(wǎng)時(shí)代的到來(lái),算力受限的物聯(lián)網(wǎng)設(shè)備成為新熱點(diǎn)。如何研發(fā)設(shè)計(jì)算力要求小、能效比低的模型亦能成為中小團(tuán)隊(duì)的破局之處。

          “更高更快更強(qiáng)”還是根本。

          面臨算力壟斷的加劇,提升自身算力仍是根本。即使選擇了獨(dú)到的差異化方向,又借助巨頭的開(kāi)源模型進(jìn)行微調(diào),算力的要求仍不容小覷。在大多數(shù)情況下,算力提升帶來(lái)的效率提升還是要比算力本身的開(kāi)支來(lái)的重要。條件容許之下,提升團(tuán)隊(duì)的算力可以說(shuō)是最簡(jiǎn)單直接卻又最見(jiàn)成效的投入之一了。

          對(duì)AI芯片公司來(lái)說(shuō),這更是機(jī)遇所在。

          若是通過(guò)不斷的芯片研發(fā),提高人工智能算法的訓(xùn)練、運(yùn)行效率,以更低的成本提供更多的算力,AI芯片創(chuàng)業(yè)公司便能在這個(gè)算力為王的時(shí)代脫穎而出,成為英偉達(dá)顯卡、谷歌TPU之外的重要選擇。

          拿到微軟、三星投資,估值過(guò)億美元的獨(dú)角獸公司GraphCore便推出了自家研發(fā)的智能處理芯片(Intelligence Processing Unit, IPU),在從訓(xùn)練到推理的整個(gè)流程之上,試圖與GPU和TPU一決高下。根據(jù)測(cè)試,IPU在能耗、速度、時(shí)延等方面都顯出了自己的獨(dú)特優(yōu)勢(shì),有望成為AI算力戰(zhàn)場(chǎng)的又一有力競(jìng)爭(zhēng)對(duì)手。

          大名鼎鼎的寒武紀(jì)也在上個(gè)月推出了“思元”系列芯片。他們選擇了一條更為差異化的道路,聚焦于整數(shù)低精度訓(xùn)練,在特定的應(yīng)用環(huán)境下取得更好的速度與效率,避免了對(duì)競(jìng)爭(zhēng)對(duì)手的直纓其鋒,有望在英偉達(dá)的傳統(tǒng)優(yōu)勢(shì)戰(zhàn)場(chǎng)——云端計(jì)算中心搶下一席之地。

          “差異化”核心的重要性又一次凸顯。

          在模型一再革新,數(shù)據(jù)指數(shù)增長(zhǎng),算力愈發(fā)重要的今日,中小團(tuán)隊(duì)幾乎不可能在熱門(mén)領(lǐng)域與巨頭正面競(jìng)爭(zhēng)。中小團(tuán)隊(duì)?wèi)?yīng)聚焦自身優(yōu)勢(shì),尋找差異化的切入點(diǎn),才能在人工智能的浪潮中脫穎而出,立于不敗之地。

          巨頭企業(yè)也應(yīng)負(fù)起自身的社群責(zé)任,為技術(shù)、模型的開(kāi)源化作出貢獻(xiàn),讓更多的開(kāi)發(fā)者、團(tuán)隊(duì)、科研人員受益于業(yè)界最新技術(shù)的發(fā)展。這也將有助于巨頭公司自身的形象確立,吸引更多人才加入,為自身發(fā)展添磚加瓦。

          不過(guò),無(wú)論中小團(tuán)隊(duì)還是巨頭企業(yè),算力的提升都是重點(diǎn)議題?,F(xiàn)如今,為圖形計(jì)算而生的顯卡仍是我們?nèi)斯ぶ悄芟到y(tǒng)的主要硬件。

          通過(guò)系統(tǒng)架構(gòu)的改革,特型化硬件的設(shè)計(jì)、開(kāi)發(fā),我們的AI芯片仍大有潛力可挖。充沛的算力如同驅(qū)動(dòng)兩次工業(yè)革命的煤炭和電力,也將驅(qū)動(dòng)我們的人工智能革命不輟前行。

          免責(zé)聲明:本文由用戶上傳,如有侵權(quán)請(qǐng)聯(lián)系刪除!

          猜你喜歡

          最新文章