日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>科技 >內(nèi)容

          Google的Snorkel DryBell是企業(yè)數(shù)據(jù)管理的未來嗎

          2019-03-17 13:55:58來源:zdnet
          導讀軟件工具總是有一個豐富的市場,它可以清理企業(yè)數(shù)據(jù)并將其集成以使其更有用。隨著數(shù)據(jù)是新的石油的口號,從Oracle到Talend,大大小小的供應

          軟件工具總是有一個豐富的市場,它可以清理企業(yè)數(shù)據(jù)并將其集成以使其更有用。隨著“數(shù)據(jù)是新的石油”的口號,從Oracle到Talend,大大小小的供應商都比以往任何時候都要做出非常好的銷售宣傳。

          但是,如果沒有什么需要清理,本身呢?相反,如果數(shù)據(jù)中最有價值的部分可以在某種意義上轉(zhuǎn)移到機器學習模型中而不改變數(shù)據(jù)本身呢?

          谷歌人工智能團隊周四與布朗大學和斯坦福大學合作推出的新技術(shù)暗示了這一概念。

          該代碼以有點笨拙的名字“Snorkel DryBell”為基礎(chǔ),建立在現(xiàn)有的Snorkel軟件之上,這是一種在斯坦福開發(fā)的開源軟件。Snorkel允許自動為數(shù)據(jù)分配標簽,這是對數(shù)據(jù)內(nèi)容的一種分類,從內(nèi)容存儲庫到進入數(shù)據(jù)中心的實時信號。

          該工作指出,有許多數(shù)據(jù)不能在防火墻之外使用,但仍然可以用來訓練深度學習。據(jù)谷歌稱,這被稱為“不可服務”的數(shù)據(jù),“如月度匯總統(tǒng)計數(shù)據(jù)”或“昂貴的內(nèi)部模型”。他們認為,應該能夠利用所有這些來使機器學習更好。

          隱含地提出的問題是,是否需要清理任何數(shù)據(jù)。相反,它可以簡單地成為構(gòu)建機器學習的管道的一部分而無需修改。所需要的只是將基本的Snorkel功能工業(yè)化,以便它可以處理更多不同的數(shù)據(jù)源,并且適合企業(yè)設(shè)置。

          斯坦福大學計算機科學系博士生Alex Ratner和Google AI的Cassandra Xia的博客文章解釋了這項工作。還有一篇隨附的論文“Snorkel DryBell:在工業(yè)規(guī)模部署弱監(jiān)督的案例研究”,其中Stephen Bach是主要作者,發(fā)布在arXiv預打印服務器上。

          Snorkel方法很容易理解。在機器學習的傳統(tǒng)監(jiān)督培訓中,饋送到機器學習系統(tǒng)的數(shù)據(jù)必須由主題專家標記。人工制作的標簽是機器學習如何對數(shù)據(jù)進行分類的。這對人類來說非常耗時。

          相反,Snorkel讓一組主題專家編寫自動為數(shù)據(jù)分配標簽的功能。然后,生成神經(jīng)網(wǎng)絡比較多個函數(shù)為相同數(shù)據(jù)生成的標簽,一種投票計數(shù)導致關(guān)于哪些標簽可能為真的概率。然后使用該數(shù)據(jù)及其概率標簽來訓練邏輯回歸模型,而不是使用手工標記的數(shù)據(jù)。與傳統(tǒng)的監(jiān)督機器學習相比,這種方法被稱為“弱監(jiān)督”。

          Google-Stanford-Brown團隊對Snorkel進行了調(diào)整,以更大規(guī)模地處理數(shù)據(jù)。換句話說,Snorkel DryBell是Snorkel的工業(yè)化。

          首先,他們改變了DryBell的生成神經(jīng)網(wǎng)絡中使用的優(yōu)化函數(shù)與Snorkel中使用的優(yōu)化函數(shù)。他們寫道,結(jié)果是計算標簽的速度是Snorkel傳統(tǒng)提供的速度的兩倍。

          雖然Snorkel旨在在單個計算節(jié)點上運行,但該團隊將DryBell與MapReduce分布式文件系統(tǒng)集成在一起。這使得DryBell能夠以“松散耦合”的方式在眾多計算機上運行。

          通過這種工業(yè)化,團隊能夠向深度學習系統(tǒng)提供更多弱標簽數(shù)據(jù),他們寫道,結(jié)果顯示弱監(jiān)督擊敗了使用手工制作標簽的傳統(tǒng)監(jiān)督學習 - 在某種程度上。

          例如,在一個測試任務“主題分類”中,計算機必須“檢測企業(yè)內(nèi)容中的感興趣主題”,他們在“684,000個未標記數(shù)據(jù)點”上“弱監(jiān)督”邏輯回歸模型。

          “我們發(fā)現(xiàn),”他們寫道,“它需要大約80,000個手工標記的例子來匹配弱監(jiān)督分類器的預測準確性。”

          所有這一切至關(guān)重要的是不可服務的數(shù)據(jù),混亂,嘈雜的東西,但在組織內(nèi)部具有很大的價值。當他們進行“消融”研究時,他們刪除了不可服務的訓練數(shù)據(jù),結(jié)果并不理想。

          結(jié)果是一種“轉(zhuǎn)移學習”,一種常見的機器學習方法,其中機器在一組數(shù)據(jù)上進行訓練,然后能夠?qū)⑵滂b別推廣到類似數(shù)據(jù)。

          他們寫道:“這種方法可以被視為一種新型的轉(zhuǎn)移學習,它不是在不同數(shù)據(jù)集之間轉(zhuǎn)移模型,而是在不同的特征集之間傳遞領(lǐng)域知識。”

          這是一種獲取企業(yè)陷入新發(fā)現(xiàn)效用的數(shù)據(jù)的方法,并且是“Snorkel DryBell實施的弱監(jiān)管方法的主要實用優(yōu)勢之一”。

          想象一下,新的企業(yè)數(shù)據(jù)管理任務:根據(jù)領(lǐng)域?qū)<业淖罴巡聹y,用C ++編寫一些標注函數(shù),并使用輸出來訓練神經(jīng)網(wǎng)絡,然后繼續(xù)。不再需要花費很長時間來清理或規(guī)范數(shù)據(jù)。

          “我們發(fā)現(xiàn)標簽功能抽象是用戶友好的,因為組織中的開發(fā)人員可以編寫新的標簽功能來捕獲領(lǐng)域知識,”他們寫道。?

          此外,標記標簽的生成模型成為企業(yè)數(shù)據(jù)質(zhì)量的一種仲裁者,在此過程中,他們稱之為“關(guān)鍵”。

          他們觀察到,“確定每個來源的質(zhì)量或效用,并相應地調(diào)整它們的組合,本身就是一項艱巨的工程任務。”

          “使用Snorkel DryBell,這些弱監(jiān)督信號可以簡單地全部作為標記函數(shù)進行整合,并且發(fā)現(xiàn)估計的精確度對于識別以前未知的低質(zhì)量源(后來被確認為這樣,并且固定或刪除)。”

          目前工作中唯一缺少的是它可以與深度學習神經(jīng)網(wǎng)絡模型一起工作的證據(jù)。弱監(jiān)督簡單的邏輯回歸模型是一回事。對這種系統(tǒng)來說,訓練非常深度的卷積或循環(huán)網(wǎng)絡將是一個有趣的下一個挑戰(zhàn)。

          免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

          猜你喜歡

          最新文章