您的位置：首頁>科技 >內(nèi)容

Google的Snorkel DryBell是企業(yè)數(shù)據(jù)管理的未來嗎

2019-03-17 13:55:58來源：zdnet

導讀軟件工具總是有一個豐富的市場，它可以清理企業(yè)數(shù)據(jù)并將其集成以使其更有用。隨著數(shù)據(jù)是新的石油的口號，從Oracle到Talend，大大小小的供應

軟件工具總是有一個豐富的市場，它可以清理企業(yè)數(shù)據(jù)并將其集成以使其更有用。隨著“數(shù)據(jù)是新的石油”的口號，從Oracle到Talend，大大小小的供應商都比以往任何時候都要做出非常好的銷售宣傳。

但是，如果沒有什么需要清理，本身呢?相反，如果數(shù)據(jù)中最有價值的部分可以在某種意義上轉(zhuǎn)移到機器學習模型中而不改變數(shù)據(jù)本身呢?

谷歌人工智能團隊周四與布朗大學和斯坦福大學合作推出的新技術(shù)暗示了這一概念。

該代碼以有點笨拙的名字“Snorkel DryBell”為基礎(chǔ)，建立在現(xiàn)有的Snorkel軟件之上，這是一種在斯坦福開發(fā)的開源軟件。Snorkel允許自動為數(shù)據(jù)分配標簽，這是對數(shù)據(jù)內(nèi)容的一種分類，從內(nèi)容存儲庫到進入數(shù)據(jù)中心的實時信號。

該工作指出，有許多數(shù)據(jù)不能在防火墻之外使用，但仍然可以用來訓練深度學習。據(jù)谷歌稱，這被稱為“不可服務”的數(shù)據(jù)，“如月度匯總統(tǒng)計數(shù)據(jù)”或“昂貴的內(nèi)部模型”。他們認為，應該能夠利用所有這些來使機器學習更好。

隱含地提出的問題是，是否需要清理任何數(shù)據(jù)。相反，它可以簡單地成為構(gòu)建機器學習的管道的一部分而無需修改。所需要的只是將基本的Snorkel功能工業(yè)化，以便它可以處理更多不同的數(shù)據(jù)源，并且適合企業(yè)設(shè)置。

斯坦福大學計算機科學系博士生Alex Ratner和Google AI的Cassandra Xia的博客文章解釋了這項工作。還有一篇隨附的論文“Snorkel DryBell：在工業(yè)規(guī)模部署弱監(jiān)督的案例研究”，其中Stephen Bach是主要作者，發(fā)布在arXiv預打印服務器上。

Snorkel方法很容易理解。在機器學習的傳統(tǒng)監(jiān)督培訓中，饋送到機器學習系統(tǒng)的數(shù)據(jù)必須由主題專家標記。人工制作的標簽是機器學習如何對數(shù)據(jù)進行分類的。這對人類來說非常耗時。

相反，Snorkel讓一組主題專家編寫自動為數(shù)據(jù)分配標簽的功能。然后，生成神經(jīng)網(wǎng)絡比較多個函數(shù)為相同數(shù)據(jù)生成的標簽，一種投票計數(shù)導致關(guān)于哪些標簽可能為真的概率。然后使用該數(shù)據(jù)及其概率標簽來訓練邏輯回歸模型，而不是使用手工標記的數(shù)據(jù)。與傳統(tǒng)的監(jiān)督機器學習相比，這種方法被稱為“弱監(jiān)督”。

Google-Stanford-Brown團隊對Snorkel進行了調(diào)整，以更大規(guī)模地處理數(shù)據(jù)。換句話說，Snorkel DryBell是Snorkel的工業(yè)化。

首先，他們改變了DryBell的生成神經(jīng)網(wǎng)絡中使用的優(yōu)化函數(shù)與Snorkel中使用的優(yōu)化函數(shù)。他們寫道，結(jié)果是計算標簽的速度是Snorkel傳統(tǒng)提供的速度的兩倍。

雖然Snorkel旨在在單個計算節(jié)點上運行，但該團隊將DryBell與MapReduce分布式文件系統(tǒng)集成在一起。這使得DryBell能夠以“松散耦合”的方式在眾多計算機上運行。

通過這種工業(yè)化，團隊能夠向深度學習系統(tǒng)提供更多弱標簽數(shù)據(jù)，他們寫道，結(jié)果顯示弱監(jiān)督擊敗了使用手工制作標簽的傳統(tǒng)監(jiān)督學習 - 在某種程度上。

例如，在一個測試任務“主題分類”中，計算機必須“檢測企業(yè)內(nèi)容中的感興趣主題”，他們在“684,000個未標記數(shù)據(jù)點”上“弱監(jiān)督”邏輯回歸模型。

“我們發(fā)現(xiàn)，”他們寫道，“它需要大約80,000個手工標記的例子來匹配弱監(jiān)督分類器的預測準確性。”

所有這一切至關(guān)重要的是不可服務的數(shù)據(jù)，混亂，嘈雜的東西，但在組織內(nèi)部具有很大的價值。當他們進行“消融”研究時，他們刪除了不可服務的訓練數(shù)據(jù)，結(jié)果并不理想。

結(jié)果是一種“轉(zhuǎn)移學習”，一種常見的機器學習方法，其中機器在一組數(shù)據(jù)上進行訓練，然后能夠?qū)⑵滂b別推廣到類似數(shù)據(jù)。

他們寫道：“這種方法可以被視為一種新型的轉(zhuǎn)移學習，它不是在不同數(shù)據(jù)集之間轉(zhuǎn)移模型，而是在不同的特征集之間傳遞領(lǐng)域知識。”

這是一種獲取企業(yè)陷入新發(fā)現(xiàn)效用的數(shù)據(jù)的方法，并且是“Snorkel DryBell實施的弱監(jiān)管方法的主要實用優(yōu)勢之一”。

想象一下，新的企業(yè)數(shù)據(jù)管理任務：根據(jù)領(lǐng)域?qū)＜业淖罴巡聹y，用C ++編寫一些標注函數(shù)，并使用輸出來訓練神經(jīng)網(wǎng)絡，然后繼續(xù)。不再需要花費很長時間來清理或規(guī)范數(shù)據(jù)。

“我們發(fā)現(xiàn)標簽功能抽象是用戶友好的，因為組織中的開發(fā)人員可以編寫新的標簽功能來捕獲領(lǐng)域知識，”他們寫道。?

此外，標記標簽的生成模型成為企業(yè)數(shù)據(jù)質(zhì)量的一種仲裁者，在此過程中，他們稱之為“關(guān)鍵”。

他們觀察到，“確定每個來源的質(zhì)量或效用，并相應地調(diào)整它們的組合，本身就是一項艱巨的工程任務。”

“使用Snorkel DryBell，這些弱監(jiān)督信號可以簡單地全部作為標記函數(shù)進行整合，并且發(fā)現(xiàn)估計的精確度對于識別以前未知的低質(zhì)量源(后來被確認為這樣，并且固定或刪除)。”

目前工作中唯一缺少的是它可以與深度學習神經(jīng)網(wǎng)絡模型一起工作的證據(jù)。弱監(jiān)督簡單的邏輯回歸模型是一回事。對這種系統(tǒng)來說，訓練非常深度的卷積或循環(huán)網(wǎng)絡將是一個有趣的下一個挑戰(zhàn)。

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標簽：Google

日韩免费在线观看成人,骚碰成人免费视频,电影院摸湿嗯…啊h

Google的Snorkel DryBell是企業(yè)數(shù)據(jù)管理的未來嗎

2019-03-17 13:55:58來源：zdnet

猜你喜歡

最新文章

2022-08-31 15:13:25

2022-08-31 09:50:57

2022-08-30 14:12:44

2022-08-29 14:47:40

2022-08-29 14:11:27

日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

Google的Snorkel DryBell是企業(yè)數(shù)據(jù)管理的未來嗎

2019-03-17 13:55:58來源：zdnet

猜你喜歡

最新文章

2022-08-31 15:13:25

2022-08-31 09:50:57

2022-08-30 14:12:44

2022-08-29 14:47:40

2022-08-29 14:11:27

日韩免费在线观看成人,骚碰成人免费视频,电影院摸湿嗯…啊h