日韩免费在线观看成人,骚碰成人免费视频,电影院 摸 湿 嗯…啊h

    1. <span id="um726"><blockquote id="um726"></blockquote></span>

        <span id="um726"><blockquote id="um726"></blockquote></span>
        1. 您的位置:首頁>科技 >內(nèi)容

          谷歌的假人分布式計算在半小時內(nèi)訓練ResNet-50

          2019-03-10 00:22:51來源:msn
          導讀 在機器學習中盡可能準確是否更好,無論需要多長時間,還是在很短的時間內(nèi)都準確無誤?對于DeepMind研究人員Peter Buchlovsky及其同事來說,

          在機器學習中盡可能準確是否更好,無論需要多長時間,還是在很短的時間內(nèi)都準確無誤?

          對于DeepMind研究人員Peter Buchlovsky及其同事來說,選擇的目的是提高學習速度,超過理論準確度。

          研究人員表示,他們在本周發(fā)布了一項名為“TF-Replicator”的新技術(shù),他們使用32個谷歌的Tensor處理器芯片,在半小時內(nèi)就熟悉的ImageNet競賽達到了頂級基準測試結(jié)果的準確性。并行運作。Replicator的首次亮相是谷歌本周預(yù)覽了TensorFlow的2.0版本。

          作者聲稱,使用TF-Replicator的結(jié)果接近了使用更多GPU的其他一些項目的最佳結(jié)果,包括使用了1,024個Nvidia的“Tesla P100”GPU的先前工作。

          TF-Replicator項目的含義是,現(xiàn)在可以通過幾行Python代碼實現(xiàn)這種GPU的史詩工程,這些代碼沒有針對任何特定的硬件配置進行專門調(diào)整。

          如果愿意的話,訣竅基本上就是為傻瓜做并行分布式計算。一系列新功能已被添加到Google的TensorFlow框架中,DeepMind聲稱,“通過讓研究人員自然地定義他們的模型并根據(jù)單機設(shè)置運行循環(huán)”,“使建立分布式機器學習系統(tǒng)的過程變得無足輕重”。

          該系統(tǒng)比先前的TensorFlow方法更靈活,稱為“估計器”,它對模型的構(gòu)建方式施加了限制。雖然該系統(tǒng)傾向于生產(chǎn)環(huán)境,但Google方法適用于研發(fā)實驗室,用于制作新型網(wǎng)絡(luò),因此它的設(shè)計更加靈活。

          它的編程也比以前的并行嘗試要簡單得多,比如去年由Google的Brain部門引入的“Mesh-TensorFlow”作為指定分布式計算的單獨語言。

          研究“TF-Replicator:分布式機器學習研究人員”發(fā)布在arXiv預(yù)打印服務(wù)器上,還有一篇DeepMind的博客文章。

          本文中的工作假設(shè)是,他們希望快速獲得最先進的結(jié)果,而不是試圖在準確性方面突破極限。正如作者所指出的那樣,“不是試圖提高分類準確性,而是最近的許多論文都集中在減少達到某些性能閾值所需的時間(通常約為-75%Top-1準確度),”使用ImageNet基準測試,并且,在大多數(shù)情況下,案例,訓練常見的“ResNet-50”神經(jīng)網(wǎng)絡(luò)。

          這種急于獲得良好結(jié)果的行為被稱為“弱擴展”,其中網(wǎng)絡(luò)被“以更少的步驟和非常大的批次”進行訓練,將數(shù)據(jù)分組成數(shù)千個示例。

          因此,需要并行化模型以便能夠跨多個核心和多個GPU或TPU同時處理這些批次。

          作者著手構(gòu)建一個分布式計算系統(tǒng),該系統(tǒng)可以處理從分類到通過生成對抗網(wǎng)絡(luò)(GAN)制作偽圖像到強化學習等任務(wù),同時更快地達到勝任性能的門檻。

          作者寫道,研究人員不需要了解有關(guān)分布式計算的任何信息。研究人員將他們的神經(jīng)網(wǎng)絡(luò)指定為“復(fù)制品”,這是一種設(shè)計用于在一臺計算機上運行的東西。該副本可以自動乘以在多臺計算機上并行運行的單獨實例,前提是作者在其TensorFlow代碼中包含兩個Python函數(shù),稱為“input_fn”和“step_fn”。第一個調(diào)用數(shù)據(jù)集來填充神經(jīng)網(wǎng)絡(luò)的每個“步驟”。這使得跨不同機器的數(shù)據(jù)工作并行化成為可能。另一個函數(shù)指定要執(zhí)行的計算,并且可以用于跨多個機器并行化神經(jīng)網(wǎng)絡(luò)操作。

          作者指出他們必須克服一些有趣的限制。例如,計算節(jié)點之間的通信對于諸如收集跨多個機器發(fā)生的所有梯度下降計算之類的事情可能是重要的。

          這對工程師來說可能具有挑戰(zhàn)性如果神經(jīng)網(wǎng)絡(luò)的單個“圖形”分布在許多計算機上,即所謂的“圖形內(nèi)復(fù)制”,則可能會出現(xiàn)問題,因為計算圖形的某些部分可能尚未構(gòu)建,這會阻礙計算機之間的依賴關(guān)系。“一個副本的step_fn可以調(diào)用原始的中間圖形結(jié)構(gòu),”他們寫道,指的是通信原語。“這需要引用來自另一個本身尚未構(gòu)建的副本的數(shù)據(jù)。”

          他們的解決方案是將“占位符”代碼放在每臺機器的計算圖中,“一旦所有副本子圖最終確定,就可以重寫”。

          作者描述了各種基準測試的結(jié)果。在ResNet-50 ImageNet任務(wù)的情況下,“我們能夠在不到30分鐘的訓練中匹配公布的75.3%Top-1準確度,”他們寫道,并補充說“這些結(jié)果是使用標準TF-Replicator獲得的實施,沒有任何特定于ImageNet分類的系統(tǒng)優(yōu)化。“

          在GAN任務(wù)中,生成圖像,“我們利用TF-Replicator在比單個GPU上更大的批次上進行訓練,并發(fā)現(xiàn)這會導致樣本質(zhì)量的大幅提升。”

          在強化學習領(lǐng)域,他們訓練了一個可移動關(guān)節(jié)的模擬“代理”來導航各種任務(wù)。“與8個NVLink連接的Tesla V100 GPU相比,單個TPUv2設(shè)備(4個芯片中的8個內(nèi)核)提供了極具競爭力的性能,”他們寫道。

          對于這種分布式計算的神經(jīng)網(wǎng)絡(luò)的未來設(shè)計,存在一些有趣的含義。例如,在強化學習的情況下,他們寫道,“而不是構(gòu)建機器人關(guān)節(jié)的高級表示及其”速度“,TF-Replicator的可擴展性使我們能夠完全從像素觀察中快速解決這些任務(wù)。”

          “大規(guī)模的可擴展性”,作者寫道,在神經(jīng)網(wǎng)絡(luò)中有數(shù)十萬層,在深度學習中將變得越來越重要。TF-Replicator是Google對于研究人員如何能夠更快速地開發(fā)和迭代這些大型網(wǎng)絡(luò)的問題的回答,從他們的工作臺筆記本電腦開始,并以最少的麻煩傳播到分布式系統(tǒng)。

          免責聲明:本文由用戶上傳,如有侵權(quán)請聯(lián)系刪除!

          猜你喜歡

          最新文章