日韩免费在线观看成人,骚碰成人免费视频,电影院摸湿嗯…啊h

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<small id="n0d49"></small>

<legend id="n0d49"></legend>

您的位置：首頁>科技 >內(nèi)容

谷歌的假人分布式計算在半小時內(nèi)訓練ResNet-50

2019-03-10 00:22:51來源：msn

導讀在機器學習中盡可能準確是否更好，無論需要多長時間，還是在很短的時間內(nèi)都準確無誤?對于DeepMind研究人員Peter Buchlovsky及其同事來說，

在機器學習中盡可能準確是否更好，無論需要多長時間，還是在很短的時間內(nèi)都準確無誤?

對于DeepMind研究人員Peter Buchlovsky及其同事來說，選擇的目的是提高學習速度，超過理論準確度。

研究人員表示，他們在本周發(fā)布了一項名為“TF-Replicator”的新技術(shù)，他們使用32個谷歌的Tensor處理器芯片，在半小時內(nèi)就熟悉的ImageNet競賽達到了頂級基準測試結(jié)果的準確性。并行運作。Replicator的首次亮相是谷歌本周預(yù)覽了TensorFlow的2.0版本。

作者聲稱，使用TF-Replicator的結(jié)果接近了使用更多GPU的其他一些項目的最佳結(jié)果，包括使用了1,024個Nvidia的“Tesla P100”GPU的先前工作。

TF-Replicator項目的含義是，現(xiàn)在可以通過幾行Python代碼實現(xiàn)這種GPU的史詩工程，這些代碼沒有針對任何特定的硬件配置進行專門調(diào)整。

如果愿意的話，訣竅基本上就是為傻瓜做并行分布式計算。一系列新功能已被添加到Google的TensorFlow框架中，DeepMind聲稱，“通過讓研究人員自然地定義他們的模型并根據(jù)單機設(shè)置運行循環(huán)”，“使建立分布式機器學習系統(tǒng)的過程變得無足輕重”。

該系統(tǒng)比先前的TensorFlow方法更靈活，稱為“估計器”，它對模型的構(gòu)建方式施加了限制。雖然該系統(tǒng)傾向于生產(chǎn)環(huán)境，但Google方法適用于研發(fā)實驗室，用于制作新型網(wǎng)絡(luò)，因此它的設(shè)計更加靈活。

它的編程也比以前的并行嘗試要簡單得多，比如去年由Google的Brain部門引入的“Mesh-TensorFlow”作為指定分布式計算的單獨語言。

研究“TF-Replicator：分布式機器學習研究人員”發(fā)布在arXiv預(yù)打印服務(wù)器上，還有一篇DeepMind的博客文章。

本文中的工作假設(shè)是，他們希望快速獲得最先進的結(jié)果，而不是試圖在準確性方面突破極限。正如作者所指出的那樣，“不是試圖提高分類準確性，而是最近的許多論文都集中在減少達到某些性能閾值所需的時間(通常約為-75%Top-1準確度)，”使用ImageNet基準測試，并且，在大多數(shù)情況下，案例，訓練常見的“ResNet-50”神經(jīng)網(wǎng)絡(luò)。

這種急于獲得良好結(jié)果的行為被稱為“弱擴展”，其中網(wǎng)絡(luò)被“以更少的步驟和非常大的批次”進行訓練，將數(shù)據(jù)分組成數(shù)千個示例。

因此，需要并行化模型以便能夠跨多個核心和多個GPU或TPU同時處理這些批次。

作者著手構(gòu)建一個分布式計算系統(tǒng)，該系統(tǒng)可以處理從分類到通過生成對抗網(wǎng)絡(luò)(GAN)制作偽圖像到強化學習等任務(wù)，同時更快地達到勝任性能的門檻。

作者寫道，研究人員不需要了解有關(guān)分布式計算的任何信息。研究人員將他們的神經(jīng)網(wǎng)絡(luò)指定為“復(fù)制品”，這是一種設(shè)計用于在一臺計算機上運行的東西。該副本可以自動乘以在多臺計算機上并行運行的單獨實例，前提是作者在其TensorFlow代碼中包含兩個Python函數(shù)，稱為“input_fn”和“step_fn”。第一個調(diào)用數(shù)據(jù)集來填充神經(jīng)網(wǎng)絡(luò)的每個“步驟”。這使得跨不同機器的數(shù)據(jù)工作并行化成為可能。另一個函數(shù)指定要執(zhí)行的計算，并且可以用于跨多個機器并行化神經(jīng)網(wǎng)絡(luò)操作。

作者指出他們必須克服一些有趣的限制。例如，計算節(jié)點之間的通信對于諸如收集跨多個機器發(fā)生的所有梯度下降計算之類的事情可能是重要的。

這對工程師來說可能具有挑戰(zhàn)性如果神經(jīng)網(wǎng)絡(luò)的單個“圖形”分布在許多計算機上，即所謂的“圖形內(nèi)復(fù)制”，則可能會出現(xiàn)問題，因為計算圖形的某些部分可能尚未構(gòu)建，這會阻礙計算機之間的依賴關(guān)系。“一個副本的step_fn可以調(diào)用原始的中間圖形結(jié)構(gòu)，”他們寫道，指的是通信原語。“這需要引用來自另一個本身尚未構(gòu)建的副本的數(shù)據(jù)。”

他們的解決方案是將“占位符”代碼放在每臺機器的計算圖中，“一旦所有副本子圖最終確定，就可以重寫”。

作者描述了各種基準測試的結(jié)果。在ResNet-50 ImageNet任務(wù)的情況下，“我們能夠在不到30分鐘的訓練中匹配公布的75.3%Top-1準確度，”他們寫道，并補充說“這些結(jié)果是使用標準TF-Replicator獲得的實施，沒有任何特定于ImageNet分類的系統(tǒng)優(yōu)化。“

在GAN任務(wù)中，生成圖像，“我們利用TF-Replicator在比單個GPU上更大的批次上進行訓練，并發(fā)現(xiàn)這會導致樣本質(zhì)量的大幅提升。”

在強化學習領(lǐng)域，他們訓練了一個可移動關(guān)節(jié)的模擬“代理”來導航各種任務(wù)。“與8個NVLink連接的Tesla V100 GPU相比，單個TPUv2設(shè)備(4個芯片中的8個內(nèi)核)提供了極具競爭力的性能，”他們寫道。

對于這種分布式計算的神經(jīng)網(wǎng)絡(luò)的未來設(shè)計，存在一些有趣的含義。例如，在強化學習的情況下，他們寫道，“而不是構(gòu)建機器人關(guān)節(jié)的高級表示及其”速度“，TF-Replicator的可擴展性使我們能夠完全從像素觀察中快速解決這些任務(wù)。”

“大規(guī)模的可擴展性”，作者寫道，在神經(jīng)網(wǎng)絡(luò)中有數(shù)十萬層，在深度學習中將變得越來越重要。TF-Replicator是Google對于研究人員如何能夠更快速地開發(fā)和迭代這些大型網(wǎng)絡(luò)的問題的回答，從他們的工作臺筆記本電腦開始，并以最少的麻煩傳播到分布式系統(tǒng)。

免責聲明：本文由用戶上傳，如有侵權(quán)請聯(lián)系刪除！

標簽：谷歌

猜你喜歡

最新文章

感谢您访问我们的网站，您可能还对以下资源感兴趣：

日韩免费在线观看成人

<span id="um726"><blockquote id="um726"></blockquote></span>

<span id="um726"><blockquote id="um726"></blockquote></span>

<tt id="dnkhv"></tt>

<td id="dnkhv"></td>

<legend id="dnkhv"></legend><small id="dnkhv"></small>