本周,IBM聲稱,其神經(jīng)計(jì)算機(jī)系統(tǒng)達(dá)到了每秒120萬(wàn)幀的訓(xùn)練時(shí)間,創(chuàng)下了最新記錄。IBM在AI模型訓(xùn)練上實(shí)現(xiàn)了大突破,可與最先進(jìn)的技術(shù)相匹敵
本周,IBM聲稱,其神經(jīng)計(jì)算機(jī)系統(tǒng)達(dá)到了每秒120萬(wàn)幀的訓(xùn)練時(shí)間,創(chuàng)下了最新記錄。IBM在AI模型訓(xùn)練上實(shí)現(xiàn)了大突破,可與最先進(jìn)的技術(shù)相匹敵。網(wǎng)友對(duì)此表示簡(jiǎn)直不敢相信!
在今年年初發(fā)表的一篇論文論文中,IBM詳細(xì)介紹了神經(jīng)計(jì)算機(jī)。這是一種可重新配置的并行處理系統(tǒng),旨在研究和開(kāi)發(fā)新興的AI算法和計(jì)算神經(jīng)科學(xué)。
就在本周,該公司在神經(jīng)計(jì)算機(jī)上演示了第一個(gè)應(yīng)用程序:一種深度的神經(jīng)進(jìn)化系統(tǒng)。該系統(tǒng)將Atari 2600的硬件實(shí)現(xiàn),圖像預(yù)處理和AI算法結(jié)合在優(yōu)化的流水線中。
實(shí)驗(yàn)報(bào)告得出的結(jié)果可與最先進(jìn)的技術(shù)相匹敵,但更重要的是,IBM聲稱該系統(tǒng)達(dá)到了每秒120萬(wàn)幀的訓(xùn)練時(shí)間,創(chuàng)下了最新記錄。
網(wǎng)友驚呼,「簡(jiǎn)直不敢相信!」
神經(jīng)計(jì)算機(jī)就像是在AI計(jì)算軍備競(jìng)賽中發(fā)出的一個(gè)示警信號(hào)。
據(jù)OpenAI發(fā)布的一項(xiàng)分析顯示,從2012年到2018年,最大規(guī)模的AI培訓(xùn)運(yùn)行中使用的計(jì)算量增長(zhǎng)了300,000倍,是3.5個(gè)月的兩倍,遠(yuǎn)遠(yuǎn)超過(guò)了摩爾定律的步伐。
AlexNet到AlphaGo零:計(jì)算量增長(zhǎng)了300,000倍
先來(lái)了解一下IBM 的神經(jīng)計(jì)算機(jī)吧
IBM神經(jīng)計(jì)算機(jī)
IBM的神經(jīng)計(jì)算機(jī)由432個(gè)節(jié)點(diǎn)組成(每16個(gè)模塊卡中有27個(gè)節(jié)點(diǎn)),這些節(jié)點(diǎn)是IBM長(zhǎng)期戰(zhàn)略合作伙伴Xilinx的現(xiàn)場(chǎng)可編程門(mén)陣列(FPGA,設(shè)計(jì)用于制造后配置的集成電路)。
IBM神經(jīng)計(jì)算機(jī)每個(gè)模塊卡中有27個(gè)節(jié)點(diǎn)
每個(gè)節(jié)點(diǎn)均有一個(gè)Xilinx Zynq單片系統(tǒng)(一個(gè)雙核ARM A9處理器與一個(gè)FPGA在同一芯片上配對(duì))以及1GB專用RAM芯片。
節(jié)點(diǎn)以3D網(wǎng)格拓?fù)浣Y(jié)構(gòu)排列,并與電氣連接(稱為穿硅通孔,這些通孔可以完全穿過(guò)硅晶圓或芯片)垂直互連。 在3D網(wǎng)格拓?fù)浣Y(jié)構(gòu)中可以看到節(jié)點(diǎn)數(shù)字
在聯(lián)網(wǎng)方面,F(xiàn)PGA提供模塊卡之間物理通信的訪問(wèn),以便建立多個(gè)不同的通信通道。
理論上講,單個(gè)卡可以支持高達(dá)每秒432GB的傳輸速度,而神經(jīng)計(jì)算機(jī)的網(wǎng)絡(luò)接口可以自身調(diào)節(jié)并逐步優(yōu)化, 使其匹配給定的程序。
在論文中詳細(xì)簡(jiǎn)述了神經(jīng)計(jì)算機(jī)框架的共同作者寫(xiě)道,「我們系統(tǒng)的獨(dú)特之處在于每個(gè)節(jié)點(diǎn)允許特定應(yīng)用的處理器卸載,這一功能在我們所知任何規(guī)模的并行計(jì)算機(jī)上均不可用。多數(shù)性能的關(guān)鍵步驟已在FPGA上卸載和優(yōu)化,同時(shí)ARM處理器提供了輔助支持?!?/p>
既然對(duì)神經(jīng)計(jì)算機(jī)有所了解,那么IBM在神經(jīng)計(jì)算機(jī)上的首次應(yīng)用演示,系統(tǒng)是怎么達(dá)到創(chuàng)紀(jì)錄的每秒120萬(wàn)幀的訓(xùn)練時(shí)間呢?
我們來(lái)一探究竟
用Atari游戲測(cè)試AI
用電子游戲來(lái)做測(cè)試,是AI和機(jī)器學(xué)習(xí)研究最好的平臺(tái)。
它們不僅可以隨時(shí)拿來(lái)進(jìn)行測(cè)試,而且大規(guī)模運(yùn)行成本低。
比如在強(qiáng)化學(xué)習(xí)等特定領(lǐng)域中,為了獲取獎(jiǎng)勵(lì),AI通過(guò)與環(huán)境互動(dòng)來(lái)學(xué)習(xí)最佳行為,游戲分?jǐn)?shù)便是最直接的獎(jiǎng)勵(lì)。
游戲中開(kāi)發(fā)的AI算法已表現(xiàn)出出可適應(yīng)更實(shí)際的用途,例如蛋白質(zhì)折疊預(yù)測(cè)研究。如果IBM神經(jīng)計(jì)算機(jī)測(cè)試結(jié)果是重復(fù)的,則該系統(tǒng)可以用于加速這些AI算法的開(kāi)發(fā)。
研究人員在神經(jīng)計(jì)算機(jī)中每個(gè)卡使用了26個(gè)節(jié)點(diǎn),對(duì)總共416個(gè)節(jié)點(diǎn)進(jìn)行了實(shí)驗(yàn)。
Atari游戲應(yīng)用程序的兩個(gè)實(shí)例都是在416個(gè)FPGA中每個(gè)節(jié)點(diǎn)上運(yùn)行,最多可擴(kuò)展到832個(gè)節(jié)點(diǎn)并行運(yùn)行的實(shí)例。
每個(gè)實(shí)例都從給定的Atari 2600游戲中提取幀,執(zhí)行圖像預(yù)處理,通過(guò)機(jī)器學(xué)習(xí)模型運(yùn)行圖像,并在游戲中執(zhí)行操作。
使用深度神經(jīng)在FPGAs訓(xùn)練游戲的截圖
為了獲得最高的性能,研究團(tuán)隊(duì)避免仿真Atari 2600,而是選擇使用FPGA在更高的頻率下實(shí)現(xiàn)控制臺(tái)的功能。
他們采用了開(kāi)源MiSTer項(xiàng)目的框架,該項(xiàng)目旨在使用現(xiàn)代硬件重新創(chuàng)建控制臺(tái)和街機(jī),并將Atari 2600的處理器時(shí)鐘頻率從3.58 MHz提高到150 MHz,每秒產(chǎn)生約2514幀。
在圖像預(yù)處理步驟中,IBM的應(yīng)用程序?qū)瑥牟噬D(zhuǎn)換為灰色,消除了閃爍,將圖像重新縮放為較小的分辨率,然后將幀堆疊為四組。
然后將它們傳遞到推理游戲環(huán)境的AI模型和一個(gè)子模塊,該子模塊通過(guò)識(shí)別AI模型預(yù)測(cè)的最大獎(jiǎng)勵(lì)來(lái)選擇下一幀的動(dòng)作。
在五個(gè)實(shí)驗(yàn)過(guò)程中,IBM研究人員在神經(jīng)計(jì)算機(jī)上運(yùn)行了59個(gè)Atari 2600游戲。
結(jié)果表明,與其他強(qiáng)化學(xué)習(xí)技術(shù)相比,該方法的數(shù)據(jù)效率不高,總共需要60億個(gè)游戲框架,但在Montezuma的Revenge and Pitfall等具有挑戰(zhàn)性、探索性的游戲中失敗了。
在59個(gè)游戲中有30場(chǎng)勝出,Deep Q-network花了10天進(jìn)行訓(xùn)練,而IBM團(tuán)隊(duì)只用了6分鐘來(lái)訓(xùn)練(2億個(gè)訓(xùn)練幀)
在神經(jīng)計(jì)算機(jī)上運(yùn)行的59個(gè)Atari 2600游戲有60億個(gè)訓(xùn)練幀,在36場(chǎng)比賽中超過(guò)了Deep Q-network,而訓(xùn)練時(shí)間減少了2個(gè)數(shù)量級(jí)(2小時(shí)30分鐘)。
關(guān)鍵詞: 神經(jīng)計(jì)算機(jī)系統(tǒng)