国产乱人伦在线播放,99无码精品二区在线视频,最近在线更新8中文字幕免费,精品成人一区二区三区四区

您的位置:首頁 > 科技 >

NAS在單個(gè)GPU上僅需執(zhí)行4個(gè)小時(shí) 看神經(jīng)架構(gòu)搜索如何進(jìn)化

2020-05-08 15:28:39 來源: 機(jī)器之心

神經(jīng)架構(gòu)搜索(NAS)取代了人類「第二階」的調(diào)參工作,使我們能以兩層黑箱的方式尋找最優(yōu)神經(jīng)網(wǎng)絡(luò)。這一模式如果能物美價(jià)廉地應(yīng)用,自然是很

神經(jīng)架構(gòu)搜索(NAS)取代了人類「第二階」的調(diào)參工作,使我們能以兩層黑箱的方式尋找最優(yōu)神經(jīng)網(wǎng)絡(luò)。這一模式如果能物美價(jià)廉地應(yīng)用,自然是很誘人,要知道「800 個(gè) GPU 訓(xùn)練 28 天」基本不是個(gè)人承受得起的。在本文中,作者為我們介紹了 NAS 的進(jìn)化史,即如何利用多種改進(jìn)手段,將訓(xùn)練成本壓縮到「凡人皆可染指」的程度。 神經(jīng)架構(gòu)搜索 (NAS) 改變了構(gòu)建新神經(jīng)網(wǎng)絡(luò)架構(gòu)的過程。這種技術(shù)可以自動地為特定問題找到最優(yōu)的神經(jīng)網(wǎng)絡(luò)架構(gòu)?!缸顑?yōu)」的定義可以看成是對多個(gè)特征之間的權(quán)衡過程進(jìn)行建模,例如網(wǎng)絡(luò)的大小和準(zhǔn)確率 [1]。更令人印象深刻的是,現(xiàn)在 NAS 在單個(gè) GPU 上僅需執(zhí)行 4 個(gè)小時(shí),過去在 800 個(gè) GPU 上需要執(zhí)行 28 天。而實(shí)現(xiàn)這一飛躍只花了兩年時(shí)間,現(xiàn)在我們不需要成為 Google 員工就可以使用 NAS。

但是,研究人員如何實(shí)現(xiàn)這一性能飛躍呢?本文將介紹 NAS 的發(fā)展之路。

催化劑

NAS 的歷史可以追溯到 1988 年的自組織網(wǎng)絡(luò)思想 [2],但直到 2017 年 NAS 才取得了首個(gè)重大突破。當(dāng)時(shí)訓(xùn)練循環(huán)神經(jīng)網(wǎng)絡(luò) (RNN) 來生成神經(jīng)網(wǎng)絡(luò)架構(gòu)的想法出現(xiàn)了。

簡單地說,這個(gè)過程類似于人類手工尋找最佳架構(gòu)的過程?;谧顑?yōu)操作和超參數(shù)的預(yù)定義搜索空間,控制器將測試不同的神經(jīng)網(wǎng)絡(luò)配置。在這種情況下,測試配置意味著組裝、訓(xùn)練和評估神經(jīng)網(wǎng)絡(luò),以觀察其性能。

經(jīng)過多次迭代后,控制器將了解哪些配置能夠構(gòu)成搜索空間內(nèi)的最佳神經(jīng)網(wǎng)絡(luò)。不幸的是,在搜索空間中找出最優(yōu)架構(gòu)所需的迭代次數(shù)非常大,因此該過程十分緩慢。

其部分原因是搜索空間遭受了組合爆炸的影響,即搜索空間中可能的網(wǎng)絡(luò)數(shù)量隨著添加到搜索空間的組件數(shù)量而大大增加。然而,這種方法確實(shí)能夠找到當(dāng)前最佳 (SOTA) 網(wǎng)絡(luò),該網(wǎng)絡(luò)現(xiàn)在被稱為 NASnet [3],但它需要在 800 個(gè) GPU 上訓(xùn)練 28 天。如此高的計(jì)算成本使得搜索算法對大多數(shù)人來說都是不切實(shí)際的。

那么,如何改進(jìn)這一想法使其更容易使用呢?在 NAS 訓(xùn)練過程中,大部分耗時(shí)來自于訓(xùn)練和評估控制器建議的網(wǎng)絡(luò)。使用多個(gè) GPU 可以并行訓(xùn)練模型,但它們的單獨(dú)訓(xùn)練過程所耗時(shí)間仍然相當(dāng)長。減少訓(xùn)練和評估神經(jīng)網(wǎng)絡(luò)的計(jì)算成本將對 NAS 的總搜索時(shí)間產(chǎn)生很大的影響。

這就引出了一個(gè)問題:如何在不對 NAS 算法產(chǎn)生負(fù)面影響的情況下,降低訓(xùn)練和評估神經(jīng)網(wǎng)絡(luò)的計(jì)算成本?

降低保真度估計(jì)

眾所周知,較小的神經(jīng)網(wǎng)絡(luò)比較大的神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度更快。原因很簡單,較小網(wǎng)絡(luò)的計(jì)算成本較低。然而,就準(zhǔn)確率而言,較小的神經(jīng)網(wǎng)絡(luò)通常比較大的神經(jīng)網(wǎng)絡(luò)性能更差。NAS 的目標(biāo)是找到 SOTA 網(wǎng)絡(luò)架構(gòu),那么是否有方法可以在不犧牲最終性能的情況下,在搜索算法中使用較小的模型呢?

答案可以在最著名的計(jì)算機(jī)視覺架構(gòu) ResNet [4] 中找到。在 ResNet 架構(gòu)中,我們可以觀察到同一組操作被一遍又一遍地重復(fù)。這些操作構(gòu)成殘差塊,是 ResNet 的構(gòu)建塊。這種設(shè)計(jì)模式使得研究者可以通過改變堆疊殘差塊的數(shù)量,來創(chuàng)建同一模型的更深或更淺的變體。

此架構(gòu)設(shè)計(jì)中隱含的假設(shè)是,可以通過迭代地堆疊結(jié)構(gòu)良好的構(gòu)建塊,來創(chuàng)建高性能的更大型網(wǎng)絡(luò),這種做法完全適合 NAS。在 NAS 的語境下,這意味著先訓(xùn)練和評估小模型,然后擴(kuò)展該神經(jīng)網(wǎng)絡(luò)。例如,先在 ResNet18 上執(zhí)行 NAS,然后通過重復(fù)得到的構(gòu)建塊來構(gòu)建 ResNet50。

用搜索構(gòu)建塊替代搜索整個(gè)架構(gòu),以及訓(xùn)練和評估較小的模型,可以極大地提高速度,研究者實(shí)現(xiàn)了在 450 塊 GPU 上僅耗費(fèi) 3-4 天的搜索時(shí)間 [5]。此外,即使只搜索構(gòu)建塊,該技術(shù)也能夠找到 SOTA 架構(gòu)。

然而,盡管這是一項(xiàng)巨大改進(jìn),但整個(gè)過程仍然相當(dāng)緩慢,并且要想投入實(shí)際應(yīng)用,訓(xùn)練所需的 GPU 數(shù)量必須減少。無論模型大小如何,從零開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)始終是一個(gè)耗時(shí)的過程。有沒有一種方法可以重用以前訓(xùn)練好的網(wǎng)絡(luò)中的權(quán)重呢?

權(quán)重繼承

如何避免從頭開始訓(xùn)練神經(jīng)網(wǎng)絡(luò)?答案是使用權(quán)重繼承,即從另一個(gè)已經(jīng)訓(xùn)練過的網(wǎng)絡(luò)中借用權(quán)重。在 NAS 中,搜索是在特定的目標(biāo)數(shù)據(jù)集上進(jìn)行的,并且有多個(gè)架構(gòu)同時(shí)訓(xùn)練。為什么不重用權(quán)重,只更改架構(gòu)呢?畢竟,搜索過程的目的是尋找架構(gòu)而不是權(quán)重。為了實(shí)現(xiàn)重用權(quán)重,我們需要用更嚴(yán)格的結(jié)構(gòu)定義來限制搜索空間。

通過定義允許在搜索構(gòu)建塊中存在的隱藏狀態(tài)的數(shù)量,搜索空間變得非常有限。換句話說,構(gòu)建塊內(nèi)操作的可能組合數(shù)量較大,但并非無限。如果將隱藏狀態(tài)排序,并將它們的拓?fù)漕A(yù)定義為有向無環(huán)圖 (DAG),則搜索空間如圖 3 所示。

使用這個(gè)搜索空間,我們可以把控制器建議的架構(gòu)看作是來自更大網(wǎng)絡(luò)的子網(wǎng)絡(luò),其中較大的網(wǎng)絡(luò)和子網(wǎng)絡(luò)共享相同的隱藏狀態(tài)(節(jié)點(diǎn))。

當(dāng)控制器建議使用某個(gè)網(wǎng)絡(luò)架構(gòu)時(shí),這意味著選擇一組連接(邊)的子集,并為隱藏狀態(tài)(節(jié)點(diǎn))分配新的操作。這種形式意味著很容易以編碼方式保存節(jié)點(diǎn)上操作的權(quán)重,從而實(shí)現(xiàn)權(quán)重繼承。在 NAS 設(shè)置中,這意味著以前架構(gòu)的權(quán)重可以用作下一個(gè)采樣網(wǎng)絡(luò)的初始化 [6]。眾所周知,初始化可以很好地獨(dú)立于任務(wù)或操作 [7] 運(yùn)行,且由于沒有從頭開始訓(xùn)練模型,因此可以進(jìn)行更快的訓(xùn)練。

既然現(xiàn)在已經(jīng)不再需要從零開始訓(xùn)練每個(gè)模型了,那么網(wǎng)絡(luò)的訓(xùn)練和評估就會快得多。在單個(gè) GPU 上 NAS 只需要 0.45 天的訓(xùn)練時(shí)間,相比之前實(shí)現(xiàn)了約 1000 倍的提速 [6]。優(yōu)化技術(shù)的結(jié)合大大提高了基于強(qiáng)化學(xué)習(xí)的 NAS 的速度。

這些改進(jìn)都集中在更快地評估單個(gè)架構(gòu)上。然而,強(qiáng)化學(xué)習(xí)方法并不是最快的學(xué)習(xí)方法。是否存在一個(gè)替代性搜索過程,可以更高效地遍歷搜索空間?

在基于強(qiáng)化學(xué)習(xí)的 NAS 過程中,需要訓(xùn)練多個(gè)模型以便從中找到最佳模型。那么有沒有辦法避免訓(xùn)練所有的模型,而只訓(xùn)練一個(gè)模型呢?

可微性

在搜索空間的 DAG 形式中,訓(xùn)練的網(wǎng)絡(luò)是較大網(wǎng)絡(luò)的子網(wǎng)絡(luò)。那么是否可以直接訓(xùn)練這個(gè)更大的網(wǎng)絡(luò),并以某種方式了解哪些操作貢獻(xiàn)最大呢?答案是肯定的。

如果移除控制器,并將邊更改為表示所有可能的操作,則搜索空間可微分。在這個(gè)密集的架構(gòu)中,所有可能的操作都在每個(gè)節(jié)點(diǎn)上以加權(quán)和的形式組合起來。加權(quán)和是可學(xué)習(xí)參數(shù),使得網(wǎng)絡(luò)能夠縮放不同的操作。這意味著可以縮小不利于性能的操作,擴(kuò)大「良好」的操作。訓(xùn)練較大的網(wǎng)絡(luò)后,剩下要做的就是觀察權(quán)重并選擇對應(yīng)較大權(quán)重的操作。

通過對搜索空間求微分和訓(xùn)練更大的網(wǎng)絡(luò)(通常稱為「超級網(wǎng)絡(luò)」),我們不再需要訓(xùn)練多個(gè)架構(gòu),并且可以使用標(biāo)準(zhǔn)梯度下降優(yōu)化器。NAS 的可微性為未來發(fā)展開辟了許多可能性。其中一個(gè)例子是 NAS 中的可微分采樣 [9],由于每個(gè)前向傳播和反向傳播在搜索中需要使用的操作減少,因此該方法將搜索時(shí)間縮短到只要 4 個(gè)小時(shí)。

結(jié)語

NAS 訓(xùn)練時(shí)間如何從多天縮短到幾個(gè)小時(shí)的故事先到此為止吧。在這篇文章中,我試圖概述驅(qū)動 NAS 發(fā)展的最重要想法?,F(xiàn)在,NAS 技術(shù)已經(jīng)足夠高效,任何有 GPU 的人都可以使用它,你還在等什么?

關(guān)鍵詞: NAS

精選 導(dǎo)讀

募資55億港元萬物云啟動招股 預(yù)計(jì)9月29日登陸港交所主板

萬科9月19日早間公告,萬物云當(dāng)日啟動招股,預(yù)計(jì)發(fā)行價(jià)介乎每股47 1港元至52 7港元,預(yù)計(jì)9月29日登陸港交所主板。按發(fā)行1 167億股計(jì)算,萬

發(fā)布時(shí)間: 2022-09-20 10:39
管理   2022-09-20

公募基金二季度持股情況曝光 隱形重倉股多為高端制造業(yè)

隨著半年報(bào)披露收官,公募基金二季度持股情況曝光。截至今年二季度末,公募基金全市場基金總數(shù)為9794只,資產(chǎn)凈值為269454 75億元,同比上

發(fā)布時(shí)間: 2022-09-02 10:45
資訊   2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財(cái)報(bào)動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱,擬以1 66億元的轉(zhuǎn)讓底價(jià)掛牌出售31套房產(chǎn)。今年以來,A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時(shí)間: 2022-08-26 09:44
資訊   2022-08-26

16天12連板大港股份回復(fù)深交所關(guān)注函 股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后,大港股份繼續(xù)沖高。8月11日大港股份高開,隨后震蕩走高,接近收盤時(shí)觸及漲停,報(bào)20 2元 股。值得一提的是,在7月21日

發(fā)布時(shí)間: 2022-08-12 09:56
資訊   2022-08-12

萬家基金再添第二大股東 中泰證券擬受讓11%基金股權(quán)

7月13日,中泰證券發(fā)布公告,擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán),交易雙方共同確定本次交易的標(biāo)的資

發(fā)布時(shí)間: 2022-07-14 09:39
管理   2022-07-14

央行連續(xù)7日每天30億元逆回購 對債市影響如何?

央行12日再次開展了30億元逆回購操作,中標(biāo)利率2 10%。這已是央行連續(xù)7日每天僅進(jìn)行30億元的逆回購縮量投放,創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時(shí)間: 2022-07-13 09:38
資訊   2022-07-13

美元指數(shù)創(chuàng)近20年新高 黃金期貨創(chuàng)出逾9個(gè)月新低

由于對美聯(lián)儲激進(jìn)加息的擔(dān)憂,美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響,歐美股市、大宗商品均走弱,而黃金期貨創(chuàng)出逾9個(gè)月新低。美

發(fā)布時(shí)間: 2022-07-13 09:36
資訊   2022-07-13

美股三大股指全線下跌 納斯達(dá)克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年,美股持續(xù)回落。數(shù)據(jù)顯示,道瓊斯指數(shù)上半年下跌15 3%,納斯達(dá)克綜合指數(shù)下跌29 5%,標(biāo)普500指數(shù)下跌20 6%。其中,納斯達(dá)克連續(xù)

發(fā)布時(shí)間: 2022-07-04 09:51
推薦   2022-07-04

融資客熱情回升 兩市融資余額月內(nèi)增加超344億元

近期A股走強(qiáng),滬指6月以來上漲4%,融資客熱情明顯回升。數(shù)據(jù)顯示,截至6月16日,兩市融資余額1 479萬億元,月內(nèi)增加344 67億元,最近一個(gè)半

發(fā)布時(shí)間: 2022-06-20 09:41
資訊   2022-06-20

4個(gè)交易日凈買入超百億元 北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后,北向資金6月16日凈買入44 52億元。自5月27日至今,除6月13日以外,北向資金累計(jì)凈

發(fā)布時(shí)間: 2022-06-17 09:37
推薦   2022-06-17

熱門TAG

more
美聯(lián)儲今年已將基準(zhǔn)利率從接近零大幅上調(diào)至略高于3% EIA報(bào)告:美國原油庫存及戰(zhàn)略儲備減少,汽油及精煉油庫存輕微波動 美國政府更廣泛推動從汽油動力汽車轉(zhuǎn)向電動汽車的一部分 數(shù)據(jù)顯示:今年9月日本船企接單量延續(xù)8月下跌下跌趨勢 公告顯示:2022年前三季度TCL中環(huán)研發(fā)投入為27億元 占比營業(yè)收入5.42% 新的111.75億英鎊注資列在“對金融機(jī)構(gòu)的援助—支付給英格蘭銀行”標(biāo)題下 本次政府儲備肉投放面向北京18家主要連鎖超市門店及相關(guān)零售終端投放 有交易員預(yù)計(jì):如果LME不采取措施 接下來可能將有數(shù)十萬噸鋁流入LME 據(jù)報(bào)道:繼德國最大釀酒商拉德貝格啤酒公司9月宣布漲價(jià) 據(jù)報(bào)道:澳大利亞礦商Pilbara的鋰礦拍賣價(jià)再創(chuàng)新高 折算后的碳酸鋰成本 中集天達(dá)首次公開發(fā)行A股股票 招股書顯示此次擬公開發(fā)行股數(shù)不超過103, 多家銀行加強(qiáng)綠色金融頂層設(shè)計(jì) 致力于為經(jīng)濟(jì)社會綠色低碳轉(zhuǎn)型貢獻(xiàn)力量 萊特幣 比特幣 數(shù)字資產(chǎn) 火幣 以太經(jīng)典 比特股 EOS 比特幣現(xiàn)金 量子鏈 Hcash 泰達(dá)幣 瑞波幣 Qcash 比特幣鉆石 超級比特幣 優(yōu)幣 硬分叉 加密貨幣