OpenAI今天宣布將開始追蹤機(jī)器學(xué)習(xí)模型的效率,并對AI算法演進(jìn)的情況進(jìn)行定量追蹤,結(jié)果顯示算法改進(jìn)效率吊打摩爾定律。為了啟動這一進(jìn)程,
OpenAI今天宣布將開始追蹤機(jī)器學(xué)習(xí)模型的效率,并對AI算法演進(jìn)的情況進(jìn)行定量追蹤,結(jié)果顯示算法改進(jìn)效率吊打摩爾定律。
為了啟動這一進(jìn)程,Open AI發(fā)表了一份分析報(bào)告,開篇即用數(shù)據(jù)展示了算法演進(jìn)的速度。
所需的算力每16個月就會減少1/2
報(bào)告分析顯示,自2012年以來,要訓(xùn)練一個人工智能模型在基準(zhǔn)測試ImageNet圖像分類任務(wù)中達(dá)到同等的分類效果,。
ImageNet圖像分類任務(wù)
與2012年相比,現(xiàn)在訓(xùn)練一個神經(jīng)網(wǎng)絡(luò)達(dá)到 AlexNet的水平所需的算力會減少到1/44
(相比之下,摩爾定律在相同時(shí)間之內(nèi),效率只有12倍左右的增長)。結(jié)果表明,對于投入了大量資金的AI研發(fā),算法演進(jìn)顯然比傳統(tǒng)的硬件進(jìn)步帶來了更多的收益。
算法演進(jìn)速度吊打摩爾定律
「算法進(jìn)步是推動AI發(fā)展的關(guān)鍵因素。重要的是要找到方法,闡明整個算法演進(jìn)的過程,盡管這比衡量計(jì)算趨勢更難,」OpenAI 在官網(wǎng)文章中寫道。
提升算法效率,可以定義為減少訓(xùn)練算法完成某項(xiàng)任務(wù)所需的算力
。
在很多其他領(lǐng)域都可以對效率進(jìn)行比較,比如 DNA 測序(每10個月翻一番)、能源再生(每6年翻一番)和晶體管密度(每2年翻一番)。研究人員經(jīng)常使用效率,來衡量算法在完成經(jīng)典計(jì)算任務(wù)時(shí)的能力,其中就包括分類任務(wù)。分類等傳統(tǒng)問題上的效率提升,比機(jī)器學(xué)習(xí)中的效率更容易衡量,因?yàn)樗鼈儗θ蝿?wù)難度的衡量更加清晰。
在機(jī)器學(xué)習(xí)中,我們想要測量算法的效率,就要保持達(dá)到性能水平的恒定。
在分析中,Open AI利用開源的方法測量了各種模型達(dá)到AlexNet 水平的效率。
上圖為 ImageNet比賽中各種模型達(dá)到AlexNet水平的效率提升情況,圖中reduction factor指的就是提升的倍數(shù)。
2019年推出的EfficientNet-b1模型達(dá)到ResNet-50相同的性能,4年的時(shí)間里所需算力減少到1/10。
研究發(fā)現(xiàn)在機(jī)器翻譯、 Go 和 Dota 2比賽中,在較短的時(shí)間內(nèi)效率提升速度更快:
1 在WMT’14英語到法語的翻譯基準(zhǔn)測試中,seq2seq三年后推出的Transformer,完成相同的訓(xùn)練任務(wù)所需的算力減少了1/61。seqseq也是谷歌2014年推出的架構(gòu),是當(dāng)時(shí)最先進(jìn)的模型。
2 我們都知道,Deepmind 的AlphaZero是一個從零開始自學(xué)下棋的系統(tǒng),他的進(jìn)步速度也很快,和在他一年前推出的版本 AlphaGoZero相比,達(dá)到相同的性能,只需要8分之一的算力。
3 Open AI自己的Dota2游戲系統(tǒng)Open AI Five Rerun和在3個月之前推出的Open AI Five相比,達(dá)到相同的性能只需要1/5的算力。前者曾經(jīng)擊敗過世界冠軍,種子選手OG。
相同的算力在2019年可以完成比2012年更多的任務(wù)。
當(dāng)然也要考慮到2012年的計(jì)算和2019年的計(jì)算不可同日而語,就像美元需要隨著時(shí)間的推移發(fā)生通貨膨脹一樣。從這個意義上講,可以將某些AI研究進(jìn)程分為兩個階段,類似于半導(dǎo)體中的「tick tock」發(fā)展模型。
以英特爾為例,Tick年(工藝年)更新制作工藝,Tock年(架構(gòu)年)更新微架構(gòu)。Tick-Tock就是時(shí)鐘的“嘀嗒”的意思,而在Intel的處理器發(fā)展戰(zhàn)略上,每一個嘀嗒代表著2年一次的工藝制程進(jìn)步。每個Tick-Tock中的“Tick”,代表著工藝的提升、晶體管變小,并在此基礎(chǔ)上增強(qiáng)原有的微架構(gòu),而Tick-Tock中的“Tock”,則在維持相同工藝的前提下,進(jìn)行微架構(gòu)的革新,這樣在制程工藝和核心架構(gòu)的兩條提升道路上,總是交替進(jìn)行。
根據(jù)摩爾定律,一個集成電路中可容納的晶體管數(shù)量每兩年就會翻一番,OpenAI 推測演算法效率可能會超過摩爾定律。
摩爾定律是在1965年提出來的,當(dāng)時(shí)集成電路只有64個晶體管。
Open AI的研究結(jié)果表明,AI研發(fā),研究人員時(shí)間和計(jì)算能力的投入更高,算法演進(jìn)效率可能會超過硬件效率。
算法效率的提升使得研究人員可以在同等的時(shí)間和經(jīng)濟(jì)條件下做更多想做的實(shí)驗(yàn)。除了作為衡量整體AI進(jìn)步的指標(biāo),算法效率提升還加快了未來AI研究的速度,也意味著整體算力的提升。
其他衡量AI進(jìn)展的指標(biāo)
除了效率之外,還有許多其他的衡量標(biāo)準(zhǔn)也可以揭示AI的算法演進(jìn)過程。
1 訓(xùn)練成本(以美元為單位)也是相關(guān)的衡量標(biāo)準(zhǔn),但不再取決于算法的進(jìn)步,因?yàn)樗€受到底層硬件、硬件利用率和云基礎(chǔ)設(shè)施的改進(jìn)的影響。
2 采樣效率也很關(guān)鍵,尤其是當(dāng)樣本數(shù)據(jù)不足時(shí)。訓(xùn)練模型的能力也加快了研究的速度,可以被認(rèn)為是對感興趣的學(xué)習(xí)能力的并行性的一種度量。
3 在 GPU 時(shí)間、參數(shù)和浮點(diǎn)運(yùn)算方面,訓(xùn)練模型推理效率也有所提高,但這主要是由于它們的經(jīng)濟(jì)影響而不是對未來研究進(jìn)展的影響。推理效率在5年內(nèi)(每15個月翻一番)提高了18倍,這表明訓(xùn)練效率和推理效率可能在相同的速率下得到提高。
算法效率演進(jìn)將大幅推動行業(yè)發(fā)展
在重要能力方面實(shí)現(xiàn)最優(yōu)訓(xùn)練效率的模型,可以用來規(guī)?;瑏韺?shí)現(xiàn)總體計(jì)算的最佳性能。
對于翻譯和游戲這樣的領(lǐng)域,如何用更少的算力來獲取更好的成績,提升大規(guī)模計(jì)算的效率是至關(guān)重要的。
事實(shí)上,這項(xiàng)工作最初是通過訓(xùn)練 PyTorch 示例模型來完成的,通過微調(diào)來提高早期學(xué)習(xí)的效率。
Open AI認(rèn)為,測量算法效率提升的長期趨勢將有助于定量描繪整個算法演進(jìn)的進(jìn)程。研究表明,硬件和算法效率都是呈倍數(shù)增長的,一個良好的AI進(jìn)步模型可以將二者相結(jié)合。
正是出于上述這些原因,Open AI開始公開測試最先進(jìn)的算法效率。除了圖像和翻譯效率基準(zhǔn)(ImageNet 和 WMT14) 測試以外,Open AI會考慮逐步增加更多的基準(zhǔn)測試,同時(shí)Open AI鼓勵學(xué)界提交他更多的測量結(jié)果(原創(chuàng)作者和合作者也會受到相應(yīng)的獎勵)。
值得注意的是,OpenAI 并不是第一個提出利用基準(zhǔn)測試AI模型效率的公司。去年,艾倫人工智能研究所、卡內(nèi)基梅隆大學(xué)和華盛頓大學(xué)的科學(xué)家們主張將效率作為AI學(xué)術(shù)論文的一個更普遍的評估標(biāo)準(zhǔn),與準(zhǔn)確性和相關(guān)措施并列。還有人主張要求對機(jī)器學(xué)習(xí)項(xiàng)目進(jìn)行行業(yè)級的耗能分析,并設(shè)定每瓦特運(yùn)行算力的行業(yè)標(biāo)準(zhǔn)。
「行業(yè)領(lǐng)袖、政策制定者、經(jīng)濟(jì)學(xué)家和研究人員都在努力更好地理解人工智能的進(jìn)展,并決定他們應(yīng)該投入多少精力,并將研究重心放在何處,」OpenAI 寫道?!肝覀兊倪@項(xiàng)測量工作可以幫助他們做出這樣的決定。」
如果在未來的幾十年內(nèi),我們觀察人工智能算法效率呈指數(shù)級倍增,我們不確定這會帶來什么。這些結(jié)果也意味著,我們正面向著一個AI服務(wù)和技術(shù)無比強(qiáng)大的未來。
論文結(jié)尾,Open AI展望了未來,「」
這個未來也許已經(jīng)近在咫尺
關(guān)鍵詞: OpenAI