要讓計(jì)算機(jī)學(xué)會(huì)識(shí)別一張照片中的圖像,通常來(lái)說(shuō),需要先讓它看上千張已經(jīng)標(biāo)注好數(shù)據(jù)的圖片。為了能簡(jiǎn)化計(jì)算機(jī)識(shí)別圖像的過(guò)程,來(lái)自Facebook
要讓計(jì)算機(jī)學(xué)會(huì)識(shí)別一張照片中的圖像,通常來(lái)說(shuō),需要先讓它看上千張已經(jīng)標(biāo)注好數(shù)據(jù)的圖片。為了能簡(jiǎn)化計(jì)算機(jī)識(shí)別圖像的過(guò)程,來(lái)自Facebook人工智能研究實(shí)驗(yàn)室(FAIR)的六名成員利用Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)創(chuàng)建了端到端的圖像檢測(cè)AI。
DETR可以直接(并行)預(yù)測(cè)最終的檢測(cè)結(jié)果
研究員將這套工具命名為DETR(Detection Transformer),并表示這套工具簡(jiǎn)化了識(shí)別圖片對(duì)象需要的組件。
FAIR 在官方博客中稱(chēng),DETR是第一個(gè)成功將Transformer架構(gòu)集成為圖像對(duì)象檢測(cè)核心的工具。Transformer架構(gòu)可以像近年來(lái)對(duì)自然語(yǔ)言進(jìn)行處理一樣,徹底改變計(jì)算機(jī)視覺(jué),或者縮小自然語(yǔ)言處理與計(jì)算機(jī)視覺(jué)之間的差距。
“通過(guò)將通用的CNN與Transformer架構(gòu)相結(jié)合,DETR可以直接(并行)預(yù)測(cè)最終的檢測(cè)結(jié)果,與許多其他現(xiàn)代檢測(cè)工具不同,新模型在概念上很簡(jiǎn)單,不需要專(zhuān)門(mén)的數(shù)據(jù)庫(kù)。”研究員在論文中稱(chēng)。
Transformer架構(gòu)由谷歌研究人員于2017年創(chuàng)建,Transformer架構(gòu)最初旨在改進(jìn)機(jī)器翻譯的方法,但目前已發(fā)展成為機(jī)器學(xué)習(xí)的基石,可用于訓(xùn)練一些最流行的經(jīng)過(guò)預(yù)先培訓(xùn)的語(yǔ)言模型,例如Google的BERT,F(xiàn)acebook的RoBERTa等。Transformer架構(gòu)使用注意力函數(shù)代替遞歸神經(jīng)網(wǎng)絡(luò)來(lái)預(yù)測(cè)序列中的下一步。應(yīng)用于物體檢測(cè)時(shí),Transformer可以減少建立模型的步驟,例如創(chuàng)建空間錨點(diǎn)和自定義圖層等步驟。
研究人員在論文中稱(chēng),DETR取得的結(jié)果可與Faster R-CNN媲美。Faster R-CNN是由微軟研究院創(chuàng)建的對(duì)象檢測(cè)模型,自2015年推出以來(lái)已獲得近10000次引用。
盡管效果不錯(cuò),但研究人員在論文中也指出了這個(gè)模型的主要問(wèn)題之一:DETR在大物體的識(shí)別上比小物體上更準(zhǔn)確。研究人員表示:“目前的模型需要幾年改進(jìn)才能應(yīng)對(duì)類(lèi)似的問(wèn)題,我們希望未來(lái)的工作能夠成功解決。”
值得一提的是,DETR是Facebook 最新推出的AI計(jì)劃,這個(gè)計(jì)劃旨在找到一種語(yǔ)言模型來(lái)解決計(jì)算機(jī)視覺(jué)帶來(lái)的挑戰(zhàn)。在此之前,針對(duì)自家平臺(tái)上泛濫的謠言和不實(shí)消息,F(xiàn)acebook引入了惡意模因數(shù)據(jù)集挑戰(zhàn)。Facebook認(rèn)為,惡意圖文對(duì)于機(jī)器學(xué)習(xí)程序而言是一個(gè)有趣的挑戰(zhàn),機(jī)器學(xué)習(xí)在短時(shí)間內(nèi)還找不到完美的解決方法。Facebook希望開(kāi)發(fā)者能創(chuàng)建出模型識(shí)別圖像和隨附文本中違反Facebook政策的內(nèi)容。
關(guān)鍵詞: Facebook