在初高中英文閱讀理解這件事上,普通人類已經(jīng)不是AI對手了。這就是AI最新獲得的成就。在CMU語言技術(shù)研究所發(fā)起RACE數(shù)據(jù)集上,全球豪強(qiáng)紛紛
在初高中英文閱讀理解這件事上,普通人類已經(jīng)不是AI對手了。
這就是AI最新獲得的成就。
在CMU語言技術(shù)研究所發(fā)起RACE數(shù)據(jù)集上,全球豪強(qiáng)紛紛一展身手。
最終,依然由中國軍團(tuán)雄霸天下。
而且一位高中生,甚至單槍匹馬力壓騰訊和康奈爾聯(lián)隊。
此外,第一二名爭奪也異常激烈且頗富戲劇性。
微信AI和云從交大,上演了一出生死時速的好戲。
怎樣一回事?
中國AI軍團(tuán)雄霸全球競賽
此次比賽所用數(shù)據(jù)集RACE,全稱:Large-scale ReAding Comprehension Dataset From Examination,是一個從初中和高中試題中收集的大型英文閱讀理解數(shù)據(jù)集。
2017年正式對外推出,主要考察AI模型在英文閱讀理解方面的學(xué)習(xí)能力。
從推出至今,總共有13支全球豪強(qiáng)來試過身手。除了前面提到的微信AI、云從、騰訊AI Lab和康奈爾之外,OpenAI、微軟研究院、IBM研究院也都參與其中。
但2年以來,還沒有哪支團(tuán)隊的AI模型真正實(shí)現(xiàn)超越人類水平。
但就在今年1月,中國公司云從科技和上海交大聯(lián)隊,首次在高中生數(shù)據(jù)集部分實(shí)現(xiàn)了AI模型水平對人類超越,該排名也一度占據(jù)榜首50多天。
如此成績,云從自然應(yīng)該慶祝一番。
不過熟料戰(zhàn)況異常激烈,萬萬沒想到,在云從刷榜通告發(fā)出后不久,中國另一代表隊——微信AI提交最新成績,并成功實(shí)現(xiàn)超越,且還是對人類水平的全面超越。
這年頭,慶功都不允許雍容款款了。
微信第一,BERT稱王
那么微信AI模型,究竟有何獨(dú)到之處?
在RACE中,微信AI模型整體正確率73.5%,超過了普通人類的73.3%。
其使用的是選項(xiàng)比較網(wǎng)絡(luò)(OCN),模仿人類完成閱讀理解任務(wù)的做法,在單詞級別上對各個選項(xiàng)進(jìn)行比較,以識別其中的相關(guān)性,來幫助推理答案。
不過,在這個競賽中,更大的贏家卻是BERT。
微信AI使用的模型,正是基于BERT。
不僅僅是微信AI,榜單二三名,也都是基于BERT。
目前排名第二的選手,上海交大與云從提出的雙協(xié)同匹配網(wǎng)絡(luò)(DCMN),可以模擬段落、問題和答案之間的雙向關(guān)系,來進(jìn)行更好的推理。在RACE數(shù)據(jù)集高中題目上拿下了69.8%準(zhǔn)確率,超過普通人類表現(xiàn)。
BERT的成績,并不會讓人太過意外。
這個于2018年10月由谷歌推出模型,剛一問世便交出了一份驚人的成績單。
在機(jī)器閱讀理解頂級水平測試SQuAD1.1中,全面超越人類表現(xiàn),并在11種不同NLP測試中創(chuàng)出最佳成績。
現(xiàn)在,SQuAD 2.0榜單已經(jīng)被BERT壟斷,前30名之中都很難見到不用BERT的選手。
在我們今天要講的RACE競賽中,借BERT上榜的還有一名高中生。他來自新加坡立化中學(xué),也是中國人。
他的模型,比騰訊AI Lab和康奈爾大學(xué)提出模型成績還要好。
高中生力壓騰訊AI Lab+康奈爾
這位高中生名叫司程磊,初中就讀于合肥市第五十中學(xué),2015年被新加坡立化中學(xué)錄取。
他的這項(xiàng)研究并不復(fù)雜,只是基于RACE數(shù)據(jù)集對預(yù)訓(xùn)練好的BERT模型進(jìn)行調(diào)參。
司程磊在GitHub頁上聲明自己的成果是基于BERT的PyTorch實(shí)現(xiàn)。但作為一名高中生,已經(jīng)開始上手調(diào)參煉丹,的確比不少同齡人要超前了不少。
還在高中就讀的司程磊展現(xiàn)出了對計算機(jī)科學(xué)的濃厚興趣,他的GitHub頁上顯示他正在自學(xué)斯坦福大學(xué)的NLP課程CS224N,還在Coursera上自學(xué)加州大學(xué)圣迭戈的算法課程。
另一方面,他也在關(guān)注NOI(全國信息學(xué)奧林匹克競賽)、ACM競賽。
司程磊可不僅僅把這些停留在簡單的關(guān)注上,每門學(xué)過的課程,他都認(rèn)認(rèn)真真地在GitHub上編寫習(xí)題的代碼。
言歸正傳,司程磊根據(jù)模型的精細(xì)程度,將結(jié)果分成基本BERT(BERT_base)和大型BERT(BERT_large)兩部分。BERT_large的batch size更小,學(xué)習(xí)率更低,因此在測試結(jié)果上優(yōu)于BERT_base。
不過,騰訊AI Lab被超越,也是情理之中。
他們上次提交成績,還是在2018年10月。
當(dāng)時,他們基于Transformer的模型,在多個閱讀理解數(shù)據(jù)集上都實(shí)現(xiàn)了最優(yōu)結(jié)果。
但現(xiàn)在已經(jīng)是2019年了,BERT已經(jīng)開源,成了各個NLP模型中的核心。
而2017年推出的RACE,也因此迎來革命性時刻。
RACE:讓AI做高考題的數(shù)據(jù)集
RACE(Large-scale ReAding Comprehension Dataset From Examination),由兩位來自中國的博士生提出,是一個從初中和高中試題中收集的大型英文閱讀理解數(shù)據(jù)集。
RACE一共收集了28,130篇文章,包含了98,432個問題。 數(shù)據(jù)集又分為RACE-M(初中)和RACE-H(高中)兩個部分。
RACE由中學(xué)教師設(shè)計,用于測試學(xué)生的閱讀理解技能。要想選出正確答案,不能直接從原句子中尋找,而是需要找到相關(guān)的上下文,還需要邏輯推理并運(yùn)用社會、數(shù)學(xué)、文化等方面的常識進(jìn)行分析。這對AI是個很大的考驗(yàn)。
關(guān)于RACE數(shù)據(jù)集的文章曾被EMNLP 2017收錄,當(dāng)時最先進(jìn)的機(jī)器閱讀理解模型也只能獲得42.3%的正確率,而在亞馬遜的眾包平臺Turkers上,人類的平均正確率達(dá)到了73.3%,上限成績是94.5%。
△數(shù)據(jù)集作者用Sliding Window和Stanford AR兩個模型的測試結(jié)果與人類對比
顯然最先進(jìn)模型與人類表現(xiàn)之間存在顯著差距,RACE很適合作為機(jī)器閱讀的測試標(biāo)準(zhǔn)。
開發(fā)這個數(shù)據(jù)集的,是卡內(nèi)基·梅隆大學(xué)的兩位在讀博士賴國堃和謝其哲,他們都曾都在微軟亞洲研究院實(shí)習(xí)過。
除了閱讀理解外,這兩位還提出過英文完型填空的數(shù)據(jù)集CLOTH。他們?nèi)ツ?2月用BERT模型超越了人類得分。
謝其哲畢業(yè)于上海交大ACM班,目前正在攻讀CMU博士學(xué)位,已有多篇論文被ACL、EMNLP、NIPS等頂會收錄。
他的本科導(dǎo)師俞凱,是蘇州思必馳信息科技有限公司首席科學(xué)家,同時也是上海交通大學(xué)蘇州人工智能研究院執(zhí)行院長。
也是名師出高徒的又一例證。
后生可畏
當(dāng)然,現(xiàn)在各大全球AI競賽被中國軍團(tuán)霸榜,早已見怪不怪了。
遠(yuǎn)的不說,2018年的國際頂級口語機(jī)器翻譯評測大賽IWSLT上,搜狗第一,訊飛第二,阿里巴巴第三,承包了Baseline Model賽道前三。
還有COCO+Mapillary 2018物體識別聯(lián)合挑戰(zhàn)賽上,中國團(tuán)隊包攬全部六項(xiàng)賽事的第一名,其中曠視團(tuán)隊獲得4項(xiàng)冠軍,商湯、北郵和滴滴團(tuán)隊分別獲得1項(xiàng)冠軍。
然而與之前種種霸榜事件相比,這次大有不同,畢竟此次中國軍團(tuán)中,還有嶄露頭角的高中生——此外測試標(biāo)準(zhǔn)本身,也由兩名中國留學(xué)生提出。
真是一個后生可畏的年代啊!
如果你也關(guān)注近期AI頂會的論文,還會發(fā)現(xiàn)各路本科生、實(shí)習(xí)生大展神威。
中國AI的年輕一代,正在源源不斷走到前臺。
看來未來AI工程師退休,都不用拖到35歲高齡了。(手動狗頭)(文/乾明 邊策)