閱讀理解競賽微信AI稱王 AI工程師或?qū)⒃?5歲之前退休

2019-03-11 14:20:46 來源：量子位

在初高中英文閱讀理解這件事上，普通人類已經(jīng)不是AI對手了。這就是AI最新獲得的成就。在CMU語言技術(shù)研究所發(fā)起RACE數(shù)據(jù)集上，全球豪強(qiáng)紛紛

在初高中英文閱讀理解這件事上，普通人類已經(jīng)不是AI對手了。

這就是AI最新獲得的成就。

在CMU語言技術(shù)研究所發(fā)起RACE數(shù)據(jù)集上，全球豪強(qiáng)紛紛一展身手。

最終，依然由中國軍團(tuán)雄霸天下。

而且一位高中生，甚至單槍匹馬力壓騰訊和康奈爾聯(lián)隊。

此外，第一二名爭奪也異常激烈且頗富戲劇性。

微信AI和云從交大，上演了一出生死時速的好戲。

怎樣一回事?

中國AI軍團(tuán)雄霸全球競賽

此次比賽所用數(shù)據(jù)集RACE，全稱：Large-scale ReAding Comprehension Dataset From Examination，是一個從初中和高中試題中收集的大型英文閱讀理解數(shù)據(jù)集。

2017年正式對外推出，主要考察AI模型在英文閱讀理解方面的學(xué)習(xí)能力。

從推出至今，總共有13支全球豪強(qiáng)來試過身手。除了前面提到的微信AI、云從、騰訊AI Lab和康奈爾之外，OpenAI、微軟研究院、IBM研究院也都參與其中。

但2年以來，還沒有哪支團(tuán)隊的AI模型真正實(shí)現(xiàn)超越人類水平。

但就在今年1月，中國公司云從科技和上海交大聯(lián)隊，首次在高中生數(shù)據(jù)集部分實(shí)現(xiàn)了AI模型水平對人類超越，該排名也一度占據(jù)榜首50多天。

如此成績，云從自然應(yīng)該慶祝一番。

不過熟料戰(zhàn)況異常激烈，萬萬沒想到，在云從刷榜通告發(fā)出后不久，中國另一代表隊——微信AI提交最新成績，并成功實(shí)現(xiàn)超越，且還是對人類水平的全面超越。

這年頭，慶功都不允許雍容款款了。

微信第一，BERT稱王

那么微信AI模型，究竟有何獨(dú)到之處?

在RACE中，微信AI模型整體正確率73.5%，超過了普通人類的73.3%。

其使用的是選項(xiàng)比較網(wǎng)絡(luò)(OCN)，模仿人類完成閱讀理解任務(wù)的做法，在單詞級別上對各個選項(xiàng)進(jìn)行比較，以識別其中的相關(guān)性，來幫助推理答案。

不過，在這個競賽中，更大的贏家卻是BERT。

微信AI使用的模型，正是基于BERT。

不僅僅是微信AI，榜單二三名，也都是基于BERT。

目前排名第二的選手，上海交大與云從提出的雙協(xié)同匹配網(wǎng)絡(luò)(DCMN)，可以模擬段落、問題和答案之間的雙向關(guān)系，來進(jìn)行更好的推理。在RACE數(shù)據(jù)集高中題目上拿下了69.8%準(zhǔn)確率，超過普通人類表現(xiàn)。

BERT的成績，并不會讓人太過意外。

這個于2018年10月由谷歌推出模型，剛一問世便交出了一份驚人的成績單。

在機(jī)器閱讀理解頂級水平測試SQuAD1.1中，全面超越人類表現(xiàn)，并在11種不同NLP測試中創(chuàng)出最佳成績。

現(xiàn)在，SQuAD 2.0榜單已經(jīng)被BERT壟斷，前30名之中都很難見到不用BERT的選手。

在我們今天要講的RACE競賽中，借BERT上榜的還有一名高中生。他來自新加坡立化中學(xué)，也是中國人。

他的模型，比騰訊AI Lab和康奈爾大學(xué)提出模型成績還要好。

高中生力壓騰訊AI Lab+康奈爾

這位高中生名叫司程磊，初中就讀于合肥市第五十中學(xué)，2015年被新加坡立化中學(xué)錄取。

他的這項(xiàng)研究并不復(fù)雜，只是基于RACE數(shù)據(jù)集對預(yù)訓(xùn)練好的BERT模型進(jìn)行調(diào)參。

司程磊在GitHub頁上聲明自己的成果是基于BERT的PyTorch實(shí)現(xiàn)。但作為一名高中生，已經(jīng)開始上手調(diào)參煉丹，的確比不少同齡人要超前了不少。

還在高中就讀的司程磊展現(xiàn)出了對計算機(jī)科學(xué)的濃厚興趣，他的GitHub頁上顯示他正在自學(xué)斯坦福大學(xué)的NLP課程CS224N，還在Coursera上自學(xué)加州大學(xué)圣迭戈的算法課程。

另一方面，他也在關(guān)注NOI(全國信息學(xué)奧林匹克競賽)、ACM競賽。

司程磊可不僅僅把這些停留在簡單的關(guān)注上，每門學(xué)過的課程，他都認(rèn)認(rèn)真真地在GitHub上編寫習(xí)題的代碼。

言歸正傳，司程磊根據(jù)模型的精細(xì)程度，將結(jié)果分成基本BERT(BERT_base)和大型BERT(BERT_large)兩部分。BERT_large的batch size更小，學(xué)習(xí)率更低，因此在測試結(jié)果上優(yōu)于BERT_base。

不過，騰訊AI Lab被超越，也是情理之中。

他們上次提交成績，還是在2018年10月。

當(dāng)時，他們基于Transformer的模型，在多個閱讀理解數(shù)據(jù)集上都實(shí)現(xiàn)了最優(yōu)結(jié)果。

但現(xiàn)在已經(jīng)是2019年了，BERT已經(jīng)開源，成了各個NLP模型中的核心。

而2017年推出的RACE，也因此迎來革命性時刻。

RACE：讓AI做高考題的數(shù)據(jù)集

RACE(Large-scale ReAding Comprehension Dataset From Examination)，由兩位來自中國的博士生提出，是一個從初中和高中試題中收集的大型英文閱讀理解數(shù)據(jù)集。

RACE一共收集了28，130篇文章，包含了98，432個問題。數(shù)據(jù)集又分為RACE-M(初中)和RACE-H(高中)兩個部分。

RACE由中學(xué)教師設(shè)計，用于測試學(xué)生的閱讀理解技能。要想選出正確答案，不能直接從原句子中尋找，而是需要找到相關(guān)的上下文，還需要邏輯推理并運(yùn)用社會、數(shù)學(xué)、文化等方面的常識進(jìn)行分析。這對AI是個很大的考驗(yàn)。

關(guān)于RACE數(shù)據(jù)集的文章曾被EMNLP 2017收錄，當(dāng)時最先進(jìn)的機(jī)器閱讀理解模型也只能獲得42.3%的正確率，而在亞馬遜的眾包平臺Turkers上，人類的平均正確率達(dá)到了73.3%，上限成績是94.5%。

△數(shù)據(jù)集作者用Sliding Window和Stanford AR兩個模型的測試結(jié)果與人類對比

顯然最先進(jìn)模型與人類表現(xiàn)之間存在顯著差距，RACE很適合作為機(jī)器閱讀的測試標(biāo)準(zhǔn)。

開發(fā)這個數(shù)據(jù)集的，是卡內(nèi)基·梅隆大學(xué)的兩位在讀博士賴國堃和謝其哲，他們都曾都在微軟亞洲研究院實(shí)習(xí)過。

除了閱讀理解外，這兩位還提出過英文完型填空的數(shù)據(jù)集CLOTH。他們?nèi)ツ?2月用BERT模型超越了人類得分。

謝其哲畢業(yè)于上海交大ACM班，目前正在攻讀CMU博士學(xué)位，已有多篇論文被ACL、EMNLP、NIPS等頂會收錄。

他的本科導(dǎo)師俞凱，是蘇州思必馳信息科技有限公司首席科學(xué)家，同時也是上海交通大學(xué)蘇州人工智能研究院執(zhí)行院長。

也是名師出高徒的又一例證。

后生可畏

當(dāng)然，現(xiàn)在各大全球AI競賽被中國軍團(tuán)霸榜，早已見怪不怪了。

遠(yuǎn)的不說，2018年的國際頂級口語機(jī)器翻譯評測大賽IWSLT上，搜狗第一，訊飛第二，阿里巴巴第三，承包了Baseline Model賽道前三。

還有COCO+Mapillary 2018物體識別聯(lián)合挑戰(zhàn)賽上，中國團(tuán)隊包攬全部六項(xiàng)賽事的第一名，其中曠視團(tuán)隊獲得4項(xiàng)冠軍，商湯、北郵和滴滴團(tuán)隊分別獲得1項(xiàng)冠軍。

然而與之前種種霸榜事件相比，這次大有不同，畢竟此次中國軍團(tuán)中，還有嶄露頭角的高中生——此外測試標(biāo)準(zhǔn)本身，也由兩名中國留學(xué)生提出。

真是一個后生可畏的年代啊!

如果你也關(guān)注近期AI頂會的論文，還會發(fā)現(xiàn)各路本科生、實(shí)習(xí)生大展神威。

中國AI的年輕一代，正在源源不斷走到前臺。

看來未來AI工程師退休，都不用拖到35歲高齡了。(手動狗頭)(文/乾明邊策)

關(guān)鍵詞：閱讀理解微信AI 工程師

精選導(dǎo)讀

募資55億港元萬物云啟動招股預(yù)計9月29日登陸港交所主板

萬科9月19日早間公告，萬物云當(dāng)日啟動招股，預(yù)計發(fā)行價介乎每股47 1港元至52 7港元，預(yù)計9月29日登陸港交所主板。按發(fā)行1 167億股計算，萬

發(fā)布時間： 2022-09-20 10:39

管理 2022-09-20

公募基金二季度持股情況曝光隱形重倉股多為高端制造業(yè)

隨著半年報披露收官，公募基金二季度持股情況曝光。截至今年二季度末，公募基金全市場基金總數(shù)為9794只，資產(chǎn)凈值為269454 75億元，同比上

發(fā)布時間： 2022-09-02 10:45

資訊 2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱，擬以1 66億元的轉(zhuǎn)讓底價掛牌出售31套房產(chǎn)。今年以來，A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時間： 2022-08-26 09:44

資訊 2022-08-26

16天12連板大港股份回復(fù)深交所關(guān)注函股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后，大港股份繼續(xù)沖高。8月11日大港股份高開，隨后震蕩走高，接近收盤時觸及漲停，報20 2元股。值得一提的是，在7月21日

發(fā)布時間： 2022-08-12 09:56

資訊 2022-08-12

萬家基金再添第二大股東中泰證券擬受讓11%基金股權(quán)

7月13日，中泰證券發(fā)布公告，擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán)，交易雙方共同確定本次交易的標(biāo)的資

發(fā)布時間： 2022-07-14 09:39

管理 2022-07-14

央行連續(xù)7日每天30億元逆回購對債市影響如何？

央行12日再次開展了30億元逆回購操作，中標(biāo)利率2 10%。這已是央行連續(xù)7日每天僅進(jìn)行30億元的逆回購縮量投放，創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時間： 2022-07-13 09:38

資訊 2022-07-13

美元指數(shù)創(chuàng)近20年新高黃金期貨創(chuàng)出逾9個月新低

由于對美聯(lián)儲激進(jìn)加息的擔(dān)憂，美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響，歐美股市、大宗商品均走弱，而黃金期貨創(chuàng)出逾9個月新低。美

發(fā)布時間： 2022-07-13 09:36

資訊 2022-07-13

美股三大股指全線下跌納斯達(dá)克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年，美股持續(xù)回落。數(shù)據(jù)顯示，道瓊斯指數(shù)上半年下跌15 3%，納斯達(dá)克綜合指數(shù)下跌29 5%，標(biāo)普500指數(shù)下跌20 6%。其中，納斯達(dá)克連續(xù)

發(fā)布時間： 2022-07-04 09:51

融資客熱情回升兩市融資余額月內(nèi)增加超344億元

近期A股走強(qiáng)，滬指6月以來上漲4%，融資客熱情明顯回升。數(shù)據(jù)顯示，截至6月16日，兩市融資余額1 479萬億元，月內(nèi)增加344 67億元，最近一個半

發(fā)布時間： 2022-06-20 09:41

資訊 2022-06-20

4個交易日凈買入超百億元北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后，北向資金6月16日凈買入44 52億元。自5月27日至今，除6月13日以外，北向資金累計凈

發(fā)布時間： 2022-06-17 09:37

国产乱人伦在线播放,99无码精品二区在线视频,最近在线更新8中文字幕免费,精品成人一区二区三区四区

閱讀理解競賽微信AI稱王 AI工程師或?qū)⒃?5歲之前退休

精選導(dǎo)讀

募資55億港元萬物云啟動招股預(yù)計9月29日登陸港交所主板

公募基金二季度持股情況曝光隱形重倉股多為高端制造業(yè)

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

16天12連板大港股份回復(fù)深交所關(guān)注函股份繼續(xù)沖高

萬家基金再添第二大股東中泰證券擬受讓11%基金股權(quán)

央行連續(xù)7日每天30億元逆回購對債市影響如何？

美元指數(shù)創(chuàng)近20年新高黃金期貨創(chuàng)出逾9個月新低

美股三大股指全線下跌納斯達(dá)克跌幅創(chuàng)下記錄以來最大跌幅

融資客熱情回升兩市融資余額月內(nèi)增加超344億元

4個交易日凈買入超百億元北向資金持續(xù)流入A股市場

每日熱點(diǎn)

熱門TAG

閱讀理解競賽微信AI稱王 AI工程師或?qū)⒃?5歲之前退休

精選 導(dǎo)讀

每日熱點(diǎn)

熱門TAG

精選導(dǎo)讀