上周,美國艾倫人工智能研究所(Allen Institute For Artificial Intelligence)的研究人員在一篇新論文中證明,他們?cè)O(shè)計(jì)的AI系統(tǒng)可以在初二
上周,美國艾倫人工智能研究所(Allen Institute For Artificial Intelligence)的研究人員在一篇新論文中證明,他們?cè)O(shè)計(jì)的AI系統(tǒng)可以在初二科學(xué)測(cè)試的多項(xiàng)選擇題中給出90%以上的正確答案,在高三科學(xué)測(cè)試中也表現(xiàn)得相當(dāng)好,正確率超過80%。
圖:AI系統(tǒng)Aristo可在初二科學(xué)測(cè)試中給出90%以上的正確答案,在高三測(cè)試中的表現(xiàn)也相當(dāng)棒
這個(gè)名為Aristo的AI系統(tǒng)參加了紐約攝政學(xué)院科學(xué)考試(New York Regents Science Exam,紐約州學(xué)生標(biāo)準(zhǔn)會(huì)考),但它可以享受某些優(yōu)待,比如不需要解答涉及查看圖表的問題。盡管如此,研究人員在不同版本和不同年級(jí)的考試中測(cè)試了該程序,發(fā)現(xiàn)其表現(xiàn)相當(dāng)穩(wěn)定,絕對(duì)能與最好的學(xué)生一較高低。
Aristo展示了AI技術(shù)的高速發(fā)展歷程。該論文的作者指出,就在2016年,AI領(lǐng)域還沒有任何AI系統(tǒng)能夠在類似的初二科學(xué)考試中獲得及格成績。但自2016年以來,在AI領(lǐng)域發(fā)生了很多事情,尤其是用于這項(xiàng)任務(wù)的自然語言處理方面。
研究人員已經(jīng)開發(fā)出新的方法來構(gòu)建AI,使其能夠更好地完成自然語言處理任務(wù),使AI系統(tǒng)能夠產(chǎn)生聽起來更自然的人類文本,并編寫新聞故事或詩歌。隨著AI在生成假面孔或視頻、“增強(qiáng)”真實(shí)圖像以及識(shí)別對(duì)象和面孔的能力方面變得更加復(fù)雜,計(jì)算機(jī)視覺已經(jīng)得到了極大的改善。
AI系統(tǒng)已經(jīng)征服了在線多人戰(zhàn)略游戲。隨著投資大量涌入該領(lǐng)域,今年搶眼的項(xiàng)目通常比幾年前的項(xiàng)目成本高得多。現(xiàn)在,進(jìn)步的浪潮把我們帶到了能夠在科學(xué)測(cè)試中擊敗初二學(xué)生的AI系統(tǒng)中。
AI技術(shù)的快速發(fā)展使許多專家難以預(yù)測(cè)該領(lǐng)域的未來前景,他們中有些人預(yù)測(cè)相當(dāng)于人類水平的AI出現(xiàn)可能只需10年或20年。但隨著AI系統(tǒng)變得越來越強(qiáng)大,它們將帶來更多挑戰(zhàn)。當(dāng)它們達(dá)到人類水平的能力時(shí),錯(cuò)誤指定或設(shè)計(jì)不良的程序可能帶來災(zāi)難性的風(fēng)險(xiǎn)。不過,這樣的結(jié)果是令人興奮的,它們也提醒我們,我們正在AI方面取得驚人的成就,這也許比我們制定AI政策、確保安全速度更快。
對(duì)這樣的項(xiàng)目的常見的批評(píng)是,AI只是反芻信息,而不是真正的思考。幾年前,這似乎是對(duì)AI系統(tǒng)所能做的事情的準(zhǔn)確總結(jié)。當(dāng)單詞相互關(guān)聯(lián)時(shí),它們可以記住,但卻不能回答任何涉及更深層次概念理解的問題。這種情況一直在改變。當(dāng)今最先進(jìn)的AI系統(tǒng)仍然會(huì)犯概念性錯(cuò)誤,但已經(jīng)少了很多。
看看紐約攝政學(xué)院科學(xué)考試的這些問題(來自艾倫研究所的論文)就可以清楚地看出,要想在這次考試中取得好成績,你必須做許多類似概念推理的事情:
1)哪種設(shè)備能最好地分離鐵屑和黑胡椒的混合物?(1)磁鐵(2)濾紙(3)三臂天平(4)伏特計(jì)。
2)橡皮筋振動(dòng)時(shí)會(huì)產(chǎn)生哪種形式的能量?(1)化學(xué)能量(2)光能(3)電能(4)聲能。
3)因?yàn)殂~屬于金屬,所以它(1)在室溫下是液態(tài)的(2)不與其他物質(zhì)發(fā)生反應(yīng)(3)是不良導(dǎo)體(4)是良好的熱導(dǎo)體。
4)蘋果樹的哪個(gè)過程主要是細(xì)胞分裂的結(jié)果?(1)生長(2)光合作用(3)氣體交換(4)廢物去除。
這些當(dāng)然不僅僅是關(guān)聯(lián)詞匯意義的問題。持懷疑態(tài)度的人仍然可以采取這樣的立場(chǎng),即AI可能只是通過繪制詞語之間的關(guān)聯(lián)來解決這些問題:例如,“鐵屑”和“磁鐵”,“振動(dòng)”和“聲音”,或者“金屬”和“良好的熱導(dǎo)體”。
但專注于研究復(fù)雜系統(tǒng)的專家梅蘭妮·米切爾(Melanie Mitchell)解釋稱:“語言模型將捕獲單詞之間的統(tǒng)計(jì)關(guān)聯(lián),使其能夠在沒有任何真正理解的情況下回答問題。”
另一方面,這和我們學(xué)習(xí)科學(xué)時(shí)所做的真的有那么大的不同嗎?學(xué)習(xí)一個(gè)概念的大部分就是理解這個(gè)概念和你以前學(xué)過的其他概念之間存在的某種關(guān)系。目前還不清楚AI正在做的事情與人類正在做的事情有何根本不同。事實(shí)上,AI系統(tǒng)得到的能力越強(qiáng),給出解釋的可能性就越小。
雖然AI取得這樣的成就很容易被低估,但也很容易被夸大。許多媒體用過分夸張的言辭報(bào)道了艾倫研究所的論文,這些報(bào)道對(duì)新的AI系統(tǒng)所具備的的能力做出了曲解。諸如“這個(gè)AI剛剛通過科學(xué)測(cè)試,可能比初中生更聰明”或“AI現(xiàn)在像初中生一樣聰明”這樣的標(biāo)題,遠(yuǎn)遠(yuǎn)不夠準(zhǔn)確。世界上還沒有任何AI系統(tǒng)具有2歲孩童那樣的解決問題能力,更不用說媲美初中生了。
像Aristo這樣的AI系統(tǒng)屬于狹義AI。它們非常擅長自己的工作,所要做的就是解決一個(gè)定義明確、高度具體化的問題。除了完成多項(xiàng)選擇題的科學(xué)考試外,Aristo不能解決其他問題。而正是在這方面,人類依然在計(jì)算機(jī)面前保持著絕對(duì)優(yōu)勢(shì),我們可以將從一個(gè)領(lǐng)域獲取知識(shí)去解決其他領(lǐng)域的全新問題。不過對(duì)于這種優(yōu)勢(shì)能夠保持多久,我們?nèi)詿o法確定。(作者:Kelsey Piper)
關(guān)鍵詞: Aristo AI系統(tǒng) 初二科學(xué)測(cè)試