微軟使用微笑訓(xùn)練AI 人們在迷宮的碰撞次數(shù)減少29%

2020-02-02 09:56:25 來源： it之家

我們生活在一個人工智能爆炸發(fā)展的年代——每隔一小段時間，研究人員們就會想出新奇的人工智能訓(xùn)練方式。這不，微軟研究院的計算機學(xué)家最近就創(chuàng)

我們生活在一個人工智能爆炸發(fā)展的年代——每隔一小段時間，研究人員們就會想出新奇的人工智能訓(xùn)練方式。

這不，微軟研究院的計算機學(xué)家最近就創(chuàng)造了一種用人類情緒來訓(xùn)練機器自我學(xué)習(xí)的方法。

該研究使用虛擬代理人來輔助機器在虛擬環(huán)境中學(xué)習(xí)。研究中極具意義的一點是，它使用了人與系統(tǒng)交互時產(chǎn)生的微笑來訓(xùn)練AI。

這項研究的背后其實是強化學(xué)習(xí)

強化學(xué)習(xí)非常適用于教學(xué)系統(tǒng)來訓(xùn)練機器完成一系列的任務(wù)。在這項研究中，應(yīng)用主要著重于計算機視覺的相關(guān)任務(wù)。

強化學(xué)習(xí)的工作原理是通過讓虛擬代理人(agent)在模擬環(huán)境中反復(fù)執(zhí)行任務(wù)，再將經(jīng)驗提取成策略。用這種方法訓(xùn)練系統(tǒng)來玩游戲在幾年前十分流行，甚至更先進的算法擊敗了圍棋世界冠軍李世石。

強化學(xué)習(xí)的關(guān)鍵在于它嚴重依賴于代理人通過在虛擬環(huán)境中探索得到的數(shù)據(jù)，該數(shù)據(jù)就是該研究的核心。

微軟研究人員希望采用常規(guī)方法來構(gòu)建一個極具探索能力的代理人。為了實現(xiàn)這一點，他們使用了另一項技術(shù)——模仿學(xué)習(xí)，即通過使系統(tǒng)與人在模擬環(huán)境中進行交互來完成訓(xùn)練。

研究者認為，最好的提煉人類探索方式的方法就是通過捕捉真實人類與系統(tǒng)交互的瞬間?；谥皩⒄媲榫w與好奇心進行關(guān)聯(lián)并應(yīng)用于機器學(xué)習(xí)的研究，研究人員構(gòu)建了一個用于發(fā)現(xiàn)這些情緒的系統(tǒng)。

最終，他們構(gòu)建了一個能夠記錄人們在模擬迷宮環(huán)境中駕駛時產(chǎn)生的微笑表情的系統(tǒng)。經(jīng)過多次系統(tǒng)測試后，研究人員發(fā)現(xiàn)這個基于情緒的強化學(xué)習(xí)系統(tǒng)使代理人的探索持續(xù)時間延長了51%，探索范圍擴大了46%，在迷宮中碰撞的次數(shù)減少了29%。

基于情緒的強化學(xué)習(xí)

使用情緒反饋例如微笑來訓(xùn)練機器的意義在于，情緒反應(yīng)了人類的內(nèi)在反饋，這一反饋能夠在今后拓展應(yīng)用到更多領(lǐng)域，而不拘泥于該項研究。另一個在使用強化學(xué)習(xí)時需要注意的地方是，代理人與模擬環(huán)境的交互很大程度上受系統(tǒng)設(shè)計者選擇的特定獎勵機制影響。如果你想訓(xùn)練一個系統(tǒng)使其在游戲中獲勝，那么你就需要在得分時給予獎勵。

但問題是，生活中發(fā)生的事情并不總是能夠輕易用分數(shù)量化。因此，找到明確的獎勵機制是強化學(xué)習(xí)研究中的挑戰(zhàn)之一。

通過將微笑定義為正反饋，研究人員發(fā)現(xiàn)了一個訓(xùn)練人工智能系統(tǒng)的普適化反饋機制，并且這種情緒反饋是較容易獲得的。

基于情緒的強化學(xué)習(xí)本質(zhì)上是在人類這一數(shù)億年才形成的智慧生物基礎(chǔ)之上進行的，它使我們能夠快速輕松地量化各種體驗感受。通過有效的調(diào)整，該信號可在訓(xùn)練機器進行學(xué)習(xí)的過程中做為一種強大的、可擴展性極強的反饋機制。

情緒AI在市場中的應(yīng)用

除了研究團隊使用的開源微笑探測工具外，還有許多商業(yè)公司也在做這項工作，例如Affectiva公司和Emotient公司(于2016年被蘋果公司收購)。情緒追蹤工具在市場中被稱為“情緒AI”。微軟的這項研究賦予了這些工具新的應(yīng)用，即可作為基于情緒的強化學(xué)習(xí)的數(shù)據(jù)來源。

AI在許多領(lǐng)域都可以從人身上習(xí)得知識，尤其是服務(wù)性經(jīng)濟領(lǐng)域。例如谷歌、奈飛和亞馬遜這些公司都在使用用戶數(shù)據(jù)來自動服務(wù)于用戶。我們在使用這些強大的技術(shù)平臺時，產(chǎn)生了的大量的數(shù)據(jù)，這些數(shù)據(jù)可用于訓(xùn)練機器學(xué)習(xí)系統(tǒng)，從而使這些平臺變得更智能、更強大。

基于情緒的強化學(xué)習(xí)的應(yīng)用將為這些平臺開啟新的篇章。強化學(xué)習(xí)本身就尤其擅長學(xué)習(xí)如何優(yōu)化一系列的任務(wù)。而業(yè)務(wù)流程的本質(zhì)就是一系列的任務(wù)，并且業(yè)務(wù)流程就是公司為客戶創(chuàng)造價值的核心。在業(yè)務(wù)流程中使用強化學(xué)習(xí)主導(dǎo)這些任務(wù)的挑戰(zhàn)在于保障可靠的反饋信息來源。

類似微笑或其它表情的反饋信息來源眾多，這要歸功于無處不在的攝像頭。正如研究人員所指出的，這項技術(shù)也可以擴展使用“其他生理信號”，這意味著像亞馬遜和谷歌等收集的聲音數(shù)據(jù)也可以用于訓(xùn)練機器。就像今天，電話可能被錄音用于訓(xùn)練和通話質(zhì)量評估。這項技術(shù)使得被訓(xùn)練的不再是員工，而是智能軟件代理人。

情緒將我們與機器相連結(jié)

這些系統(tǒng)究竟從人與他們的交互中學(xué)習(xí)到了什么呢?如果交互是通過建立關(guān)系并使用這些關(guān)系，那么機器就會在與我們交互的過程中學(xué)習(xí)如何與我們建立聯(lián)系以及如何為我們服務(wù)。

情緒AI能夠幫助機器更好的與我們建立連結(jié)。目前，基于這些技術(shù)構(gòu)建了一種探測情緒的傳感器，該傳感器可用于市場營銷以及改善事物性能，例如汽車。

今后，這些技術(shù)將把重點擴展到與終端用戶建立密切關(guān)系。可以想象未來我們會通過與模擬角色進行交互來使用產(chǎn)品或享受服務(wù)。今天的聊天機器人或代理人像Siri和Alexa只是早期的例子。終有一天，你將和你的運動鞋或你的牙刷建立連結(jié)。

微軟這項研究有趣創(chuàng)新的地方在于，它提出了情緒AI新的應(yīng)用，即通過使用一種類似于大腦的情感信號來訓(xùn)練情緒AI。在心理學(xué)上，效價衡量了我們對某種經(jīng)歷的情緒反應(yīng)是吸引還是厭惡。

當(dāng)孩子觸碰到火爐時，會產(chǎn)生強烈的負效價，從而在大腦中留下有效的學(xué)習(xí)信號。同樣，基于情緒的強化學(xué)習(xí)也可以使用這種有效的機制，用相似的情緒效價來驅(qū)動機器學(xué)習(xí)。

在目前的大背景下，這項研究最有趣的地方在于，地球上古老生物的智慧已成為人工智能發(fā)展的溫床。

情緒是強大的老師，而這項新的研究指出了向這位老師學(xué)習(xí)的方法。（大萌、錢天培）

關(guān)鍵詞：微軟微笑 AI

精選導(dǎo)讀

募資55億港元萬物云啟動招股預(yù)計9月29日登陸港交所主板

萬科9月19日早間公告，萬物云當(dāng)日啟動招股，預(yù)計發(fā)行價介乎每股47 1港元至52 7港元，預(yù)計9月29日登陸港交所主板。按發(fā)行1 167億股計算，萬

發(fā)布時間： 2022-09-20 10:39

管理 2022-09-20

公募基金二季度持股情況曝光隱形重倉股多為高端制造業(yè)

隨著半年報披露收官，公募基金二季度持股情況曝光。截至今年二季度末，公募基金全市場基金總數(shù)為9794只，資產(chǎn)凈值為269454 75億元，同比上

發(fā)布時間： 2022-09-02 10:45

資訊 2022-09-02

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

再有上市公司宣布變賣房產(chǎn)。四川長虹25日稱，擬以1 66億元的轉(zhuǎn)讓底價掛牌出售31套房產(chǎn)。今年以來，A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時間： 2022-08-26 09:44

資訊 2022-08-26

16天12連板大港股份回復(fù)深交所關(guān)注函股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后，大港股份繼續(xù)沖高。8月11日大港股份高開，隨后震蕩走高，接近收盤時觸及漲停，報20 2元股。值得一提的是，在7月21日

發(fā)布時間： 2022-08-12 09:56

資訊 2022-08-12

萬家基金再添第二大股東中泰證券擬受讓11%基金股權(quán)

7月13日，中泰證券發(fā)布公告，擬受讓齊河眾鑫投資有限公司(以下簡稱齊河眾鑫)所持有的萬家基金11%的股權(quán)，交易雙方共同確定本次交易的標(biāo)的資

發(fā)布時間： 2022-07-14 09:39

管理 2022-07-14

央行連續(xù)7日每天30億元逆回購對債市影響如何？

央行12日再次開展了30億元逆回購操作，中標(biāo)利率2 10%。這已是央行連續(xù)7日每天僅進行30億元的逆回購縮量投放，創(chuàng)下去年1月以來的最低操作規(guī)

發(fā)布時間： 2022-07-13 09:38

資訊 2022-07-13

美元指數(shù)創(chuàng)近20年新高黃金期貨創(chuàng)出逾9個月新低

由于對美聯(lián)儲激進加息的擔(dān)憂，美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響，歐美股市、大宗商品均走弱，而黃金期貨創(chuàng)出逾9個月新低。美

發(fā)布時間： 2022-07-13 09:36

資訊 2022-07-13

美股三大股指全線下跌納斯達克跌幅創(chuàng)下記錄以來最大跌幅

今年上半年，美股持續(xù)回落。數(shù)據(jù)顯示，道瓊斯指數(shù)上半年下跌15 3%，納斯達克綜合指數(shù)下跌29 5%，標(biāo)普500指數(shù)下跌20 6%。其中，納斯達克連續(xù)

發(fā)布時間： 2022-07-04 09:51

融資客熱情回升兩市融資余額月內(nèi)增加超344億元

近期A股走強，滬指6月以來上漲4%，融資客熱情明顯回升。數(shù)據(jù)顯示，截至6月16日，兩市融資余額1 479萬億元，月內(nèi)增加344 67億元，最近一個半

發(fā)布時間： 2022-06-20 09:41

資訊 2022-06-20

4個交易日凈買入超百億元北向資金持續(xù)流入A股市場

北向資金凈流入態(tài)勢延續(xù)。繼6月15日凈買入133 59億元后，北向資金6月16日凈買入44 52億元。自5月27日至今，除6月13日以外，北向資金累計凈

發(fā)布時間： 2022-06-17 09:37

国产乱人伦在线播放,99无码精品二区在线视频,最近在线更新8中文字幕免费,精品成人一区二区三区四区

微軟使用微笑訓(xùn)練AI 人們在迷宮的碰撞次數(shù)減少29%

精選導(dǎo)讀

募資55億港元萬物云啟動招股預(yù)計9月29日登陸港交所主板

公募基金二季度持股情況曝光隱形重倉股多為高端制造業(yè)

又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財報動作不斷

16天12連板大港股份回復(fù)深交所關(guān)注函股份繼續(xù)沖高

萬家基金再添第二大股東中泰證券擬受讓11%基金股權(quán)

央行連續(xù)7日每天30億元逆回購對債市影響如何？

美元指數(shù)創(chuàng)近20年新高黃金期貨創(chuàng)出逾9個月新低

美股三大股指全線下跌納斯達克跌幅創(chuàng)下記錄以來最大跌幅

融資客熱情回升兩市融資余額月內(nèi)增加超344億元

4個交易日凈買入超百億元北向資金持續(xù)流入A股市場

每日熱點

熱門TAG

微軟使用微笑訓(xùn)練AI 人們在迷宮的碰撞次數(shù)減少29%

精選 導(dǎo)讀

每日熱點

熱門TAG

精選導(dǎo)讀