2020年11月5日,小米成功舉辦MIDC2020開發(fā)者大會。大會以生活的科技為主題,通過展示小米在相機(jī)、屏幕、充電、AI、IoT、智能制造等多個領(lǐng)域
2020年11月5日,小米成功舉辦MIDC2020開發(fā)者大會。大會以“生活的科技”為主題,通過展示小米在相機(jī)、屏幕、充電、AI、IoT、智能制造等多個領(lǐng)域取得的重大突破,充分展示了小米的技術(shù)實力。
本次大會,小愛同學(xué)5.0版本帶來五大升級,從傳統(tǒng)的語音助手升級為智能生活助手,給消費者提供更好的智能生活體驗。
此次2020MIDC小米開發(fā)者大會上,小愛同學(xué)三維虛擬形象首次亮相,和崔寶秋的一段順暢互動成為大會一道亮眼風(fēng)景。除了極具特色的虛擬形象,小愛同學(xué)5.0還升級了五大貼心功能,具體體現(xiàn)在全場景智能協(xié)同、對話式主動智能、定制化情感語音、多模態(tài)視覺能力和智慧學(xué)習(xí)好助手方面。
得益于小米前瞻性的生態(tài)鏈布局,龐大的智能硬件產(chǎn)品也為小米的AI技術(shù)落地提供了沃土。過去一年,小米在視覺、聲學(xué)、語音、自然語言處理、知識圖譜、機(jī)器學(xué)習(xí)等領(lǐng)域均取得了技術(shù)上的突破進(jìn)展。比如超級夜景、魔法換天、魔法分身、Vlog、通話降噪、陣列增加等全新技術(shù)都已經(jīng)在最新發(fā)布的硬件產(chǎn)品中得以應(yīng)用。
發(fā)布會后,小米集團(tuán)人工智能部總經(jīng)理、AIoT戰(zhàn)略委員會副主席葉航軍,小米人工智能部AI實驗室主任、NLP首席科學(xué)家王斌以及人工智能部副總經(jīng)理王剛共同接受了記者的采訪,以下是本次采訪的部分摘要。
小米在人工智能方面短期和未來長期的計劃和目標(biāo)
葉航軍:短期的目標(biāo)比較明確,目前兩個大的方向,一個就是AI產(chǎn)品和小愛同學(xué)要支持好公司在智能生活的戰(zhàn)略,就是手機(jī)×AIoT構(gòu)建智能生活的戰(zhàn)略,短期目標(biāo)就是要把這個事情做好。因為在手機(jī)×AIoT戰(zhàn)略里面,小愛是個非常重要的環(huán)節(jié),可以認(rèn)為是一個入口環(huán)節(jié)和落地的作用。
另外一個就是AIoT方向,這六大技術(shù)方向現(xiàn)在都有非常明確的業(yè)務(wù)和落地場景,因為AI大家對它的期望很高,其實它有非常多的技術(shù)問題解決得還很不好,這是我們后面要努力把這個事情做好的一個決心。這是短期的目標(biāo)。
長期目標(biāo),我理解主要是兩個,一個就是要把智能做得更深入一些?,F(xiàn)在很多環(huán)節(jié)其實并不智能,這個是我們需要把整個在小米的業(yè)務(wù)體系里面,把各個層面的智能要做得很深入,除了用戶可見的產(chǎn)品體驗以外,還有一些不太容易注意得到的,比如說客服也是需要智能的,因為大家可能有個不太好的體驗,就是打了客服電話就讓你等,讓你等的原因是接線員不夠多,接線員不夠多的原因是成本問題。大部分人客服的問題70%、80%都是相對比較簡單的問題,對目前的AI來講都是AI能解決的問題,所以我們現(xiàn)在也在加大投入,這可能是用戶不太會想到的一個場景。一個長期目標(biāo)就是要把各個環(huán)節(jié)的智能化做得更深入。
第二個方向就是往產(chǎn)業(yè)的上游去做,我們今天講了智能制造,這是我們非常重要的一個場景。小米除了向消費者直接提供產(chǎn)品之外,也是希望通過技術(shù)來幫助整個國內(nèi)的制造業(yè)提升制造水平,智能制造里面非常重要的技術(shù)就是AI技術(shù),這是我們的一個長期目標(biāo)。
小愛同學(xué)的動態(tài)語音識別技術(shù)的前景
王斌:先講講動態(tài)語音識別技術(shù),動態(tài)語音識別技術(shù)是說模型的更新非???,語音識別還是根據(jù)線上各種反饋,根據(jù)發(fā)展會不斷的動態(tài)調(diào)整。但傳統(tǒng)的這種語音識別模型都非常非常大,進(jìn)行調(diào)整是比較耗代價的,比如說以前一周更新一次,但是我們這個技術(shù)把它碎片化,通過技術(shù)上變成一個可迭代的增長式模型,在很短的時間內(nèi)可以不斷的進(jìn)行動態(tài)的調(diào)整。這個叫動態(tài)語音識別技術(shù)。
當(dāng)然這個技術(shù)未來還有非常大的發(fā)展空間,比如說我們針對不同的人,其實不同的人大家都知道,語音識別其實跟人有關(guān),有些人他識別得好一些,有些人識別得差一些。我們這個報告里面都講了是一個平均水平,但實際上到真正每一個用戶又不太一樣,前幾天有一個視頻我覺得挺好玩的,就是一個老外特別喜歡小愛同學(xué),但是他發(fā)音不太準(zhǔn),他就很生氣。也就是說語音識別本身并沒有我們想象得那么如意,針對不同的人、不同的水平、不同的階段,它的識別率并不能達(dá)到通用的很高的水平,所以這種情況下,未來我們會做個性化,針對不同的人進(jìn)行不同的訓(xùn)練,來動態(tài)調(diào)整模型,使得對所有的用戶的感覺都很好,這就是我們最終的目標(biāo)。所以,這個動態(tài)語音識別技術(shù)未來來看還是非常有前景的。
小愛同學(xué)在多輪對話方向上的進(jìn)展
王剛:多輪對話確實是我們?nèi)ツ暝谛弁瑢W(xué)3.0的時候就重點做的功能,2018年3月份就啟動了多輪對話的研發(fā),到今天也接近三年的時間了。在這個多輪對話上,我們還是面對到了一些技術(shù)的挑戰(zhàn),在現(xiàn)有技術(shù)的框架下,現(xiàn)在的技術(shù)框架叫做AUS框架,去表述用戶自然語言的處理,我們是逐步去優(yōu)化的,多輪的時候,從技術(shù)框架去解決多輪問題的時候,還是遇到了一些困難。多輪的理解對整個理解的表示能力上來講,它是很受限,所以我們現(xiàn)在首先在現(xiàn)有的技術(shù)框架下去逐步的突破對多輪的理解力,多輪理解力我們現(xiàn)在內(nèi)部已經(jīng)做出200多種組合的多輪對話能力。比如說你問小愛同學(xué)假如說北京天氣怎么樣,明天去哪兒更好玩,我們會把上文“北京”帶下來,有這種上下文知識的傳遞。我們內(nèi)部現(xiàn)在有200種組合能力的對話,怎么樣更好的針對多輪對話有一個更自然的全面理解,這一塊是更需要更新的技術(shù)突破,在現(xiàn)有技術(shù)框架下,用戶進(jìn)行多輪對話有一個全面自然的問題的解決的。
然后我們從產(chǎn)品側(cè)的話,也發(fā)現(xiàn)用戶對多輪對話這個功能還是喜愛的,自從我們?nèi)ツ臧l(fā)布了多輪對話到今天為止,因為現(xiàn)在有一個開關(guān),用戶可以在這個設(shè)備上打開多輪對話,然后跟用戶的交互就變成了你只需要一次喚醒,就可以多輪對話了,現(xiàn)在每天大概有200萬人跟小愛同學(xué)進(jìn)行多輪對話,當(dāng)然可能會有很多話會在多輪的場景下回答的像單輪,就是多輪長距離的下下文的理解可能還不是很少。
小米AI的核心競爭力
葉航軍:我理解不少廠商對AI的判斷大致一致,大家都覺得這是一個核心競爭力,這個不會有問題。每個公司都會有自己的核心競爭力,我理解對小米來講,可能是幾個層面吧,第一個層面還是場景,這是取決于每個公司不同生態(tài),手機(jī)×AIoT是最大的場景,從場景開始比如說到數(shù)據(jù)的理解,如果這是你的場景,你必然會對用戶更理解,長期積累下來這會是你的優(yōu)勢。再往下是算法,算法也是為場景和數(shù)據(jù)服務(wù)的,最后是人才,因為你不同的生態(tài)、不同的場景會吸引不同的人過來,你要找到最合適你的生態(tài)的人才,然后最終效果才會變得最好,我的理解是這個層面的。
小米AI在發(fā)展過程中遇到最大的挑戰(zhàn)
葉航軍:最大的挑戰(zhàn)也是人才,如果媒體朋友們關(guān)注到我們MIDC上的演講,我也大概分享了一下小米發(fā)展的歷程,比較里程碑的一年就是2016年,第一次把人工智能升級為公司的戰(zhàn)略,也是第一次成為了獨立的團(tuán)隊,之前也有工程師在做AI算法,但是分落在不同的業(yè)務(wù)團(tuán)隊里面,2016年第一次升級為公司的戰(zhàn)略,也有了獨立的部門。小米進(jìn)入AI戰(zhàn)場不算特別早,那個時候決定進(jìn)到公司有比較激進(jìn)的計劃,希望能夠很快有產(chǎn)品出來,其實對團(tuán)隊的要求是非常高的,當(dāng)時最大的挑戰(zhàn)就是人才。
解決方案有幾個,一個就是從內(nèi)部轉(zhuǎn)了一些有經(jīng)驗的管理者和專家,其實我和王剛博士都是那時候轉(zhuǎn)崗過來的,之前我是云技術(shù)的負(fù)責(zé)人,王剛博士是數(shù)據(jù)平臺的負(fù)責(zé)人,我是2012年加入小米的,王剛博士是2013年加入的,我們剛開始來的時候都不是AI方向的,我們是2016年轉(zhuǎn)到這個方向的。
我們轉(zhuǎn)的原因是因為我們之前有這個背景,我在清華讀博士是計算機(jī)視覺背景,王剛博士是在香港科大做機(jī)器學(xué)習(xí)的背景,本身我們是有這個專業(yè)背景的,正好公司有這個需求,招聘也來不及了,就先轉(zhuǎn)吧,然后我們倆當(dāng)時就從別的部門直接轉(zhuǎn)到AI這個方向了。這是應(yīng)急的辦法,然后又加緊招聘,王斌博士是2018年加入的,他作為招聘的一個代表,本來是行業(yè)專家,2018年加入了小米。另外一個渠道就是自主培養(yǎng),我們會招很多應(yīng)屆生去培養(yǎng),基本是這三個方式解決這個問題。
MiNLP和其他開源NLP的差異性
王斌:開源的NLP工具蠻多的,我們大致上能看到的開源工具分兩類,一個是學(xué)術(shù)界開源,一個是工業(yè)界開源。學(xué)術(shù)界開源對學(xué)術(shù)的研究幫助很大,它里面會做得相對模型非常多,非常復(fù)雜,然后有它的一些優(yōu)勢,我們在之前也學(xué)習(xí)了不少。另外是工業(yè)界開源,剛才提到了百度還有一些公司也開源了他們的工具,為什么?大概是根據(jù)他們的特點。比如跟學(xué)術(shù)界相比,我們是工業(yè)級的代碼,經(jīng)過了一兩年,我們上線時間也很長,到現(xiàn)在開源是因為我們經(jīng)歷了很多考驗,最后才把這個好的版本拿出來,所以我們是一個經(jīng)過工業(yè)界上線考驗的一個代碼的版本,所以這是一個工業(yè)界開源很好的一個辦法,并不是純學(xué)術(shù)的。特別是對一些公司來說,我相信拿過去之后可以直接上線學(xué)術(shù),這是它和學(xué)術(shù)界版本的不同。
和工業(yè)界相比有很多特點,我們設(shè)計這個系統(tǒng)的時候也參考了別人的一些工作,然后我們針對具體的一些東西提出自己的特點。這里面其實蠻多,包括支持的系統(tǒng)也不一樣,比如百度開源,它可能支持某一類底層的系統(tǒng),這個可能是有區(qū)別的。另外,比如說我們支持了多種標(biāo)準(zhǔn)的分布式系統(tǒng),另外我們支持非常靈活的干預(yù),因為大家知道,通用的分支系統(tǒng)在線上很容易出現(xiàn)不太好的結(jié)果,因為通用的東西很難代表線上各種復(fù)雜的情況,所以我們這里面開源過程中也考慮了隨時進(jìn)行干預(yù)的一種機(jī)制。這種干預(yù)機(jī)制其實是在一開始設(shè)計的時候就會去考慮的,如果說只是一個模型放出來,其實第三方在使用的時候是沒辦法進(jìn)行干預(yù)。所以我們放出了一個可以隨時干預(yù)的版本,用戶可以很靈活的把自己的一些東西放上去,然后能夠在很短的時間內(nèi)獲得一個更符合線上需求的版本。
除了這個之外,可能還有其他一些特點,我們會在說明書當(dāng)中講出這些特點,這樣的話其實也是給用戶一個不同的選擇。當(dāng)然在內(nèi)部評測的時候,我們的效果也是非常不錯的,我相信開源之后更多用戶根據(jù)他自己的情況肯定多了一種選擇。
關(guān)鍵詞: