如果有一種技術(shù)可以一秒復(fù)制或模仿你講話,你會(huì)感到驚喜還是驚恐?進(jìn)入2019年,AI技術(shù)的應(yīng)用落地越來(lái)越多樣化。科大訊飛、搜狗等技術(shù)公司相
如果有一種技術(shù)可以一秒復(fù)制或模仿你講話,你會(huì)感到驚喜還是驚恐?
進(jìn)入2019年,AI技術(shù)的應(yīng)用落地越來(lái)越多樣化??拼笥嶏w、搜狗等技術(shù)公司相繼發(fā)布了語(yǔ)音合成技術(shù)的應(yīng)用。通過(guò)AI手段,用戶可以一秒變聲社會(huì)名人或者其他想模仿的聲音。
互聯(lián)網(wǎng)技術(shù)在悄無(wú)聲息地改變我們的生活,對(duì)人工智能企業(yè)來(lái)說(shuō),語(yǔ)音識(shí)別技術(shù)的廣泛應(yīng)用已不是難事。但背后的倫理道德和安全隱患,或?qū)⒊蔀榘殡SAI技術(shù)發(fā)展不容忽視的一個(gè)問(wèn)題。
實(shí)時(shí)變聲技術(shù)受AI公司熱捧,一秒可換聲
“嗨,大家好,今天非常開(kāi)心,來(lái)到科大訊飛新品發(fā)布會(huì),一直好喜歡科大訊飛哦……”
這是發(fā)生在科大訊飛2019新品發(fā)布會(huì)上的一幕,科大訊飛董事長(zhǎng)劉慶峰通過(guò)技術(shù),現(xiàn)場(chǎng)模擬了單田芳、林志玲和羅永浩的聲音來(lái)做開(kāi)場(chǎng)白。尤其當(dāng)羅永浩聲音響起的時(shí)候,不少人以為老羅到了現(xiàn)場(chǎng)。
“你看到的是劉慶峰,但聽(tīng)到的是老羅的聲音。”臺(tái)上的劉慶峰表示,這是公司最新的實(shí)時(shí)變聲技術(shù)。據(jù)悉,這項(xiàng)新的語(yǔ)音合成技術(shù)只需要1分鐘的聲音樣本,就可以模仿任何人說(shuō)話。
不止科大訊飛,也是在近期,搜狗CEO王小川在一場(chǎng)大會(huì)上展示了搜狗變聲功能,通過(guò)手機(jī)軟件,王小川模擬了高曉松和東北妹子的聲音,引得現(xiàn)場(chǎng)連連發(fā)笑。他隨后展示了歌曲中的聲音替換,據(jù)介紹,系統(tǒng)先用14分鐘對(duì)他的語(yǔ)音做了訓(xùn)練,然后把音色做遷移。
這是搜狗最新的語(yǔ)音合成技術(shù),可以實(shí)現(xiàn)把任何人的聲音轉(zhuǎn)化成特定聲音,秒變林志玲、馬云的聲音都可以。王小川表示,這不只是一個(gè)簡(jiǎn)單的語(yǔ)音合成,可以把語(yǔ)音語(yǔ)調(diào)情感做遷移。
目前,在搜狗輸入法中,用戶可以將自己的聲音自由變換成喜歡的聲音,在微信、QQ、陌陌等主要社交場(chǎng)景均可使用。搜狗提供了明星、卡通人物、游戲 IP、方言等幾個(gè)類別供19種特定聲音。
王小川
其實(shí),語(yǔ)音合成早就不是新技術(shù),之前,我們見(jiàn)到更多的是將文字轉(zhuǎn)化為聲音,比如在導(dǎo)航、轉(zhuǎn)寫、智能音箱、Siri等智能語(yǔ)音助手等方面的應(yīng)用,并不是真人在說(shuō)話。
今年,很多AI公司發(fā)力語(yǔ)音合成在變聲、語(yǔ)音cos等場(chǎng)景下的應(yīng)用,將真人發(fā)出的聲音轉(zhuǎn)化成特定聲音。
百度也有相關(guān)技術(shù)的落地應(yīng)用,今年5月初,在中央電視臺(tái)公益節(jié)目《等著我》中,百度大腦基于智能語(yǔ)音技術(shù),合成了已故老兵的聲音,幫助分別64年的老戰(zhàn)友實(shí)現(xiàn)“重逢”。
據(jù)介紹,該技術(shù)使用百度端到端語(yǔ)音風(fēng)格分離和建模方案,使用多組神經(jīng)網(wǎng)絡(luò)對(duì)語(yǔ)音的不同維度,例如音色、情感、風(fēng)格等,進(jìn)行獨(dú)立的編碼建模,從而指導(dǎo)最終合成。
這些AI技術(shù)落地應(yīng)用的背后,一方面體現(xiàn)了AI技術(shù)應(yīng)用的進(jìn)展,和為社會(huì)帶來(lái)的普惠價(jià)值理念。比如搜狗將語(yǔ)音變聲技術(shù)、AI合成主播技術(shù)等與行業(yè)結(jié)合,在媒體、教育、內(nèi)容制作、旅游等場(chǎng)景結(jié)合,將會(huì)帶來(lái)更大的價(jià)值想象空間。
另一方面,未來(lái)可能存在的技術(shù)漏洞、技術(shù)濫用等風(fēng)險(xiǎn)也不容忽視。有網(wǎng)友就指出“小心被用于電信詐騙”“以后可能會(huì)收到‘馬云’的電話”……
一音頻領(lǐng)域業(yè)內(nèi)人士認(rèn)為,對(duì)于音頻作為交互方式的工具型產(chǎn)品應(yīng)該是有用的,但對(duì)于音頻作為內(nèi)容載體的線上音頻平臺(tái),正面意義有待觀察。
因此,對(duì)企業(yè)來(lái)說(shuō),在不斷尋求技術(shù)突破和商業(yè)價(jià)值的同時(shí),也應(yīng)該樹(shù)立對(duì)技術(shù)安全的責(zé)任心。
語(yǔ)音合成技術(shù)在實(shí)操層面還有非常多的硬傷
據(jù)了解,逼真的語(yǔ)音合成技術(shù),背后是神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)的支持。神經(jīng)網(wǎng)絡(luò)模擬電信號(hào)在人腦神經(jīng)元之間的傳遞過(guò)程,對(duì)輸入數(shù)據(jù)進(jìn)行處理,它利用分層的神經(jīng)元,從大量樣本數(shù)據(jù)中總結(jié)出共同特征。
語(yǔ)音合成技術(shù)在商業(yè)化落地方面,可見(jiàn)的在諸如語(yǔ)音交互、有聲讀物、新媒體、智能客服、泛娛樂(lè)等領(lǐng)域被應(yīng)用。
在接受新浪科技采訪時(shí),蜻蜓FM大教育品類負(fù)責(zé)人牛森表示,語(yǔ)音合成技術(shù)在音頻領(lǐng)域會(huì)大大降低文字內(nèi)容轉(zhuǎn)向音頻的人員、時(shí)間和經(jīng)濟(jì)成本。
在談到語(yǔ)音cos時(shí),牛森指出,這件事在實(shí)操層面有非常多的硬傷,比如合成后的音頻與真實(shí)的人聲在情緒和情感表達(dá)上肯定是做不到完全一致的。
他表示,對(duì)于音頻用戶來(lái)說(shuō),同樣的內(nèi)容,讀稿和講述的收聽(tīng)體驗(yàn)會(huì)有很大區(qū)別,只有最真實(shí)的人聲才能引發(fā)深刻的情感共鳴,也是音頻的價(jià)值所在。
而在道德和安全層面上,牛森認(rèn)為,首先要從技術(shù)上對(duì)人聲和合成音進(jìn)行篩選確認(rèn),從權(quán)利上需要明確版權(quán)鏈條,任何未經(jīng)授權(quán)的合成音頻屬于侵權(quán)違法行為,“作為平臺(tái)方我們會(huì)進(jìn)行嚴(yán)格的版權(quán)和品質(zhì)把控”。
據(jù)了解,在一些音頻平臺(tái)上,語(yǔ)音合成技術(shù)主要用于兒童類節(jié)目,其他的內(nèi)容上,AI模擬效果沒(méi)那么好,尚未被廣泛應(yīng)用。
對(duì)于語(yǔ)音合成存在的安全隱患,在發(fā)布了變聲技術(shù)后,劉慶峰現(xiàn)場(chǎng)曾強(qiáng)調(diào):人工智能要持續(xù)發(fā)展,最核心的是它的價(jià)值觀如何陽(yáng)光健康與人為善,所以像變聲技術(shù)這樣一個(gè)黑科技,我們顯然是不會(huì)輕易在各種App中對(duì)外開(kāi)放的,一定是要有一種健康、安全又有趣的方式來(lái)跟這個(gè)世界來(lái)對(duì)接。
此前,劉慶峰還提到,人工智能領(lǐng)域要技術(shù)合作,更要法律倫理的合作。
對(duì)于安全問(wèn)題,搜狗公司向新浪科技表示,“技術(shù)是一柄雙刃劍,可以用來(lái)造福也可能帶來(lái)災(zāi)難,搜狗堅(jiān)守科技向善。變聲技術(shù)是當(dāng)下人工智能的前沿應(yīng)用,基于語(yǔ)音表征學(xué)習(xí)、遷移學(xué)習(xí)技術(shù),可以將任何人的聲音轉(zhuǎn)換成特定人的聲音(Any-to-One)。搜狗在這方面取得突破,率先進(jìn)入實(shí)用階段。這項(xiàng)技術(shù)還可以應(yīng)用到影視配音,家人陪伴等場(chǎng)景中幫助人們提升工作效率和生活幸福感。”
搜狗透露,為了保證這項(xiàng)技術(shù)不被有心之人濫用,公司作了嚴(yán)格的管理和限制:
1、搜狗不向第三方輸出變聲技術(shù),確保該技術(shù)的可控性和安全性。
2、變聲功能的所有目標(biāo)音色都由搜狗定義,不支持用戶隨意模仿。
3、變聲后的聲音在微信、QQ等App中使用,不能轉(zhuǎn)發(fā)復(fù)制,能夠做到對(duì)發(fā)送者追蹤溯源。
此前,王小川在媒體采訪中也提到過(guò)人工智能立法:在當(dāng)前人工智能發(fā)展的階段,盡快根據(jù)技術(shù)發(fā)展不斷調(diào)整和完善,是應(yīng)對(duì)人工智能所帶來(lái)的法律和倫理風(fēng)險(xiǎn)最為切實(shí)的手段。
不過(guò),目前技術(shù)的發(fā)展仍然是走在倫理、法律的前面。周鴻祎曾在今年5月份的世界智能大會(huì)上提到過(guò),在AI領(lǐng)域,如果沒(méi)有人文的思考,可能設(shè)計(jì)出來(lái)的系統(tǒng)就是一個(gè)悲劇。
AI技術(shù)背后的人文思考
其實(shí),AI技術(shù)背后的“以假亂真”現(xiàn)象不只出現(xiàn)在聲音領(lǐng)域,近日三星的一項(xiàng)技術(shù)應(yīng)用也引起人們的注意。
據(jù)外媒報(bào)道,三星位于莫斯科的人工智能實(shí)驗(yàn)室研究人員,基于大量動(dòng)圖和視頻素材,以及“深度卷積神經(jīng)網(wǎng)絡(luò)”訓(xùn)練,通過(guò)AI技術(shù)準(zhǔn)確識(shí)別某些面部特征,可以將靜止圖像變?yōu)閯?dòng)圖甚至視頻。
在實(shí)驗(yàn)中,研究人員以愛(ài)因斯坦、瑪麗蓮·夢(mèng)露甚至蒙娜麗莎的靜止圖像為基礎(chǔ),分別生成了他們正在說(shuō)話的視頻,不過(guò)目前視頻質(zhì)量較低。
也就是說(shuō),未來(lái)隨著AI圖像生成技術(shù)的進(jìn)步,可以僅僅通過(guò)一張照片就能生成虛假視頻。
在此之前,AI換臉也曾在社交媒體上引起熱議。有人將94版《射雕英雄傳》里朱茵扮演的黃蓉?fù)Q上了楊冪的臉,網(wǎng)友直呼“毫無(wú)違和”“以假亂真”,甚至調(diào)侃“老劇新拍最省成本的方式”。
這原本是一則惡搞或者純娛樂(lè)視頻,但是,這一操作背后,卻讓不少人擔(dān)憂技術(shù)會(huì)被濫用,如果沒(méi)有使用在正確的地方,將涉及版權(quán)、肖像權(quán)、安全等問(wèn)題。
而這類技術(shù)早在兩年前國(guó)外技術(shù)圈就存在和流傳,此前也有網(wǎng)友將主播的臉換成明星的。不過(guò),受多種因素限制,這一技術(shù)真正落地應(yīng)用還比較少見(jiàn)。
圖片來(lái)源:網(wǎng)絡(luò)
在美國(guó),就已經(jīng)有人利用人工智能將色情視頻里的女主角換成女明星。這一技術(shù)正引發(fā)恐慌,遭到查封。
此外,在一些行業(yè),這樣的技術(shù)也將帶來(lái)新的思考。比如一些音頻會(huì)被篡改,引發(fā)社會(huì)問(wèn)題;在未來(lái)的影視劇中,可能出現(xiàn)明星替身AI換臉、AI合成的配音等現(xiàn)場(chǎng)。雖然這些技術(shù),一定程度上節(jié)約了影視劇制作成本,加快影視劇制作的進(jìn)程,但在道德和人文層面釋放的價(jià)值觀還需要商榷。
而不管是AI變聲,還是AI換臉,高科技迅速發(fā)展的同時(shí),也給法律規(guī)則帶來(lái)新的挑戰(zhàn)。
值得注意的是,在4月全國(guó)人大常委會(huì)審議的《民法典人格權(quán)編(草案)》里,正式加了一條:任何組織和個(gè)人不得以利用信息技術(shù)手段偽造的方式侵害他人的肖像權(quán)。
也就是說(shuō),一個(gè)好的信號(hào)是,未來(lái)AI換臉、甚至語(yǔ)音合成技術(shù)的應(yīng)用或?qū)⑹艿椒晒苤啤?/p>
目前,AI技術(shù)的落地應(yīng)用,正在不斷打通虛擬世界和現(xiàn)實(shí)世界的界限,我們需要思考的是,如果未來(lái)這些技術(shù)越來(lái)越強(qiáng)大和普及,明辨真假將會(huì)變得越來(lái)越困難,技術(shù)發(fā)展的同時(shí)又該如何把控安全隱患問(wèn)題?(楊雪梅)
關(guān)鍵詞: 科大訊飛 搜狗 實(shí)時(shí)變聲