本來是為了方便視頻剪輯,這項(xiàng)技術(shù)卻足以成為真相的噩夢。最近幾年,出現(xiàn)了不少利用深度學(xué)習(xí)編輯視頻的技術(shù)。最著名的必然是 Deepfake,導(dǎo)
本來是為了方便視頻剪輯,這項(xiàng)技術(shù)卻足以成為真相的噩夢。
最近幾年,出現(xiàn)了不少利用深度學(xué)習(xí)編輯視頻的技術(shù)。
最著名的必然是 Deepfake,導(dǎo)致明星換臉視頻肆虐色情網(wǎng)站;以及誕生于去年的 Deep Video Potrait (DVP),輕松生成以假亂真的演講視頻,讓新聞機(jī)構(gòu)和政治人物一度恐慌。
如果你以為這些就足夠令人擔(dān)憂,那你就太小看深度學(xué)習(xí)研究者了。在他們的眼中,只要是以科學(xué)的名義,沒有任何技術(shù)是受限的——即便可能造成嚴(yán)重的道德危機(jī)。
最近,研究者開發(fā)出了一種通過深度學(xué)習(xí)去操縱視頻的全新技術(shù),可以在一句話中增加、刪掉甚至是修改任意詞句,讓視頻中的演講者說出任意想說的話,而且看起來仍然十分自然,就好像演講者自己說出來的那樣。
比方說,財經(jīng)電視臺的原報道是“蘋果股價收盤于191.45美元”,研究者將數(shù)字更改為“182.25美元”,在英文中發(fā)音和口型完全不一樣的兩組數(shù)字,最終效果很難看出來是被修改過的:
可怕之處在于:操縱視頻的方法十分簡單,只需要修改視頻轉(zhuǎn)錄的文本即可。這個技術(shù)可以自己找到文本在視頻中對應(yīng)的位置,自動生成語音和臉部模型,然后自動貼上去,生成新的視頻……
研究者通過調(diào)研發(fā)現(xiàn),59.6%的受試者認(rèn)為被這項(xiàng)技術(shù)編輯過的視頻是真實(shí)的視頻,反而有20%的受試者認(rèn)為未經(jīng)編輯過的視頻是假的。
也就是說,經(jīng)過這個管道的加工生成的視頻,足以騙過大多數(shù)人的眼睛。
這項(xiàng)技術(shù)目前尚未對公眾開放,也沒有一個普通人可以使用的編輯軟件,因?yàn)樗蕴幱谘芯亢蜏y試階段。研究者來自斯坦福大學(xué)、德國馬克斯普朗克信息學(xué)院、普林斯頓大學(xué)和 Adobe 研究院。這份研究已經(jīng)提交到了計算機(jī)圖形頂會 SIGGRAPH 2019 上,如果你感興趣也可以點(diǎn)擊文章下方的“閱讀原文”查看論文。
這項(xiàng)技術(shù)實(shí)際上融合了多種深度學(xué)習(xí)方法,包括語音識別、唇形搜索、人臉識別和重建,以及語音合成。
簡單來說,研究者首先對視頻的圖像和聲音分別進(jìn)行處理,將需要修改部分的畫面和音素分離出來,把修改后語句的音素組裝進(jìn)去,再根據(jù)這些單詞的發(fā)音生成新的人臉模型,最后混合渲染成一個新的視頻。
分解步驟大致如下:
1)輸入視頻,要求必須是talking-head video,也即以人臉(可以包括上半身)為主要畫面,以演講為主要內(nèi)容的視頻;
2)輸入需要修改的字句,以及修改后的文字;
3)使用音素對齊 (phoneme alignment) 技術(shù)對視頻里的發(fā)言進(jìn)行索引,方便后續(xù)工作。音素就是單詞的組成部分,比如“蘋果”由拼音 ping 和 guo 組成;
4)使用唇形搜索 (viseme search),在原視頻里找到需要修改的視頻片段和對應(yīng)的音素;
5.a)聽覺上,把修改后詞句的音素組裝起來,嵌入到原視頻里;
5.b)視覺上,對視頻當(dāng)中的人臉進(jìn)行追蹤建模,然后根據(jù)修改后詞句的發(fā)音,為視頻的每一幀重建一張下半臉的畫面(因?yàn)榇蟛糠种v話時的面部動作不會涉及鼻子以上),再重新渲染出一段視頻(無聲);
6)再用視頻中演講者的語音資料合成新的語音,最后混合剪輯成一個新的視頻。
從左到右:不同音素對應(yīng)的幀;從上到下:原始視頻到渲染、最終合成的效果
研究者找來了138名群眾參與用戶調(diào)研,讓他們觀看三組視頻然后給出真或者假,也即未經(jīng)編輯和編輯過的判斷。這三組視頻分別為 A(真實(shí)),B(真實(shí)),C(用 A 作為基礎(chǔ),把 B 的詞句替換進(jìn)去的“假視頻”)。而且,研究者事先告訴了受試者,這次調(diào)研的主題是“視頻編輯”,因此受試者清楚自己看到的肯定會有假視頻,因此會更機(jī)警地尋找“馬腳”。
59.6%的受試者認(rèn)為 C 組是真實(shí)的視頻;20%的受試者反而認(rèn)為原始、未經(jīng)編輯的視頻是假的。
研究者也把這項(xiàng)新技術(shù)和 Deepfake、MorphCut 以及 DVP 等“前輩”進(jìn)行了對比。他們發(fā)現(xiàn),新管道在嘴部動作、口腔內(nèi)畫面合成(牙齒、舌頭等)上性能更好,而前輩生成的插入幀往往十分生硬,稍加留意就能看出漏洞。
下圖:Deepfake(Face2Face) 在插入幀上出現(xiàn)了牙齒幻影。
下圖:DVP 對牙齒的還原出現(xiàn)了高可辨的錯誤。
下圖:DVP 對畫中人上肢動作的還原出現(xiàn)了問題,導(dǎo)致了延續(xù)性漏洞(影視術(shù)語,指剪輯導(dǎo)致了不合邏輯的畫面,比如手舉著的兩幀之間出現(xiàn)了手消失的一幀)。
報錯的 Yoshua Bengio
下圖:MorphCut(Adobe Premier Pro 里的一個功能,在生硬的編輯中插入計算機(jī)生成的幀以使畫面順滑)讓畫中人面部出現(xiàn)嚴(yán)重的重影
糊掉的 Yoshua Bengio
研究人員發(fā)現(xiàn),輸入的視頻越長,最終的編輯效果越好,視覺上更自然,對40分鐘的視頻素材進(jìn)行訓(xùn)練,便能夠達(dá)到論文以及視頻展示的最優(yōu)效果;但是,即便只使用極少量的數(shù)據(jù),比如兩分鐘的視頻進(jìn)行訓(xùn)練,最終合成的人臉誤差率也才只有0.021,僅比40分鐘視頻(0.018)高了0.003。
這意味著,這項(xiàng)技術(shù)可以用于一段很短的視頻,并不需要大量數(shù)據(jù)也可以達(dá)到上乘效果。
論文提到,修改的詞句長短和成片質(zhì)量的好壞并沒有直接相關(guān)性,但是唇形搜索和音素搜索的結(jié)果會影響最終編輯效果。比方說,如果修改詞句的口型和發(fā)音在數(shù)據(jù)集里從來沒有出現(xiàn)過,效果可能就不會太好。(研究者采用的參數(shù)混合方法也可以彌補(bǔ)這一情況,比如 fox 可以用 v 和 ox 組合而成,不一定需要帶 f 的詞語。)
在用時方面,論文顯示 3D 人臉建模每一幀花費(fèi)110毫秒,也一段長度1小時、60fps演講者一直在講話的視頻(下同)需要396分鐘或者六個半小時;音素對齊需要大約20分鐘;唇形搜索最短僅需10分鐘,最長2小時;人臉合成每幀需要132毫秒,1小時視頻需要將近8小時合成,過程中的神經(jīng)網(wǎng)絡(luò)訓(xùn)練用時最長,需要42小時左右。
完成了上述步驟后,編輯者就可以對視頻隨意修改,如果只是修改部分詞句的話,花費(fèi)的時間和訓(xùn)練/前期準(zhǔn)備相比可忽略不計。
比方說某政客演講完,理論上最快兩天后網(wǎng)上就能出現(xiàn)一段意思被完全扭轉(zhuǎn),但完全看不出任何問題的“假視頻”。
而如果放到新聞的語境當(dāng)中,這項(xiàng)技術(shù)突然變成了最令人們擔(dān)憂的事情。這一方法對計算量有一定需求,因此路人不一定有能力完成,但如果是黑客或者敵對政治人物想要對受害者進(jìn)行有組織的污蔑攻擊,本篇論文所描述的這一方法簡直不能更好用。
今天,英國一家營銷機(jī)構(gòu)在其 Instagram 賬號上發(fā)布了一小段扎克伯格的講話。在視頻中,扎克伯格戴著標(biāo)志性毫無“人味”的表情,表示“想象一下,有一個人,完全控制著數(shù)十億人被盜的數(shù)據(jù),他們所有的秘密,他們的生活,他們的未來。我完全歸功于幽靈。幽靈告訴我,誰能掌控數(shù)據(jù),誰就能掌控未來。“
”幽靈“是這家營銷機(jī)構(gòu)正在推廣的一個裝置藝術(shù)展覽,這則視頻其實(shí)這場展覽的營銷。視頻本身也是用 Deepfake 或者類似的技術(shù)制作的,技術(shù)來自于以色列公司 Canny.ai,聲音則是找了一個跟扎克伯格完全不像的人努力裝出來的。事實(shí)上,這家營銷機(jī)構(gòu)還”找來了“特朗普、金·卡戴珊、摩根·弗里曼等著名人物,制作了類似的視頻。
如果說這些視頻人畜無害的話,那么另外一則技術(shù)含量根本沒多高的剪輯視頻,則對一位美國頂級政客帶來了巨大的傷害。
前幾周,兩段美國眾議院議長南希·佩洛西“口齒不清”的視頻流傳于網(wǎng)上。很快,這段視頻就被人發(fā)現(xiàn)使用了非常無聊的剪輯手法,讓佩洛西看起來像是喝多了或者快要中風(fēng)一樣。包括 Facebook 在內(nèi)的一些社交網(wǎng)站和視頻平臺拒絕取締這些視頻。
在當(dāng)前社會極端化和對抗日益嚴(yán)重,以及假新聞盛行的大環(huán)境下,類似的視頻往往具有極強(qiáng)的傳播勢能。而更先進(jìn)的技術(shù)讓視頻的質(zhì)量變得更好,相應(yīng)地對受害者的傷害,以及對社會造成的進(jìn)一步撕裂,只會更加嚴(yán)重。
研究者在論文中指出,他們認(rèn)為這項(xiàng)研究的主要目的是簡化視頻編輯人員(以及內(nèi)容產(chǎn)業(yè)整體)的工作壓力。比如那些念錯臺詞或者漏拍的場景,現(xiàn)在可以直接用深度學(xué)習(xí)算法生成精確的畫面和聲音,不再需要重新花大價錢重拍。
另一個重要的使用場景是翻譯。論文中(以及配套的視頻里)演示了跨語言生成視頻的效果,因?yàn)楸举|(zhì)上被剪輯的不是詞語,而是口型和音素,不受語言的限制(比如,許多歐洲國家語言共享音素)。
如果有一部電影需要譯制成西班牙語版,過去的做法是譯制廠直接后期配音。而現(xiàn)在有了這項(xiàng)技術(shù),可以直接生成發(fā)音準(zhǔn)確,而且口型同樣準(zhǔn)確的譯制片了。
當(dāng)然,電影只是一個極端的案例。不那么極端的話,比方說你是一個美妝博主,想要把觀眾群擴(kuò)展到海外,正好可以用這項(xiàng)技術(shù)生成其他語言版本的視頻,即便發(fā)音不百分之百精確也沒有關(guān)系。
最后一個使用場景,是生成二次元偶像帶視覺形象的虛擬語音助理。有了這個技術(shù),應(yīng)該就可以生成可以看見的林志玲/郭德綱導(dǎo)航了。研究者在論文中提到,除了用神經(jīng)網(wǎng)絡(luò),他們的技術(shù)也可以搭配macOS 的語音合成器(speech synthesizer)使用,讓合成語音更加容易。(文/光譜)