你有沒有想過,有一天蒙娜麗莎不只會(huì)神秘微笑,還會(huì)對(duì)你挑眉眨眼、娓娓而談?不止蒙娜麗莎,瑪麗蓮夢(mèng)露也‘活’過來了,紅唇一張
你有沒有想過,有一天蒙娜麗莎不只會(huì)神秘微笑,還會(huì)對(duì)你挑眉眨眼、娓娓而談?
不止蒙娜麗莎,瑪麗蓮夢(mèng)露也‘活’過來了,紅唇一張就開始說話,眼角眉梢風(fēng)情萬種。
還有只在物理書里面看到過的愛因斯坦,你現(xiàn)在甚至能感受到科學(xué)道理正從他口中傾瀉而出……
現(xiàn)在,你可能會(huì)以為這是什么特效視頻里截取的畫面,但事實(shí)上,這些人物的動(dòng)態(tài)視頻,都僅源于旁邊那一張照片。
來自三星AI中心和莫斯科Skolkovo科學(xué)技術(shù)研究所的研究人員,成功地開發(fā)出了這個(gè)‘人像照變動(dòng)態(tài)表情包’的AI系統(tǒng),并于5月20日在ArXiv.org網(wǎng)站上公布了他們的研究成果。
前陣子鬧得沸沸揚(yáng)揚(yáng)的‘色情換臉’,需要大量人物的圖像信息再加原生視頻,才能生產(chǎn)出一個(gè)新的合成視頻,而這次三星AI只需基于一張肖像照片或一張畫像,就能讓里面人物的面部表情都動(dòng)得栩栩如生。
雖然并非完美無瑕,但足以讓人產(chǎn)生信以為真的錯(cuò)覺。
制作這個(gè)視頻并不容易。
因?yàn)槿祟惖囊曈X思維對(duì)臉部細(xì)節(jié)極其敏感,因此每個(gè)微小部分,包括嘴巴的弧度、頭發(fā)的輪廓、眨眼的速度都很難忽視。所以這套人工智能系統(tǒng)經(jīng)過了一段漫長的訓(xùn)練時(shí)光。
研究人員從YouTube收集了7000張名人照片,提取其‘標(biāo)志性’的面部特征,然后系統(tǒng)通過觀看大量人類說話的面孔和表情豐富的視頻進(jìn)行學(xué)習(xí)。
▲‘讓照片動(dòng)起來’的學(xué)習(xí)架構(gòu)圖
之后,人工智能系統(tǒng)就能將學(xué)到的內(nèi)容應(yīng)用到單張照片或多張照片上,高效地找到與系統(tǒng)學(xué)習(xí)的臉部相對(duì)應(yīng)的部分,然后因人而異地針對(duì)新面部里各個(gè)的關(guān)鍵點(diǎn),特別是眼睛、鼻子和嘴巴進(jìn)行調(diào)整,最后達(dá)到最自然的動(dòng)態(tài)效果。
當(dāng)可以使用的照片越多,視頻就會(huì)越加逼真,32個(gè)圖像,就足以讓視頻以假亂真。
雖然仔細(xì)看,人物邊緣的地方依然有模糊的部分,不能識(shí)別的地方也只能用背景畫面粗糙填充,瑪麗蓮夢(mèng)露的視頻還少了那顆標(biāo)志性的痣。而且,視頻也沒有聲音,動(dòng)態(tài)只能呈現(xiàn)在面部,一張一合的嘴角就像一個(gè)練習(xí)生在唱Rap,但它依然是一個(gè)顛覆式的創(chuàng)新,簡單點(diǎn)說,實(shí)現(xiàn)了一鍵把JPG變GIF。
研究人員表示,未來,這個(gè)AI系統(tǒng)將會(huì)被廣泛應(yīng)用在視頻、游戲、電視、電影,以及特效行業(yè)中,估計(jì)現(xiàn)在,它就已經(jīng)被B站上的鬼畜藝術(shù)家盯上了。而單張或少量照片就能完成動(dòng)態(tài)人像的速度和效率,也讓該模型更利于推廣。
不過同時(shí),這也意味著很快會(huì)有圖謀不軌之人利用臨時(shí)拼湊的工具來模仿它,進(jìn)行群眾誤導(dǎo)或虛假詐騙,還有可能把一個(gè)人的人像照片制作出不可描述的動(dòng)態(tài)表情,放在不可描述的身體上做不可描述的事情。
盡管它還不足以引起Deepfakes‘色情換臉’那樣的風(fēng)波,但它比起‘色情換臉’使用起來更簡易便捷,在人人都暴露無遺的互聯(lián)網(wǎng)時(shí)代,擔(dān)憂也并非沒有必要,只是現(xiàn)在還為時(shí)尚早。
目前,該研究還處于簡單測(cè)試階段,復(fù)雜的神經(jīng)網(wǎng)絡(luò)模型要變得輕量化也有重?fù)?dān)在后。不過就像哈利波特第一次去霍格沃茨魔法學(xué)校,看到那活了的石墻肖像而驚詫不已一樣,現(xiàn)在,它在現(xiàn)實(shí)里也成真了。
接下來等待我們的,就是一個(gè)魔法世界。
關(guān)鍵詞: 三星AI 人像照變動(dòng)態(tài)表情包