AI濫用照片刪除也不容易 IBM拒絕披露訓(xùn)練數(shù)據(jù)集來(lái)源

2019-03-14 10:54:55 來(lái)源：雷鋒網(wǎng)

面部識(shí)別技術(shù)成為整個(gè)AI行業(yè)最為常見的技術(shù)應(yīng)用之一;不過(guò)，在識(shí)別效率越來(lái)越高的同時(shí)，人們也開始擔(dān)心面部識(shí)別技術(shù)發(fā)展過(guò)程中的隱私安全問(wèn)

面部識(shí)別技術(shù)成為整個(gè)AI行業(yè)最為常見的技術(shù)應(yīng)用之一;不過(guò)，在識(shí)別效率越來(lái)越高的同時(shí)，人們也開始擔(dān)心面部識(shí)別技術(shù)發(fā)展過(guò)程中的隱私安全問(wèn)題。比如說(shuō)最近IBM利用Flickr下載的圖片來(lái)進(jìn)行面部識(shí)別訓(xùn)練，就引起了人們的質(zhì)疑;NBCNews針對(duì)此事進(jìn)行了詳細(xì)的報(bào)道，雷鋒網(wǎng)對(duì)這篇報(bào)道進(jìn)行了不改變?cè)獾木幾g。

近些年來(lái)，面部識(shí)別技術(shù)得到了長(zhǎng)足發(fā)展，除了幫你解鎖iPhone，還能讓執(zhí)法機(jī)關(guān)在人山人海中“一眼”就認(rèn)出犯罪分子，商店甚至用它來(lái)識(shí)別自己的“死忠”客戶。不過(guò)，法律專家卻警告稱，大量未經(jīng)允許濫用網(wǎng)絡(luò)照片最終會(huì)畫地為牢，反過(guò)來(lái)成為監(jiān)控你的“幫兇”。

現(xiàn)在的面部識(shí)別技術(shù)還不完美，它工作時(shí)靠的是算法，目標(biāo)則很簡(jiǎn)單——認(rèn)出那張獨(dú)一無(wú)二的臉。

想把這個(gè)任務(wù)完成好，技術(shù)人員就必須提前“喂給”算法“養(yǎng)料”，即天量的面部照片。那么這些照片從哪來(lái)呢？當(dāng)然是互聯(lián)網(wǎng)。

起初，算法學(xué)習(xí)的照片都會(huì)按照不同的標(biāo)準(zhǔn)進(jìn)行分類，比如年齡、性別、膚色等，但經(jīng)過(guò)一段時(shí)間的學(xué)習(xí)后，它的能力開始變得有些嚇人了，于是法律和人權(quán)專家開始大聲疾呼，他們擔(dān)心技術(shù)人員對(duì)普通人照片的濫用會(huì)帶來(lái)“反噬”效果。

“這是AI訓(xùn)練數(shù)據(jù)集背后的骯臟小秘密。技術(shù)人員可不管三七二十一，只要能用的照片他們都不放過(guò)。”紐約大學(xué)法學(xué)院教授JasonSchultz說(shuō)道。

最近IBM公司也進(jìn)了“暴風(fēng)圈”，今年1月它們向研究人員分享了自己的數(shù)據(jù)集，包含了Flickr上近100萬(wàn)張照片，雖然IBM號(hào)稱此舉是為了減少面部識(shí)別的偏差。

了解真相后的攝影師們不愿意了，因?yàn)镮BM在他們的作品上加了各種細(xì)節(jié)注釋，包括面部幾何結(jié)構(gòu)、膚色等信息，而這些照片最終可能會(huì)成為面部識(shí)別算法的“養(yǎng)料”。

“我拍過(guò)的人可沒想過(guò)，自己的照片居然會(huì)被用在面部識(shí)別算法訓(xùn)練上。”公關(guān)經(jīng)理Greg Peverill-Conti氣憤地說(shuō)道，他有700多張照片被收錄在了IBM的“訓(xùn)練數(shù)據(jù)集”中。“IBM太草率了吧，它們?cè)趺茨懿唤?jīng)同意就使用這些照片”。

IBM公司AI研究主管JohnSmith則表示，公司“致力于保護(hù)個(gè)人隱私”，如果誰(shuí)想從數(shù)據(jù)集中移除照片，盡管聯(lián)系IBM。

雖然IBM信誓旦旦的保證Flickr用戶可以隨時(shí)移除數(shù)據(jù)集中的照片，但事情哪有那么簡(jiǎn)單，這本就是個(gè)有來(lái)無(wú)回的“不歸路”。

因?yàn)镮BM需要拍攝者發(fā)送想要移除圖片的鏈接(光靠Flickr賬號(hào)不管用)，而它們卻從沒分享過(guò)到底這個(gè)數(shù)據(jù)集用了誰(shuí)的Flickr照片，所以你大概率會(huì)被蒙在鼓里。

對(duì)于這個(gè)數(shù)據(jù)集，IBM有自己冠冕堂皇的理由——它將用于學(xué)術(shù)工作，且擔(dān)負(fù)著讓面部識(shí)別變得更加公平的重任。

當(dāng)然，在網(wǎng)絡(luò)照片濫用方面，IBM并不是獨(dú)一家，數(shù)十家其他研究機(jī)構(gòu)或公司也在采集網(wǎng)絡(luò)照片訓(xùn)練自己的面部識(shí)別系統(tǒng)。

一些法律專家認(rèn)為，這不僅僅是對(duì)數(shù)百萬(wàn)人肖像權(quán)和隱私權(quán)的侵犯，它還加重了人們對(duì)面部識(shí)別技術(shù)的擔(dān)憂，也許有一天執(zhí)法部門會(huì)讓它“雙手沾滿鮮血”。

面部識(shí)別技術(shù)的進(jìn)化歷程

面部識(shí)別工具剛剛誕生時(shí)，研究人員會(huì)付錢請(qǐng)人來(lái)試驗(yàn)室“幫忙“，這些人拿錢辦事，將自己不同姿態(tài)和光照角度下的照片留了下來(lái)以供研究之用。不過(guò)，這樣的方案成本高還浪費(fèi)時(shí)間，因此早期的數(shù)據(jù)集往往只有數(shù)百個(gè)樣本。

進(jìn)入新世紀(jì)后，互聯(lián)網(wǎng)飛速發(fā)展，研究人員突然意識(shí)到，面部識(shí)別的好時(shí)光來(lái)了，因?yàn)榫W(wǎng)上有天量的照片可供使用。

人臉識(shí)別背后“骯臟的小秘密”：肆無(wú)忌憚搜集照片

“直接打開搜索引擎，輸入名人的姓名，然后下載各種360度無(wú)死角的照片既可。”美國(guó)國(guó)家標(biāo)準(zhǔn)技術(shù)局?jǐn)?shù)據(jù)集采集人員P.JonathonPhillips說(shuō)道。

隨著社交網(wǎng)絡(luò)的興盛和自媒體的發(fā)展，普通人的照片也突然多了起來(lái)。研究人員默認(rèn)這些照片是對(duì)所有人開放的，有時(shí)他們甚至?xí)腨ouTube的視頻中抓取面部圖片。

由于工作的非經(jīng)營(yíng)性質(zhì)，學(xué)術(shù)人員用起照片來(lái)絕對(duì)是近水樓臺(tái)，因?yàn)樗麄兡芾@過(guò)版權(quán)問(wèn)題了，而Flickr的性質(zhì)更是讓它們成了研究人員絕對(duì)的安全之選。

為了保證數(shù)據(jù)集的多樣性，IBM其實(shí)從Flickr上Down了超過(guò)1億張照片，隨后又精選了100萬(wàn)張有注釋的面部照片。為了力求精確，它們甚至為這些照片定了200多種分類標(biāo)準(zhǔn)。

人臉識(shí)別背后“骯臟的小秘密”：肆無(wú)忌憚搜集照片

谷歌學(xué)術(shù)指出，這種研究方法在業(yè)內(nèi)幾乎已經(jīng)是盡人皆知，因?yàn)橛袛?shù)百篇學(xué)術(shù)論文都在靠照片采集來(lái)佐證自己的論點(diǎn)，沒人敢說(shuō)自己是完全清白的，或者拿到了授權(quán)或同意。

因此，面部識(shí)別準(zhǔn)確性的提高和分析工具的進(jìn)步主要就是靠這些“野路子”來(lái)的照片。

IBM真沒拿面部數(shù)據(jù)集賺錢？

“要想讓面部識(shí)別系統(tǒng)超常發(fā)揮，訓(xùn)練數(shù)據(jù)必須足夠多樣化，而且覆蓋范圍足夠廣。”IBM的John Smith說(shuō)道。

在IBM看來(lái)，自己的數(shù)據(jù)集并未將圖片中的人臉和具體的名字聯(lián)系起來(lái)，這就意味著系統(tǒng)不會(huì)侵犯人們的隱私。不過(guò)，依然有人質(zhì)疑IBM的動(dòng)機(jī)，因?yàn)樗鼈兛墒窍蛘鍪圻^(guò)監(jiān)控工具。

舉例來(lái)說(shuō)，911襲擊發(fā)生后，IBM就將面部識(shí)別技術(shù)賣給了紐約警方，執(zhí)法部門通過(guò)搜索監(jiān)控錄像就能識(shí)別出特殊的膚色或發(fā)色。IBM還曾推出過(guò)“智能視頻分析”產(chǎn)品，它們能通過(guò)監(jiān)控?cái)z像頭給人們加標(biāo)簽(亞裔、黑人或白人)。

如今，IBM則有了Waston視覺識(shí)別系統(tǒng)，通過(guò)圖片算法就能識(shí)別出人的年齡和性別。配合正確的訓(xùn)練算法，客戶就能從圖片或視頻中識(shí)別出特定的人。

在被問(wèn)到Waston用了什么訓(xùn)練數(shù)據(jù)時(shí)，IBM稱數(shù)據(jù)有多個(gè)來(lái)源，不過(guò)卻拒絕披露具體的數(shù)據(jù)來(lái)源，并美其名曰保護(hù)知識(shí)產(chǎn)權(quán)。

一再逼問(wèn)下，IBM稱從Flickr拿到的相片數(shù)據(jù)集僅用于研究，不會(huì)用來(lái)提升公司的商用面部識(shí)別工具。不過(guò)，有專家指出，類似IBM和Facebook這樣的公司，其研發(fā)和商業(yè)運(yùn)營(yíng)部門之間的界限非常模糊，而且研發(fā)部門的知識(shí)產(chǎn)權(quán)均歸IBM所有。

因此，面部識(shí)別公司Kairos前CEO Brian Brackeen斷言，即使學(xué)術(shù)部門研發(fā)的算法有其非商業(yè)化性質(zhì)，這些算法最終還是會(huì)被拿來(lái)賺錢。

他還打了個(gè)形象的比喻，“你可以把它看做拿面部識(shí)別技術(shù)洗錢，公司將網(wǎng)上的照片洗成了自己的知識(shí)產(chǎn)權(quán)。”

“被選中”的攝影師們?cè)趺聪耄?/strong>

澳大利亞攝影師GeorgHolzer將自己的作品上傳Flickr是為了記錄自己聲明中的精彩瞬間，他也簽署了創(chuàng)意認(rèn)證，只要是非營(yíng)利性項(xiàng)目，就能免費(fèi)使用他的照片。不過(guò)，他沒想到自己的照片會(huì)成為面部識(shí)別技術(shù)的“養(yǎng)料”。

“我了解技術(shù)能造成的傷害。”Holzer說(shuō)道。“當(dāng)然，面部識(shí)別技術(shù)也有其積極的一面，但如果用得不對(duì)，它也能剝奪人的基本權(quán)利和隱私。我是無(wú)法接受這項(xiàng)技術(shù)廣泛應(yīng)用的。”

“我覺得IBM可不是家慈善公司，最終它們還是會(huì)用這項(xiàng)技術(shù)牟利，所以面部識(shí)別技術(shù)還是會(huì)進(jìn)入商業(yè)市場(chǎng)。”Holzer說(shuō)道。

DolanHalbrook也有452張照片被IBM的數(shù)據(jù)集“侵吞”，他也認(rèn)為IBM在使用這些照片時(shí)應(yīng)該征得自己的同意。

當(dāng)然，也有攝影師覺得自己的照片能被IBM選中并用在推動(dòng)面部識(shí)別發(fā)展上是一大幸事。

瑞士的Guillaume Boppe就表示：“如果我的照片能幫助AI進(jìn)化，降低探測(cè)錯(cuò)誤率并最終提升全球安全指數(shù)，我舉雙手贊同。”

想從數(shù)據(jù)集中刪圖？沒那么容易

如果你不同意IBM將自己的照片當(dāng)成訓(xùn)練數(shù)據(jù)，也可以聯(lián)系它們刪除，但操作起來(lái)沒那么容易。

一位被抓取1000多張照片的攝影師忙活了半天，也只刪除了4張照片，因?yàn)樗麩o(wú)法找到所有照片的鏈接，而Flickr賬號(hào)IBM可不認(rèn)。

此外，即使從IBM的數(shù)據(jù)集中刪除了照片，IBM研究伙伴拿到的數(shù)據(jù)集也無(wú)法一并刪除(已經(jīng)有250多家組織和機(jī)構(gòu)接入了IBM的數(shù)據(jù)集)。

顯然，IBM的數(shù)據(jù)集不是公共場(chǎng)所，沒法想來(lái)就來(lái)想走就走。

好在，各國(guó)對(duì)隱私數(shù)據(jù)的保護(hù)正在加強(qiáng)。舉例來(lái)說(shuō)，歐洲就將照片看做“敏感個(gè)人數(shù)據(jù)”，如果IBM不按規(guī)定刪圖，可能就會(huì)被歐盟重罰。

在美國(guó)，也有一些州有了相關(guān)規(guī)定，在不征得當(dāng)事人同意的情況下采集、存儲(chǔ)和分享生物信息屬違法行為，而生物信息包含指紋、虹膜和面部幾何結(jié)構(gòu)等。

近期，芝加哥的律師Jay Edelson就向Facebook發(fā)起了集體訴訟，稱其面部識(shí)別工具觸犯了相關(guān)法律。

至于典型的法院判例，現(xiàn)在還是一片空白。(大壯旅)

關(guān)鍵詞： AI 照片數(shù)據(jù)來(lái)源

精選導(dǎo)讀

管理


募資55億港元萬(wàn)物云啟動(dòng)招股預(yù)計(jì)9月29日登陸港交所主板

萬(wàn)科9月19日早間公告，萬(wàn)物云當(dāng)日啟動(dòng)招股，預(yù)計(jì)發(fā)行價(jià)介乎每股47 1港元至52 7港元，預(yù)計(jì)9月29日登陸港交所主板。按發(fā)行1 167億股計(jì)算，萬(wàn)

發(fā)布時(shí)間： 2022-09-20 10:39

管理   2022-09-20

資訊


公募基金二季度持股情況曝光隱形重倉(cāng)股多為高端制造業(yè)

隨著半年報(bào)披露收官，公募基金二季度持股情況曝光。截至今年二季度末，公募基金全市場(chǎng)基金總數(shù)為9794只，資產(chǎn)凈值為269454 75億元，同比上

發(fā)布時(shí)間： 2022-09-02 10:45

資訊   2022-09-02

資訊


又有上市公司宣布變賣房產(chǎn) 上市公司粉飾財(cái)報(bào)動(dòng)作不斷

再有上市公司宣布變賣房產(chǎn)。四川長(zhǎng)虹25日稱，擬以1 66億元的轉(zhuǎn)讓底價(jià)掛牌出售31套房產(chǎn)。今年以來(lái)，A股公司出售房產(chǎn)不斷。根據(jù)記者不完全統(tǒng)

發(fā)布時(shí)間： 2022-08-26 09:44

資訊   2022-08-26

資訊


16天12連板大港股份回復(fù)深交所關(guān)注函股份繼續(xù)沖高

回復(fù)交易所關(guān)注函后，大港股份繼續(xù)沖高。8月11日大港股份高開，隨后震蕩走高，接近收盤時(shí)觸及漲停，報(bào)20 2元股。值得一提的是，在7月21日

發(fā)布時(shí)間： 2022-08-12 09:56

資訊   2022-08-12

管理


萬(wàn)家基金再添第二大股東中泰證券擬受讓11%基金股權(quán)

7月13日，中泰證券發(fā)布公告，擬受讓齊河眾鑫投資有限公司(以下簡(jiǎn)稱齊河眾鑫)所持有的萬(wàn)家基金11%的股權(quán)，交易雙方共同確定本次交易的標(biāo)的資

發(fā)布時(shí)間： 2022-07-14 09:39

管理   2022-07-14

資訊


央行連續(xù)7日每天30億元逆回購(gòu) 對(duì)債市影響如何？

央行12日再次開展了30億元逆回購(gòu)操作，中標(biāo)利率2 10%。這已是央行連續(xù)7日每天僅進(jìn)行30億元的逆回購(gòu)縮量投放，創(chuàng)下去年1月以來(lái)的最低操作規(guī)

發(fā)布時(shí)間： 2022-07-13 09:38

資訊   2022-07-13

資訊


美元指數(shù)創(chuàng)近20年新高黃金期貨創(chuàng)出逾9個(gè)月新低

由于對(duì)美聯(lián)儲(chǔ)激進(jìn)加息的擔(dān)憂，美元指數(shù)11日大漲近1%創(chuàng)出近20年新高。受此影響，歐美股市、大宗商品均走弱，而黃金期貨創(chuàng)出逾9個(gè)月新低。美

發(fā)布時(shí)間： 2022-07-13 09:36

資訊   2022-07-13

推薦


美股三大股指全線下跌納斯達(dá)克跌幅創(chuàng)下記錄以來(lái)最大跌幅

今年上半年，美股持續(xù)回落。數(shù)據(jù)顯示，道瓊斯指數(shù)上半年下跌15 3%，納斯達(dá)克綜合指數(shù)下跌29 5%，標(biāo)普500指數(shù)下跌20 6%。其中，納斯達(dá)克連續(xù)

發(fā)布時(shí)間： 2022-07-04 09:51

推薦   2022-07-04

資訊


融資客熱情回升兩市融資余額月內(nèi)增加超344億元

近期A股走強(qiáng)，滬指6月以來(lái)上漲4%，融資客熱情明顯回升。數(shù)據(jù)顯示，截至6月16日，兩市融資余額1 479萬(wàn)億元，月內(nèi)增加344 67億元，最近一個(gè)半

發(fā)布時(shí)間： 2022-06-20 09:41

資訊   2022-06-20

推薦


4個(gè)交易日凈買入超百億元北向資金持續(xù)流入A股市場(chǎng)

北向資金凈流入態(tài)勢(shì)延續(xù)。繼6月15日凈買入133 59億元后，北向資金6月16日凈買入44 52億元。自5月27日至今，除6月13日以外，北向資金累計(jì)凈

發(fā)布時(shí)間： 2022-06-17 09:37

推薦   2022-06-17