大數據(ju)時代下,數據(ju)的收(shou)集與應用在帶來巨(ju)大社(she)會(hui)價值的同時,也帶來了個人(ren)隱私保護方面(mian)的難題。如何(he)在對(dui)數據(ju)進行(xing)挖(wa)掘應用的過程中保護個人(ren)隱私,防止敏(min)感(gan)信息泄露成為新(xin)的挑戰。
在(zai)此前(qian)備受關(guan)注的(de)(de)“劍橋分析公司(si)數(shu)據泄露”事(shi)件中,Facebook上超過(guo)5000萬用(yong)(yong)戶(hu)(hu)的(de)(de)信(xin)(xin)息被(bei)一(yi)家名(ming)為(wei)“Cambridge Analytica”的(de)(de)公司(si)不當獲(huo)取并(bing)用(yong)(yong)于未經授權(quan)的(de)(de)目(mu)的(de)(de)。然而,根據Facebook的(de)(de)解釋,這些個人(ren)信(xin)(xin)息,例(li)如(ru)用(yong)(yong)戶(hu)(hu)填寫的(de)(de)心(xin)理(li)測試結果,全部是在(zai)經過(guo)“匿名(ming)化”處理(li)后才(cai)被(bei)用(yong)(yong)于對外分享的(de)(de)。公司(si)表(biao)示,在(zai)獲(huo)取用(yong)(yong)戶(hu)(hu)的(de)(de)授權(quan)后,這些數(shu)據會“通過(guo)匿名(ming)的(de)(de)方式被(bei)使用(yong)(yong)和分發,并(bing)且保證即使利用(yong)(yong)這些信(xin)(xin)息也不能追(zhui)溯到(dao)個人(ren)用(yong)(yong)戶(hu)(hu)”。
然而“匿名化”真的可以在大數據時代保護我們的個人隱私嗎?
2015年,數(shu)(shu)據匿名(ming)化和(he)隱私(si)領域的(de)(de)研究員Latanya Sweeney針(zhen)對華盛(sheng)頓HIPAA(Health Insurance Portability and Accountability)法(fa)案保(bao)護下的(de)(de)醫(yi)療(liao)記(ji)(ji)錄(lu)(lu)數(shu)(shu)據進行了一項“去匿名(ming)化”研究。在(zai)該州(zhou)(以(yi)及許多(duo)其(qi)他州(zhou)),公司(si)和(he)個人可以(yi)購(gou)買匿名(ming)的(de)(de)醫(yi)療(liao)記(ji)(ji)錄(lu)(lu)數(shu)(shu)據。Sweeney通(tong)過合法(fa)渠道購(gou)買相關數(shu)(shu)據,其(qi)中包括“該州(zhou)一年內(nei)幾乎所有的(de)(de)住院治療(liao)記(ji)(ji)錄(lu)(lu)”以(yi)及就(jiu)診記(ji)(ji)錄(lu)(lu)相關的(de)(de)大量細(xi)節,包括患者接受(shou)的(de)(de)診斷、手術,主治醫(yi)生信息、收費(fei)摘要等(deng)等(deng)。這些記(ji)(ji)錄(lu)(lu)都是匿名(ming)的(de)(de),因為它們不包含患者的(de)(de)姓名(ming)或地址(zhi)(zhi),但包括患者所在(zai)地址(zhi)(zhi)的(de)(de)郵(you)政編碼。
之后,Sweeney查閱(yue)了華盛頓州自2011年以來刊發(fa)的所有包含“住(zhu)院(yuan)治(zhi)療”一(yi)詞的新聞(wen)報(bao)道(dao),總共找(zhao)到了81篇文章。通(tong)過對(dui)文章內容和匿(ni)名(ming)數(shu)據庫(ku)進行比對(dui)分(fen)析,Sweeny發(fa)現(xian)其中35篇報(bao)道(dao)能夠在(zai)數(shu)據庫(ku)中找(zhao)到與(yu)之精(jing)準對(dui)應的唯一(yi)醫療記錄。而這些新聞(wen)報(bao)道(dao)中明確包含了患者(zhe)的姓名(ming),“成功”實現(xian)了對(dui)這35名(ming)患者(zhe)的“去匿(ni)名(ming)化”。
眾(zhong)所周知,數據(ju)(ju)(ju)已(yi)成為(wei)現代社會(hui)發展的(de)(de)重要推(tui)動力(li)。研究人(ren)員會(hui)收集(ji)大量的(de)(de)數據(ju)(ju)(ju),并(bing)基(ji)于(yu)數據(ju)(ju)(ju)開(kai)展研究工作。Google的(de)(de)數據(ju)(ju)(ju)庫可以包含你的(de)(de)完(wan)整搜索歷(li)史記錄;Facebook存儲著大量用戶的(de)(de)行為(wei)、評論和(he)照(zhao)片信(xin)息(xi)。這(zhe)些(xie)數據(ju)(ju)(ju)決定(ding)著我(wo)(wo)們(men)(men)會(hui)看到(dao)哪(na)(na)些(xie)新聞、電影(ying)和(he)廣告(gao),哪(na)(na)些(xie)朋(peng)友的(de)(de)帖子會(hui)出(chu)(chu)現在我(wo)(wo)們(men)(men)社交媒體的(de)(de)feed流中(zhong),以及哪(na)(na)些(xie)潛在的(de)(de)伴侶會(hui)出(chu)(chu)現在我(wo)(wo)們(men)(men)的(de)(de)交友app中(zhong)。然而,這(zhe)里(li)涉及的(de)(de)大部分數據(ju)(ju)(ju)都與我(wo)(wo)們(men)(men)的(de)(de)個人(ren)隱私息(xi)息(xi)相(xiang)關。
政府、企業和研究機構持(chi)續收集(ji)著大量的(de)數據
通常情況下,我(wo)(wo)們(men)不(bu)會向陌(mo)生(sheng)人透露(lu)我(wo)(wo)們(men)的(de)(de)信(xin)用(yong)卡記錄(lu)(lu)或(huo)(huo)醫療(liao)記錄(lu)(lu),因為(wei)我(wo)(wo)們(men)對這些數(shu)據的(de)(de)敏感性有著清晰的(de)(de)認識。那么,為(wei)什么我(wo)(wo)們(men)會泄露(lu)這些最私密的(de)(de)個人信(xin)息(xi)呢(ni)?原因是(shi)大多數(shu)人首先是(shi)數(shu)據“泄露(lu)”的(de)(de)受(shou)益者。Google通過收集(ji)數(shu)據優(you)化搜索(suo)體驗(yan),并幫(bang)(bang)助Gmail過濾垃圾郵件;用(yong)戶(hu)信(xin)用(yong)卡記錄(lu)(lu)可以幫(bang)(bang)助銀行(xing)監測(ce)信(xin)用(yong)卡盜刷行(xing)為(wei);醫療(liao)記錄(lu)(lu)可以幫(bang)(bang)助研究人員研發新藥,或(huo)(huo)者幫(bang)(bang)助醫生(sheng)制(zhi)定更好的(de)(de)治療(liao)計(ji)劃。
但(dan)人(ren)們享受這些(xie)益(yi)處并非(fei)沒有代(dai)價(jia)。政(zheng)府、企業和研究機構持續進(jin)行著大(da)量的數(shu)據(ju)收(shou)集,而這僅(jin)(jin)僅(jin)(jin)是(shi)這一系列數(shu)據(ju)旅程的開始(shi)。它們將被(bei)(bei)重新(xin)打包(bao),與來自其他來源(yuan)的數(shu)據(ju)相結合,并通過合法或非(fei)法的方式(shi)被(bei)(bei)轉售(shou)給“需要的人(ren)”。典型(xing)的數(shu)據(ju)包(bao)括:
? 你的位置(包括實時的與歷史上的)
? 你的信用卡交易記錄
? 你的網站瀏覽歷史記錄
? 你在網站的登錄憑據
? 你的社會安全號碼
? 你的醫療記錄
即使(shi)(shi)你(ni)認為(wei)自(zi)己并沒有什么需(xu)要(yao)隱(yin)藏的(de)(de)“秘(mi)密”,對個人數據(ju)(ju)(ju)的(de)(de)濫用(yong)仍可能(neng)對你(ni)造成(cheng)不利(li)影響(xiang)。因此(ci),大部分(fen)相(xiang)關方在(zai)(zai)存儲或轉售個人信(xin)息(xi)時(shi),一直在(zai)(zai)努力實現個人數據(ju)(ju)(ju)的(de)(de)“匿(ni)名化”。某些(xie)情況(kuang)下,數據(ju)(ju)(ju)匿(ni)名化存在(zai)(zai)法(fa)律要(yao)求,例(li)如HIPAA對個人醫療數據(ju)(ju)(ju)的(de)(de)要(yao)求,盡管(guan)HIPAA提(ti)供的(de)(de)保護(hu)并不像大多數人想象的(de)(de)那么強(qiang)。類似的(de)(de),歐盟(meng)最新的(de)(de)通用(yong)數據(ju)(ju)(ju)保護(hu)條例(li)(GDPR)對能(neng)夠識別個人身份信(xin)息(xi)的(de)(de)數據(ju)(ju)(ju)提(ti)出了嚴(yan)格的(de)(de)使(shi)(shi)用(yong)限(xian)制(zhi),相(xiang)比之下,GDPR對匿(ni)名數據(ju)(ju)(ju)的(de)(de)使(shi)(shi)用(yong)限(xian)制(zhi)則(ze)較少。
除此之外,有些公(gong)司(si)已經將“數(shu)據(ju)匿名化(hua)”作(zuo)為(wei)(wei)(wei)其戰(zhan)略的一部分。例如,與Google和Facebook不同(tong),Apple刻意減(jian)少對(dui)數(shu)據(ju)的收(shou)集(ji),因為(wei)(wei)(wei)擁有大量數(shu)據(ju)可能會(hui)(hui)使公(gong)司(si)更容易(yi)成為(wei)(wei)(wei)黑(hei)客的目標。同(tong)時,Apple努力對(dui)收(shou)集(ji)的數(shu)據(ju)進行匿名化(hua)處理,并且不會(hui)(hui)對(dui)外轉售用戶數(shu)據(ju)。
這些舉措很有(you)勇(yong)氣,值(zhi)得鼓勵。遺憾(han)的是(shi),研(yan)究(jiu)表明,許多匿名化(hua)數(shu)(shu)據(ju)都很容易被“去(qu)匿名化(hua)”,尤其是(shi)當多個數(shu)(shu)據(ju)來(lai)源(yuan)有(you)一(yi)定程度的重(zhong)疊的時(shi)候,區別一(yi)個數(shu)(shu)據(ju)來(lai)源(yuan)和另一(yi)個數(shu)(shu)據(ju)來(lai)源(yuan)的任一(yi)信息都能被用于去(qu)匿名化(hua)。
這(zhe)里有一(yi)個(ge)關于“去匿名化”的(de)(de)(de)知名案(an)例。2006年(nian),Netflix為改善其(qi)(qi)電影推薦服務,公布(bu)了包(bao)含部分(fen)(fen)(fen)用戶(hu)(hu)評(ping)分(fen)(fen)(fen)的(de)(de)(de)數(shu)(shu)據庫,其(qi)(qi)中包(bao)括用戶(hu)(hu)對(dui)電影的(de)(de)(de)評(ping)分(fen)(fen)(fen)和(he)評(ping)分(fen)(fen)(fen)日(ri)期。該(gai)數(shu)(shu)據庫是(shi)匿名的(de)(de)(de),采用隨機更改數(shu)(shu)據庫中包(bao)含的(de)(de)(de)大(da)約480,000個(ge)用戶(hu)(hu)的(de)(de)(de)部分(fen)(fen)(fen)評(ping)級和(he)評(ping)級日(ri)期等方法(fa)對(dui)數(shu)(shu)據庫進行匿名化處理。
盡管存(cun)在這(zhe)些(xie)干擾,但研(yan)究人員的(de)實驗(yan)結果表明(ming):只(zhi)需非(fei)常少的(de)輔助信息,就可以(yi)對(dui)Netflix數據庫中(zhong)的(de)大部(bu)分的(de)用(yong)戶記錄(lu)進行去匿名化。通過(guo)8部(bu)電影(ying)的(de)評(ping)分,和允許誤差14天的(de)評(ping)分日期,就可以(yi)唯一標識數據庫中(zhong)99%的(de)用(yong)戶;而僅通過(guo)2部(bu)電影(ying),就可以(yi)標識68%的(de)用(yong)戶。而一個人觀看8部(bu)電影(ying)的(de)記錄(lu)很(hen)容易獲(huo)得,通過(guo)與其聊天或者查看他的(de)博(bo)客就有可能(neng)得到。
電影評級可能(neng)看似(si)無害(hai),它們顯然不如醫療記錄(lu)敏感(gan),但仍然可以揭示一個(ge)人的(de)(de)政治觀點、宗教信仰和性取向等,從而嚴重(zhong)侵(qin)犯一個(ge)人的(de)(de)隱(yin)私(si)并(bing)使其處(chu)于(yu)危險之中。這對于(yu)當(dang)前(qian)的(de)(de)數(shu)據(ju)驅動(dong)型社會(hui)來(lai)說是一個(ge)嚴峻的(de)(de)挑戰。
隨著(zhu)更多數(shu)據的(de)公開或泄露去匿名(ming)化(hua)將變得更加容易
現實是,我們的數(shu)(shu)據(ju)正在被(bei)越(yue)來越(yue)多地被(bei)泄(xie)(xie)露(lu)和盜取。非營利組織Privacy Rights Clearinghouse的研究顯示,自2005年開始,14年中共發生(sheng)(sheng)了8804次數(shu)(shu)據(ju)泄(xie)(xie)露(lu),超過115億條記錄被(bei)泄(xie)(xie)露(lu)。這(zhe)意(yi)味著自2005年以來,平均每天發生(sheng)(sheng)1.7次數(shu)(shu)據(ju)泄(xie)(xie)露(lu),220萬(wan)條記錄被(bei)泄(xie)(xie)露(lu)。當別(bie)有(you)用心(xin)的人將(jiang)所有(you)這(zhe)些數(shu)(shu)據(ju)拼湊在一起時,數(shu)(shu)據(ju)的去匿(ni)名化將(jiang)變的更加容易。
對于相關(guan)領(ling)域(yu)的(de)學者來說,這(zhe)些(xie)擔憂并(bing)不是什么新聞。2010年,個(ge)人(ren)隱私律(lv)師Paul Ohm就(jiu)曾在《UCLA法律(lv)評論》中刊文指出,雖然惡意攻(gong)擊者可(ke)以(yi)使用個(ge)人(ren)身份信(xin)息(如姓名(ming)或社會(hui)安(an)全號碼)將數據(ju)與個(ge)人(ren)身份進(jin)行關(guan)聯(lian),但事實證明(ming),即便只擁有那些(xie)不會(hui)被歸類為“個(ge)人(ren)身份信(xin)息”的(de)信(xin)息,他們也可(ke)以(yi)達到(dao)同樣的(de)目的(de)。
Ohm參考了Sweeney早期(qi)的(de)(de)(de)一些研究(jiu),她發現1990年美國人(ren)(ren)口普(pu)查(cha)中有87%的(de)(de)(de)人(ren)(ren)可以(yi)通過兩條信息進行唯一識別:他(ta)(ta)(ta)們的(de)(de)(de)出生日(ri)期(qi)和他(ta)(ta)(ta)們住址的(de)(de)(de)郵(you)政編(bian)碼。Ohm還引用(yong)了Netflix以(yi)及其他(ta)(ta)(ta)有關(guan)數(shu)據(ju)泄露的(de)(de)(de)案例,并得出結論:在(zai)傳(chuan)統(tong)的(de)(de)(de)以(yi)個(ge)人(ren)(ren)身份信息為保(bao)護重點的(de)(de)(de)匿名化技術(shu)下(xia),幾乎任何數(shu)據(ju)都無(wu)法實現永久(jiu)的(de)(de)(de)完全(quan)匿名。
2013年,研究(jiu)人(ren)員(yuan)發現(xian)位置數據具有高度的獨特性(xing),因此更加(jia)難以(yi)匿(ni)名化。許多匿(ni)名數據庫都可能(neng)間接(jie)泄露你的位置,例如刷卡(ka)消費(fei)或前(qian)往醫(yi)院(yuan)就診。研究(jiu)人(ren)員(yuan)發現(xian),通過每(mei)小時(shi)記錄(lu)4次手(shou)機連接(jie)到的信(xin)號(hao)發射(she)塔,就可以(yi)對95%的設備進行唯一識別。如果(guo)數據更精細(GPS跟(gen)蹤而(er)不是信(xin)號(hao)發射(she)塔,或者實時(shi)采集而(er)不是每(mei)小時(shi)采集),匹配則會變得更加(jia)容易(yi)。
數據的合理利(li)用(yong)具有積極的社會價(jia)值(zhi)
然而不可否認的(de)(de)是,盡管(guan)面臨(lin)被濫用的(de)(de)風險,但數(shu)據(ju)的(de)(de)合理利用同時又(you)具有很多積極的(de)(de)社會價值。我(wo)(wo)們(men)(men)(men)希望醫學研究(jiu)人員創造新的(de)(de)藥(yao)物和(he)治(zhi)療方法、希望我(wo)(wo)們(men)(men)(men)的(de)(de)房屋能夠(gou)自(zi)動調(diao)節到舒適的(de)(de)溫度、希望Google地圖提示我(wo)(wo)們(men)(men)(men)前方道路擁(yong)堵。我(wo)(wo)們(men)(men)(men)渴望大數(shu)據(ju)帶(dai)來的(de)(de)益處(chu),卻(que)又(you)不想(xiang)面臨(lin)去匿名(ming)化的(de)(de)風險。
然而事(shi)實(shi)是,我們必須做出權(quan)衡(heng)。我們已(yi)經被迫放(fang)棄了一些(xie)隱私(si),未(wei)來可能還需(xu)要放(fang)棄更(geng)多,但真正關鍵的是如何(he)降低我們的隱私(si)被濫用的可能性。
保護敏(min)感數(shu)(shu)據和(he)防止(zhi)未經授權(quan)的訪問必須成為每一個數(shu)(shu)據收集者(zhe)的第一要務(wu)。同時,監(jian)管機構也應持續加強對個人數(shu)(shu)據隱私的保護力(li)度。例如,GDPR鼓勵公(gong)司存儲更少的數(shu)(shu)據并盡最(zui)大努力(li)對存儲的數(shu)(shu)據進行匿名化處理,即(ji)使這并非100%有效。
同樣,參與數(shu)據(ju)收集和存儲的(de)每(mei)一方都(dou)應(ying)該及時了解最新的(de)隱私保護技術。例如差分隱私(Differential Privacy,一種(zhong)基于密碼學的(de)隱私保護技術)這樣的(de)策略,即在(zai)數(shu)據(ju)庫(ku)發布之前將一些隨機噪聲(sheng)添加(jia)到數(shu)據(ju)庫(ku)中,這有(you)助(zhu)于減少基于數(shu)據(ju)關聯(lian)性的(de)攻擊。Apple和Google都(dou)在(zai)研究差分隱私策略方面付出了很多努力,這些舉措值得(de)借鑒。
總而言之,我們需要坦誠面對數據帶來的價值和風險,并謹慎權衡。一方面,我們希望釋放大數據的力量,為我們的生活帶來積極的改善。而另一方面,大量數據存在的本身就是一種隱私風險。如果我們放棄過多的隱私,大數據則可能進一步剝奪我們的自由。
