外媒質(zhì)疑美國安局天網(wǎng),或已誤殺千人
2016-02-23 11:51:26 來源: 明明知道 51CTO.com 評論:0 點擊:
我們曾報道過美國國安局NSA一項名為“天網(wǎng)”SKYNET的計劃,根據(jù)The Intercept公布了一份文檔顯示,“天網(wǎng)”使用機器學(xué)習(xí)算法分析幫助NSA尋找潛在恐怖分子。如今,外媒卻在質(zhì)疑,這個項目可能已經(jīng)在巴勒斯坦“誤殺上千無辜平民”。
NSA:數(shù)據(jù)說了算 VS 專家:你們一派胡言
2014年,一名CIA和NSA前負(fù)責(zé)人宣稱:我們殺人是基于元數(shù)據(jù)的。其本意大概是,我們不會濫殺無辜……但是,一名來自“人權(quán)數(shù)據(jù)分析組織”(Human Rights Data Analysis Group)的數(shù)據(jù)科學(xué)家Patrick Ball對NSA提出強烈質(zhì)疑,他曾評價NSA機器學(xué)習(xí)算法“盲目樂觀”并且“一派胡言”。
自2004年以來,巴基斯坦地區(qū)死于無人機轟炸下的人數(shù)介于2500至4000人,其中絕大部分人被美國政府定義為“極端分子”。而從此前流出的幻燈片不難發(fā)現(xiàn),SKYNET機器學(xué)習(xí)程序早在2007年就在秘密開發(fā)中了。
SKYNET:披著大數(shù)據(jù)外衣的喪鐘
“天網(wǎng)”就是一個很典型的大數(shù)據(jù)業(yè)務(wù)應(yīng)用,程序進行元數(shù)據(jù)收集并儲存到NSA云服務(wù)器,在提取所需相關(guān)信息之后運用機器學(xué)習(xí)從事有針對性的識別。NSA將其運用于巴基斯坦地區(qū),分析了巴基斯坦地區(qū)5500萬移動電話記錄,其中包括手機通話數(shù)據(jù)(就是所謂的“DNR”或號碼識別數(shù)據(jù),如通話時間、持續(xù)時間、通話對象等等),用戶定位和旅程詳細情況,以及關(guān)機或換SIM卡操作。任何可疑的行為都會被做上記號。
簡而言之,NSA通過生活模式、社交網(wǎng)絡(luò)以及旅游行為三個維度來進行數(shù)據(jù)的收集和計算。在得到了較為完整的元數(shù)據(jù)集之后,SKYNET可以速寫出人們典型的日常生活——某些人一起旅行、分享聯(lián)系人、在一起過夜、訪問其他國家或永久移居。最終,NSA機器學(xué)習(xí)算法使用超過80種不同屬性為人們的“恐怖分子率”打分。
然而,就是這一權(quán)威機構(gòu)的科學(xué)算法卻出現(xiàn)一個令人大跌眼鏡的結(jié)果:
去年The Intercept公開了根據(jù)這一算法得分最高的“恐怖分子”——竟然是一名受人敬仰的記者Ahmad Muaffaq Zaidan。
作為記者,Zaidan有著廣泛的通訊網(wǎng)絡(luò),并采訪過包括本拉登在內(nèi)的多名基地組織領(lǐng)導(dǎo)人。對于“天網(wǎng)”系統(tǒng)的誤殺,Zaidan十分憤慨。
解密“天網(wǎng)”為何疏而有漏
SKYNET的分類算法對元數(shù)據(jù)與基礎(chǔ)事實進行分析,然后為每個人進行打分。理論上真正的恐怖分子會得到高分。
想要訓(xùn)練出這樣的機器學(xué)習(xí)算法就像訓(xùn)練Bayesian垃圾郵件過濾器一樣:你要給它“喂食”已知的垃圾郵件和非垃圾郵件。從這些最為基本的“真理”中,算法便會掌握怎樣才能正確過濾垃圾郵件。
同理,“天網(wǎng)”項目中最為關(guān)鍵的部分便是算法的訓(xùn)練,而為數(shù)不多“已知恐怖分子”造成的局限性就顯現(xiàn)出來。
小編從華盛頓大學(xué)Data Lab數(shù)據(jù)學(xué)研究者CHI那里了解到,NSA在“天網(wǎng)”中采用的隨機森林算法在機器學(xué)習(xí)中很常用,而且一般來說效果也很好的,但是在用于發(fā)現(xiàn)恐怖分子時還存在諸多問題。
百科:隨機森林算法
隨機森林算法是采用用隨機的方式建立一個有很多不相關(guān)決策樹的森林,在得到森林之后,當(dāng)有一個新的輸入樣本進入的時候,就讓森林中的每一棵決策樹分別進行一下判斷,看看這個樣本應(yīng)該屬于哪一類,然后看看哪一類被選擇最多,就預(yù)測這個樣本為那一類。
Ball解釋道“天網(wǎng)”算法是通過10萬隨機挑選的個體和已知的7名恐怖分子進行訓(xùn)練。NSA給算法提供6名恐怖分子,讓它找出第7個。
安全專家Bruce Schneier認(rèn)為政府在使用大數(shù)據(jù)時不同于其他情況:
“如果谷歌犯了個錯誤,人們最多是看到一輛汽車的廣告而并不會想要購買??扇绻噶藗€錯,可能會傷及無辜人的性命。”
在NSA的測試中甚至出現(xiàn)了0.18%的錯誤率,這就意味著在5500萬樣本中將近9.9萬人進行了錯誤標(biāo)記,而Ars暗示這一結(jié)果可能導(dǎo)致NSA對目標(biāo)發(fā)起無人機轟炸。
科技之光,還是科技之殤?
算法已經(jīng)開始統(tǒng)治我們的生活,用“天網(wǎng)”尋找恐怖分子這僅僅是個開始,采用相同邏輯尋找“毒販”、“抗議者”或“異見人士”的手段可能不久之后或已經(jīng)出現(xiàn)了。基于元數(shù)據(jù)的“殺人游戲”此刻就在進行著,而千里之外的我們對此視而不見。倘若有天,“天網(wǎng)”認(rèn)定了你是恐怖分子,那時你該怎么辦?
【編輯推薦】

頻道總排行
- 高通上演《羋月傳》:在國內(nèi)從“冷宮”重入“正殿”
- 安全是物聯(lián)網(wǎng)(IoT)和聯(lián)網(wǎng)醫(yī)療設(shè)備的根本所在
- 扎克伯格仍然在努力說服貧困國家接入互聯(lián)網(wǎng)
- 關(guān)于《云計算綜合標(biāo)準(zhǔn)化體系建設(shè)指南》的解讀
- 庫克為他改變蘋果主頁 騰訊北京總部PM2.5低于35
- 物聯(lián)網(wǎng):數(shù)據(jù)保護與軟件盈利能否共存
- 萬物互聯(lián)將為公共事業(yè)創(chuàng)造4.6萬億美元價值
- 提速降費是個“眾籌”項目
- 日本政府推網(wǎng)絡(luò)戰(zhàn)考試制度 黑客需持證上崗
- 松下發(fā)布GF8自拍相機產(chǎn)品