Total Pageviews

Thursday, 13 June 2013

纽约时报:美国如何利用科技(“大数据”技术)扫荡全球数据?

华盛顿——随着数字通讯量在过去10年中爆炸式地增长,追踪恐怖分子的美国分析师为了寻求处理大量电话记录、电子邮件和其他数据的新方法,求助于硅谷的计算机专家,这些专家曾建立了复杂的方程,阻止了俄罗斯黑社会进行信用卡欺诈的企图。
为此,国家安全局(National Security Agency,简称NSA)和其他情报界部门与技术公司建立了合作关系,加利福尼亚州帕洛阿尔托的帕兰提尔技术公司(Palantir Technologies)就是其中的一个,帕兰提尔由一群来自贝宝(PayPal)的投资者创建,他们正忙于解开“大数据”(Big Data)的秘密
如今,软件技术的革命使对规模巨大的数字信息进行自动及瞬时的分析变成可能,也给NSA带来变化,使其成为美国人乃至外国人数字资产的事实上的拥有者。这些新技术有史以来第一次使美国间谍能跟踪世界上几乎任何地方的人的活动和往来,而无需实际监视他们或监听他们的对话。
新的爆料揭示,NSA一直在秘密地获取数百万美国人的电话记录,还从9家美国互联网公司得到外国人的电子邮件、视频和其他数据。爆料为了解美国这家最大的情报机构不断增长的能力提供了罕见的一瞥。
为了能利用每天产生的堆积如山的新数据,在几乎没有公众讨论的情况下,NSA在迅速扩张。在过去10年里,政府给该机构投入了数十亿美元的资金,在 犹他州的山区修建了一座面积达100万平方英尺(约合10万平方米)的城堡,显然是用来无限期地存储巨量的个人数据。前业界和情报官员称,NSA在美国各 地建立了窃听站,并帮助建造了一台世界上最快的计算机,以破解保护信息的编码。
有人曾一度认为互联网流通的数据量太大,以至于超出NSA的分析能力,然而,最近的爆料显示,该机构的能力远比大多数局外人所认为的要强。美国全国 研究委员会(National Research Council)的计算机科学和通讯专家赫伯特·S·林(Herbert S. Lin)说,“5年前,我会说他们没有能力监视互联网流量中的大部分。”现在他说,看来“他们已经接近这个目标。”
上周六,人们得以看到他们到底有多接近。一份由《卫报》(The Guardian)援引的NSA文件,展示了一张“全球热度图”,该图看似表示了NSA从世界各地汲取的数据量。比如它显示,2013年3月总共从全世界 互联网上收集到970亿条数据;其中14%来自伊朗,有许多来自巴基斯坦,另有约3%来自美国本土,不过其中一些可能是流经美国服务器的外国数据量。
重点的转移
数据专家称,该机构有效地挖掘元数据的能力,已经使窃听和偷听通讯内容的重要性大大降低。元数据指的是关于谁在打电话或发邮件的信息。
“美国法律和美国政策把通讯内容视为最为私密且最有价值的,但这在今天已经过时了,”总部在华盛顿的电子隐私信息中心(Electronic Privacy Information Center)的负责人马克·卢腾伯格(Marc Rotenberg)说。“如今,与通讯关联的信息远比通讯内容本身更重要,那些从事数据挖掘的人都清楚这一点。”
美国法律限制窃听和偷听美国公民通讯的实际内容,但对于打电话这个行为所产生的数据只有很少的保护。而且,对于其他与电话无关的数据,例如用信用卡付帐,几乎没有法律保护。
当不同的数据流被整合到大型数据库中后,例如把使用手机的时间和地点与信用卡购物、或使用E-ZPass电子收费系统的数据相匹配,情报分析师能获 得一个人生活的不同侧面,而在过去,仅靠偷听他们的谈话绝对无法得到这么多。《自然》杂志(Nature)上发表的一项研究显示,有关打一次移动电话的地 点和时间的仅仅四条数据,足以在95%的情况下确定打电话者的身份。
“我们能发现各种各样的关联和模式,这方面的技术已有重大的进展。”一名为政府工作的计算机科学家说,由于没有获准作公开评论,这位人士要求匿名。
保密项目
2001年10月,乔治·W·布什(George W. Bush)总统秘密启动了国家安全局的无授权监听项目,在无需获得法院授权的情况下监听美国公民的国际电话和电子邮件,与这个项目同时进行的是大规模的数据挖掘活动。
这些保密项目导致了2004年3月在时任司法部长约翰·阿什克罗夫特(John Ashcroft)病房里的一次较量,较量的一方是布什的白宫官员,另一方是司法部(Justice Department)和联邦调查局的几个官员。愿意让无授权监听进行下去的司法部律师辩称,是数据挖掘引发了更多与宪法有涉的担忧。
阿什克罗夫特病房里的对峙发生前的一个月,哈佛大学的本科生马克·扎克伯格(Mark Zuckerberg)创立了Facebook;Twitter的创立是在两年多以后。苹果的iPhone和iPad当时还不存在。
电子前沿基金会(Electronic Frontier Foundation)技术分析师丹·奥尔巴赫(Dan Auerbach)观察说,“越来越多的像谷歌(Google)和Facebook这样的服务,正在变成信息的大型中央贮藏库。它们所贮藏的大批数据,对 执法机构和情报机构来说,是具有极大吸引力的目标。”
据行业分析人士称,长期以来,情报机构一直是对高级计算和数据挖掘软件需求最强烈的客户之一,近年来尤其是这样。一名曾担任技术高管的人士说,“他们对你说,某地有一个美国人将要被炸死,唯一一个能阻止爆炸发生、让他活下去的人就是你。”
根据IBM公司的估计,由于智能手机、平板电脑、社交媒体网站、电子邮件和其他形式的数字通讯的广泛使用,全球每天产生250亿亿字节的新数据。
据IBM估计,在全球现存数据中,有90%是过去两年中产生的。根据国际数据公司(International Data Corporation)的一项研究,预计从现在起到2020年,数字世界的规模将每两年翻一番。
和爆炸性的数据增长相伴随的,是分析这些数据能力的快速进步。
IBM的“沃森”(Watson)是一个最好的例子,它展示了数据密集型的人工智能的强大力量。“沃森”是一台超级计算机,在2011年击败了《危险边缘》(Jeopardy!,美国的智力竞猜节目——译注)的人类冠军。
分析人士说,“沃森”式的计算,正是处理海量数据所需的技术,它能即时分析互联网通讯数据,发现可疑的在线行为模式,因此能缩小恐怖分子的搜索范围。
一名曾给政府提供咨询的顾问说,过去两年里,NSA和中央情报局(Central Intelligence Agency)都在测试用“沃森”,因为他未获准公开谈论此事,所以要求匿名。
三边测量法
业内专家说,情报部门和执法机构还在使用一种被称为三边测量法(trilaterization)的新技术,它能够从一个时刻到下一个时刻地跟踪人 的位置。从手机蜂窝塔得到的数据能够跟踪一个人所在的海拔高度,精度足以确定该人在某栋建筑的某一层。甚至还有软件能够通过分析手机数据,寻求预测一个人 最可能采取的路线。网络和数据中心专家亚历克斯·菲尔丁(Alex Fielding)说,“这是极端的‘老大哥’(英国反乌托邦小说《1984》中监控全体国民的独裁者——译注)”。
最近披露的消息没有证据表明,NSA的窃听者对普通美国人的窃听违反了法律。上周五,奥巴马总统为国家安全局收集电话记录和其他元数据的做法辩护,称其不涉及偷听谈话内容、或阅读电子邮件内容。
然而,隐私权倡导者说,必须进行全国讨论,以制定新的法规,来限制情报界对大量新数据的获取。
卢腾伯格说,“那种认为政府能缴获如此大量的信息,却不会影响美国公民享有的宪法第四修正案(Fourth Amendment)权利的想法,有点是幻想。”他指的是美国宪法所规定的有关免于不合理的搜查与扣押的权利.
-------------------------------------------
 “大数据”技术太牛了!