人生在世，看得透，又看得远者prevail everywhere.: gfw的近500个实体“哨所”

Monday 17 July 2017

gfw的近500个实体“哨所”

2012年，一组来自Michigan大学的研究者，对“墙”的位置进行了探测。他们发现，就像真实的长城并非连绵不断的，防火墙也并不是密不透风地“堵”在我们的“网络”上，而是一组散落各处的“哨所”，只有当发现威胁的时候，它们才用“RST”或“DNS污染”这样的方式进行干扰。截止2012年底，研究者总共探测到了近500个这样的“哨所”，在中国南方，部署数量头三位的省份为：广东（84个）、福建（29个）、湖南（28个）。

小插曲是，研究者把探测“哨所”的工具在GitHub（世界最大的开源代码托管服务）上开源发布后，引起了激烈的争论。一些人认为，此举会激怒“墙”的管理者，导致GitHub被封锁，影响墙内程序员学习交流，所以应该删除这样的代码仓库，“保持技术社区的纯粹”。另一些人，则认为翻墙是程序员的基本技能，表示不受影响，所以力挺该项目，并极力反对技术社区加入“自我审查”的行列。

深度数据包检测

2012年底，“墙”的总设计师、北京邮电大学时任校长方滨兴的研究团队曾发表论文“网络流量分类，研究进展与展望”，文章提到了多种使用机器学习进行“深度数据包检测”（Deep Packet Inspection，DPI）的技术。随后几年，这些先进的技术逐渐在“墙”上部署开来。

要理解“深度数据包检测”的威力，我们可以把数据包想像成一封信。“浅度”的数据包检测，就好像是看看信封上的发件人和收件人，即决定是否放行。这给“跳板法”留下可乘之机：我们先将信送到中间站（如虚拟主机VPS），再转发到目的地，就绕过检查了。“深度”的数据包检测，可以理解成对信件内容的探查──相比起暴力打开信封，这种基于机器学习的技术更具有艺术性。它并不实际解读数据包的内容，而是搜集周边信息，对数据流进行“肖像刻划”（Profiling）。举个例子，你用Google搜索时，网络上只会有文本和少量图片经过，数据量很小，并且是突发的；但用YouTube看视频时，就会有持续一段时间的大量数据流过。“墙”的监控也是基于这样的抽象指标，比如它监控到到间歇而细小的流量，便推断你不太可能是在用YouTube。将诸如此类的可参考指标放在一起，就组成当前数据流的一副“肖像”。把这个“肖像”与数据库里面已经存放的巨量“翻墙流量肖像”和“非翻墙流量肖像”做个比对，就可以相应归类了。如所有的机器学习算法一样，这种归类会误杀一些非翻墙流量，也会错放一些翻墙流量。但日积月累，“墙”观察的样本越多，准确率也就越高.

人生在世，看得透，又看得远者prevail everywhere.

Total Pageviews

Monday 17 July 2017

gfw的近500个实体“哨所”

深度数据包检测

No comments:

Post a Comment