Total Pageviews

Thursday, 9 June 2016

中国网络审查制度如何允许批评政府却禁止群体煽动

【按】本文原载于《美国政治学评论》 ( American Political Science Review ) 2013年5月刊,题为《中国网络审查制度如何允许批评政府却禁言群体煽动》 ( How Censorship in China Allows Government Criticism but Silences Collective Expression ) ,作者为哈佛大学教授金加里 ( Gary King ) 和他的学生珍妮弗·潘 ( Jennifer Pan ) 与玛格丽特·E·罗伯茨 ( Margaret E. Roberts ) 。该论文刊出后不久,观察者网即组织翻译。
   通过对中国网络审查制度的大规模、多来源数据分析,金加里教授等得出结论:中国领导层允许社交媒体发展,容忍对政府、政策、领导人的批评。中国网民在个 体上是自由的,但在群体活动上受到控制。我们意识到,世界各国政府处理同样问题时会采用类似的手段,英国卡梅伦政府曾在骚乱期间对社交媒体进行管制,这是 一个近期的例子。
   在哈佛大学的教授等级中,最高级是“校级教授” ( University Professor ) ,哈佛大学目前仅设24名。政治学系金加里 ( Gary King ) 的头衔是 “阿尔伯特 韦瑟黑德三世校级教授” ( Albert J. Weatherhead III University Professorship ) 。这一头衔的上一任拥有者正是大名鼎鼎亨廷顿——美国政治学者、前哈佛大学政治学系教授亨廷顿 ( Samuel Huntington ) 。
  观察者网今日特刊出金加里教授领导撰写的此文译文(附录部分略有删节),供读者借鉴:
   虽然作者功力扎实,又具有重要的学术地位,但由于种种原因,与《外交政策》杂志上此前刊登的《谣言共和国》相比,该论文在中美学术圈和媒体上引起的反响 则显得迟缓。《纽约时报》中文网专栏作家欧阳斌近期在哈佛大学就该论文对金加里教授进行了采访。《环球时报》今日则刊发观察者网专栏作家、复旦大学国际政 治系讲师沈逸文章《客观研究中国网络,摘下有色眼镜》,评述了该论文在学术圈内的窘境。
  观察者网今日特刊出金加里教授领导撰写的此文译文(附录部分有删节),供读者借鉴:

来源:http://www.chinaelections.org/article/762/231166.html
  中国网络审查制度如何允许批评政府却禁止群体煽动
  How Censorship in China Allows Government Criticism but Silences
  Collective Expression
  译者:朱新伟、王杨
   中国网络管理部门可能正在实施有史以来最广泛的人类言论筛查行动,我们首次对这一行动大规模、多来源的分析。为此,我们专门设计了一套计算机系统。抢在 中国政府发现、评估并审查(从互联网删除)他们视为不妥的内容之前,这套系统在1400个不同的社交媒体网站上定位、下载并分析数百万的网贴。利用现代电 脑文本分析方法,我们在85个主题范围中,把特定时间内被过滤的网贴与未被审查的网贴的实质内容进行对比。我们发现,与通常的认识不同,那些对国家、领导 人和政策进行消极甚至刻薄批评的网贴遭过滤的概率并不高。但是,自诩民意代表、煽动社会动员的言论,不论任何内容一概会被禁言。审查部门力图限制任何群体 性事件,这明确暴露了政府的执政意图。
  摘要
   中国政府有选择地过滤中国网民言论,从其规模和复杂程度来说,这一工程史无前例。美国的社交媒体集于少数网站,而中国(社交媒体)则分布于数以百计的地 方站点。这意味着,很大一部分审查责任被下放给这些网站的管理方,如果他们违反政府审查守则,就有可能遭罚款或关闭。为了避免触犯政府规则,每个网站都雇 佣了专职审查员,最多的可达1000名。此外,在中央、省级和地方等不同级别,约2万-5万网警和网管办(员工)、约25万-30万“五毛党”都参与了这 项艰巨工程。中国的新闻自由规模在197个国家中与缅甸并列第187位(据2012年自由之家报告),中国的审查工作是迄今最大的。
   在本文中我们发现,这一机制旨在限制中国人言论自由,同时是一个异常丰富的信息资源——它暴露了中国政府(自认的)利益、意图和目标。这是学术和政策研 究团体一直关注的话题。跟通常媒体零星报道的领导人的公开活动不同,网络信息可以不间断地获得(对研究有利)。我们用该新信息发展新的理论,以解释审查机 制的总体目标,进而揭示中国领导层的一些最基本目标。对中国政府这些目标有多种多样的猜测,但无论哪种假说都缺乏实证分析。所以该信息对于其他很多学术 (和实际决策)用途都很有价值。
   我们得出了一个核心的理论发现:与通常的研究和评论相反,审查机构的目的并非压制批评国家或共产党的言论。必须承认,审查覆盖社交媒体,但我们发现,当 中国人对政府或领导人提出尖刻批评时,网帖被过滤的几率并没有上升。另一方面,我们发现审查的目的是降低群体性事件的可能性。只要群体性运动已经或可能发 生,有关部门就会及时删除网贴。我们在此阐明上述观点,认为它们对中国政治、比较政治学等很多研究领域会产生深远影响。
  在以下章节中,我们先对中国审查制度提出两种假说。然后我们介绍独特的数据源以及富有挑战的收集数据过程。接下来,我们阐明分析方式,给出结果并总结。附录包括编码细节,中文文本自动分析方法,并指出审查行为预示了政府在互联网之外的行动。
  政府意图以及审查目标
  此前,寻找衡量政府意图的指标
   破译中国领导人隐秘的意图和目标曾是研究中国精英政治的焦点。西方学者曾采用克里姆林学或北京学(基于人事关系和官方报道的中国政策研究)作为其研究方 略。随着文化大革命和改革开放的到来,研究者可获得越来越多的数据,而学者也将研究方向转到信息更开放的领域。总体上,今天的中国研究依赖于官方数据、民 意调查、地方官员访谈以及官员和政府的公开活动。
   这些资源很适合回答其他重要的政治科学问题,但是在衡量政府意图这个问题上,这些资源显然是间接的、往往取样过于稀疏且可疑。比如,官方数据公布的“群 体性事件(mass incident)”数量,可能受政府利益考量影响,但我们只有将真实数字和政府数据对比才能发现这一点。同样,抽样调查或许有用,但政府显对普通公民有 所隐瞒。而且,即使受访者拥有研究者想要的信息,他们也未必愿透露。在直接访谈官员时,研究者恐怕要算一卦才能知道知情官员的真正想法。
   (与研究政府行动相比)衡量政府的意图更加困难。目前各种研究方式都只能搜集到有限的信息,不足以得出明确的结论。因为中国政府不是铁板一块。其实,在 很多情况下不同的政府部门、不同的领导或不同级别的政府工作目的千差万别,甚至很难确定一个统一的意图或动机,更不可能进行简单的描述。我们也不能解决所 有的问题,但是政府的审查行为中的偏好是一个很好的研究对象,会透露更多信息,我们可以借此分析官员自己也未必明确的工作目的。
  审查的逻辑
   本研究的前提是网络大大拓展了公共话语的空间。我们首先建立一个基于实证研究的理论,解释政府为何要审查网络言论,以及他们想通过这样庞大的机制达到什 么目的。现有学者一般持有一个大而无当的结论——中国政府审查网贴是为了维持政权。而我们着更关心政府的具体行事方式——政府到底如何定义自己的目标,以 及它采取了什么行动来实现自己的目标。
  为此,我们提出了两个理论。这两个理论各自反映了威胁中国政权的某个方面。
  第一条是常见的(压制)国家批评论,即假定中国领导层的行为目标是镇压异见者,控制指责中国政府、政策或领导的言论。结果是让看得到的公众言论对掌权者更有利。很多对国家的批评都被视为这一目标的控制对象,比如差劲的政府业绩。
   第二个理论是我们所说的潜在群体性事件论,即审查目标是联合起来集体表达意愿的人。在民间人士的激励下,他们有引发群体性事件的可能。该观点认为,群体 表达——很多人在社交媒体上就同一问题交流——与真实的群体性事件相关。只要言论可能引发群体性事件,就很可能会被审查。值得注意的是,这一理论并不关心 网贴的内容,无论内容是批评还是歌颂国家,甚至根本不涉及国家政权。
   “潜在群体性事件”也可以在中国政府鲜明的表态中找到依据,即不受政府控制的群体表达无异于派系私斗,并最终会导致混乱和无序。比如,在共产党建党90 周年前夕,新华社社论,称西式议会民主将导致中国重蹈文革的动荡史。同样地,2011年3月召开的第11届全国人大四次会议上,全国人大委员长吴邦国称, 鉴于中国国情,中国将不会借鉴多党轮流执政的体制。这样做的目的,是为了避免中国“陷入内乱深渊”。
   中国观察家们常会注意到,中国政府对维稳异常重视,有强烈的意愿通过约束社会关系限制群体性事件。当前的中国政府遇到了大量争端和群体行动。清华大学社 会学系教授孙立平称,2010年,中国共发生了18000起群体性事件。频繁地群体事件不可避免地对政府处理问题的方式和观念产生影响。中国政府认为,对 横向沟通加以约束是合法且有效的保护人民的手段。
   现在的学者无法通过实证研究区分前述两种理论的不同。Marolt (2011) 写道,当“批评政党及其政策,或鼓动群体性政治运动”时,网上的网贴会被查封。MacKinnon (2012)称在温州高铁事故中,互联网服务商受命“跟踪并审查批判性的网贴”Esarey和Xiao (2008) 发现中国博主采用(婉转地)讽刺手法批评政府,以避免遭到镇压。Esarey 和 Xiao (2011) 写道,共产党领导人最害怕“有影响力的网民联合对政府施压,要求其改变政策,”但他们认为这种施压的方式是对政府的批评。Shirk (2011)称审查的目的是压制政治反对派的动员,但她的例子表明批评的观点来自于那些被压迫的人。
   街头抗议这种群体性事件经常被视为专制政权的丧钟。东德、东欧以及最近的中东抗议都导致了政权更迭的革命。 很多中国学者都关注人们反抗的原因以及策略。中国政府似乎要不计代价阻止抗议——的确,群体性事件的数量是地方官员考核标准之一。然而,最近的数个研究指 出:专制政权可能会期待并欢迎潜在的小规模抗议活动。因为了解并处理群众的不满会促进政权稳定。Chen (2012) 指出小规模、孤立的抗议是中国长期的传统,也是政府期望的行为.
  结论概述
   上述两个假说相互独立——可能都对,也可能一对一错或者全错。但根据我们取得的数据,答案很明确:国家批评论是错误的,潜在群体性事件论是正确的。我们 的数据表明,中国的审查机制放任对中国政府、官员和政策的广泛批评,审查首要针对的是限制可能引发群体性事件的信息传播,无论这种信息是煽动反政府,还是 反对具体的政策,都会审查。如果网上发帖数量激增,且内容可能引发群体性事件(如广场抗议),那么审查就会到来。此外,我们还考察了每个事件中的表态,发 现在这些事件中,政府对支持和批评的观点不加区分,一律删除。这表明中国政府相信,为了维护自己的统治,压制有可能引发群体性事件的网贴比压制批评更重 要。
  数据
  我们在收集海量具体信息时遇到了巨大的挑战,中国政府不希望任何人看到这些信息,因此会竭尽全力阻止别人获取。下面我们我们将讨论审查的种类,数据收集过程,该研究的局限性,以及我们对数据做后续分析的方法。
  审查的种类
  中国审查社交媒体上上的网民意见至少有3种方式,最后一种是我们研究的重点。
   首先是“防火长城”(一般缩写GFW,方滨兴主持建立)。该防火墙完全禁止某些网站在中国运营。这令很多国外的互联网公司头痛,也阻止了中国人通过这些 网站与国外网民交流。但中国人可以用其他的网站,用相似的方式表达自己的观点,防火墙对此无法干预。比如,facebook脸书在中国被禁,但人人网是相 似的替代品;同样地,新浪微博是人气很旺的推特的克隆体。
   第二种方式是“关键词屏蔽”,它防止用户发布含有被禁的词或短语的文本。这对限制言论自由作用有限,因为网民发现自动程序的智商并不高。他们用类比,比 喻,讽刺等方式绕过审查。汉语可以为此提供多种新颖的方法,比如替换汉字,可以用同音字或看上去相近的汉子(同形异义字)。比如“目田”,本意是“眼睛- 田野”,但被魔兽世界玩家用来代指字形相近的“自由”。同音字方面,“hexie”这个音经常被写成河蟹,意思是河里的螃蟹,实际上指代“和谐”,即官方 的“和谐社会”政策。
   一旦跨过了前两个障碍,文章就能(自由地)在网上发布。审查者将阅读并删除那些不妥的文章。通过研究文献、观察者的记录、与数个政府内部人士的谈话以及 对数据的汇总,我们几乎可以断定,内容过滤在很大程度上是人工完成的——审查者手动阅读文章。自动程序似乎只是辅助。跟”防火长城”或关键词屏蔽不同,手 动审查不会被文字游戏糊弄。因此,这也是最后也是最费力的审查方式,也是本文的研究重点。
  资料收集
  我们先收集社交媒体上的博客,至少在审查到来前,作者可以完整的表达他们的思想。
   在很多国家,如美国,几乎全部博客都集中在少数几个大网站上(脸书、谷歌博客、Tumblr等);中国确实有新浪这样的大网站,但还有很大一部分社交媒 体资源分布在无数的单个站点上,比如地方bbs论坛等。这种多元对数据的收集工作造成了逻辑上的挑战。由于网址、软件界面、地方审查官员、网络可靠性、访 问速度、使用条款各不相同,审查模式也不同,能对我们的数据收集造成潜在妨碍的方式也多种多样。幸运的是,中国独特的社交媒体结构也为研究各地对群体表达 的监管提供了绝佳机会,因为大量的本地站点提供了丰富的信息, 这比在美国还要便利。
  数据收集面临的最复杂的挑战是,赶在中国政府阅读并删除不妥的内容之前,定位、访问并下载相关内容。此外,对每个帖子进行频繁重访以确认删除的时间。还要在中国很多地方收集数据同时不会影响到我们研究的审查机制,研究也不会遭到制止。
  我们能完成的原因是数据手机系统高度自动化,而中国审查系统涉及人工操作。我们庞大的工程(由于明显原因将不会在此详述)在全世界很多地方运行,包括中国内地。

   最后,在2011年前半年,我们从1382个中国网站上定位、访问并下载了社交媒体网贴。中国社交媒体结构最显著的特就是它有极长的(幂律状的)尾巴 (指中小型网站的原创内容)。图1是各网站的样本和中文标识(图片a)以及代表该长尾的网帖数量饼状图(图片b)。图中可见,最大的网帖来源是新浪博客 (占总数的59%),百度嗨,华声论坛,四月论坛和天涯。但尾巴还在一直(向更小的网站)延伸。
   社交媒体网贴涵盖的话题范围太广,以致于全面的随机取样策略很难对单一话题提供有价值信息。因此,我们采取了分层随机抽样设计的方法。我们先选取了85 个单独的话题范围,并按照假定的政治敏感性分为高(如艾未未)、中(如计划生育)、低(如流行网游)三档。通过回顾以前的研究、咨询中国专家以及对当下事 件进行研究,我们分别在这三档中选取某些特定话题。附录A是完整的清单。
   然后,针对不同的每个话题范围(用关键词区分),我们收集6个月时间内所有相关的社交媒体网贴。我们检查每个话题范围的网贴,删除垃圾邮件,再用辅助阅 读工具对内容进行研究。(Crosas et al. 2012; Grimmer and King 2011)我们一共收集了3674698篇网贴,其中随机选出127283万篇进行进一步分析。(我们在其他时间段里重复这一过程,有时候会对某些话题范 围进行更深入的研究。总共收集并分析了11382221篇网贴。)所有这些来自中国站点的网贴都是用中文写的,但不包来自括香港和台湾的文章。我们先阅读 每篇文章的内容,将其置于某个话题范围的时间轴上,并重复访问源网站以确定其是否被过滤。根据需要,我们将用其他特定的数据对该信息进行补充。
  审查者们并不羞于公开自己的行为,因为我们发现可以很容易区分(有意的)审查和零星的断电,或是短暂的超时错误。被审查的网页清晰地包含这样的字眼:“抱歉,指定的主题不存在,已被删除或正在审核”,有时候还会留下有警警和察察(网警logo)的标志。
   尽管我们搜集信息比审查者审帖快,但他们的效率也体现出了高度专业水平。为了说明这一点,我们随机收集并分析了2011年9月27日上海地铁相撞事件前 后的网帖、2012年4月10日到12日薄熙来事件的网帖和有关谷开来的网帖,以此举例。尽管我们搜集信息比审查者审帖快,但他们的效率也体现出了高度专 业水平。为了说明这一点,我们随机收集并分析了2011年9月27日上海地铁相撞事件前后的网帖、2012年4月10日到12日薄熙来事件的网帖和有关谷 开来的网帖,以此举例。

   我们对上述三个话题范围的网贴进行不间断监控,一共监控9天。(其他范围的审查遵循同样的基本方式)图2表示的是被审查的网贴数的直方图。在三个事件 中,大多数的内容过滤发生在原文发布后的24小时之内,当然也有一小部分网贴到5天之后才被删除。这体现了惊人的组织能力,它需要战争机器般的精确:不同 政府级别、分管不同互联网运营商的领导需要首先做出决断(给出一致意见、直接命令或妥协方案),决定什么内容需要被过滤;他们需要将该决定传达给数十万的 个人;然后这支军队需要在大约24小时之内完成绝大多数审查工作。
   正如埃德蒙(2012)指出,社交媒体上信息源的激增让信息越来越难以控制,然而,中国政府竟然在全国范围内克服了这一困难。鉴于很多人很难达成一致意 见,而且不同的人执行指令很难达成同样的效果(比如Hopkins and King 2010, Appendix B)我们认定政府对审查工作做出了巨大而专业的努力。我们发现了一些证据,表明这一庞大芜杂的官僚体制中存在不同意见,比如不同级别的政府之间的不一致。 但我们尚未对此进行细致的研究。
  研究的局限性
   如下所示,我们的方法很大程度上揭示了中国领导层的目标,但它忽略了网站的自我审查以及这些内容被我们看到之前已经发生的过滤;它也没有对”防火长 城”、关键词屏蔽或搜索过滤的直接效果进行量化。我们也没有研究现实中暴力的效果,如逮捕博主或进行威胁。尽管各级政府和官员都会对审查什么、何时审查进 行干预,但我们的数据有时候并不能让我们对这些信息源加以区分。
   我们的确无法判断上述局限性的后果,不过我们可以合理地推断,其中最重要的应该是现实中的暴力、威胁以及由此导致的自我审查。尽管我们分析的社交媒体数 据包含数百万中国人的意见,涵盖了极其广泛的话题和演讲行为,但那些从未被我们观测到的话题(即网民不敢谈到的话题)可能才是政府认为最要害(或最紧迫 的)的部分。
   最后,过去对互联网行为的研究存在一个可靠的前提——网民的社会行为跟“现实世界”行为基本同步。但是,当前的网络行为已经占据了人类生活很重要的位 置,因此今天社交媒体上观察到的思想本身就非常重要——不论它能否很好地衡量非网络自由和行为。但无论这个前提是否成立,我们都难以作出这样的论断:我们 对中国社交媒体的研究可以用来说明中国的新闻自由或是其他信息传递问题。
  分析策略
   总体上看,大约有13%的网贴被过滤。如果将所有领域、所有的网贴汇总起来,这一数据随着时间的推移变化不大,但它会随着网贴数量和审查力度的变化产生 巨大变化。我们发现,网贴的潜在政治敏感性和审查之间的关联性非常低:在低档和中档敏感度事件中,审查率基本一致(分别是16%和17%),仅仅比高档敏 感度事件(24%)低一点。当然,单个数据的稳定性不意味着内涵的简单。为了发现审查的深层规律,我们接下来将讨论编码规则、给出核心假设,探讨中国政府 可能的审查程序。
  编码规则
  我们分5步进行样本编码。
   首先,按分层随机抽样设置的关键词,我们将社交媒体网贴分为85个话题范围。尽管我们做了大量的检查(通过大量人工阅读并借助现代电脑辅助阅读技术)确 保其准确性,我们的话题范围里难免(借助任何机器或人工分类技术)存在一些归类错误。我们采用了保守的方法,先做出结论,暂且忽略这一错误的影响。随后, 我们进行了反复的筛查(用同样的技术),确保我们不会错过任何重要的信息。这种归类错误可以看做是系统性错误,但迄今为止,所有数据(扣除错误后的数据) 都依然支持我们的结论。
   第二,众所周知,几乎所有话题范围(和相关区域)的言论数量都是“阵发”的,即稳定的时间曲线常常因偶然事件而出现数量激增。这一规律仅仅有两个例外 ——色情内容和对审查者自身的批评。如下所述——审查工作在数量爆发(volume burst)时期(即事件热点时期)力度往往格外大。因此,我们对数量爆发期前后的数据进行了处理。我们将每个话题的数据搜集范围都确定为6个月时间序列 中每天的数量,并采用回归方式计算数据,以确定在剩余时间序列中的离散值(outlaying observations)。
  通过这一过程,我们检测的85个话题范围中有67个出现过数量爆发,一共出现了87次。
  第三,我们将每个事件归为以下五类:每个类别都可能包含批评或不批评政府、领导人和政策的网贴。
  1.潜在群体性事件
  “群体性事件”定义:
   两个(含)以上的人,受到参与者而非官员(或官方代表)的鼓动、控制,追求特定目标的行为。我们的“潜在群体性事件”原则上包括任何有可能引发群体性事 件的事件,但是为了保守起见,并确保编码规则清楚明确且可以重复验证,我们将增加3个归类条件:a)作者参与了抗议活动或有组织的人群;b)网贴与曾经组 织或引发群体性事件的个人有关;c)网贴与曾经引发抗议或群体性事件的民族主义或民族主义情绪有关。
  2.对审查者批评
  “对审查者批评”定义:
  对效命于政府或非政府实体的审查者(无论个人和公司)的批判。
  3.色情内容
  “色情”定义:
  包含色情或明显性方面内容的电影、网站、广告、新闻。
  4.政府政策
  “政策”定义
  政府声明或政府活动报告,包括国内或对外政策。
  5.其他新闻。
  其他新闻是指对上述4类事件以外的事件的报告。
  最后,我们进行了一项研究以验证我们编码规则的可靠性。
   我们把上述规则给两位熟悉中国政策的人看,要求他们对87个话题分别进行编码(每个话题都曾导致中国网民的发帖量爆发),并将其归入上述的5个范畴中。 两名编码者独立工作,各自对这些事件进行归类。编码结果证明,两位编码者的一致率是98.9%,即87个话题中的86个归类都相同。唯一不同的话题是方滨 兴(”防火长城”的发明者)遭扔鞋事件。这一事件既导致对审查者的批评,在一定程度上也是群体性事件,因为有好几个人一起向方滨兴扔鞋。我们最后决定将该 事件作为批评审查者的例子,不过不管它怎么编码,都不会影响我们的结果。因为我们估计,无论它归入哪一类,都会遭到审查。
  核心假说
   我们的核心假说如下:网贴数量爆发期间,政府会根据话题范围,将所有讨论潜在群体性事件的网贴删除。也就是说,审查者将不管这些网贴是否有群体性事件的 可能。这或许是因为执行精确鉴别指令的难度比较大。Kuran (1989)和Lohmann (2002)研究表明,正是有关群体性事件事件的信息促进了群体性事件的产生,因此,要想把这种信息和明确的对群体性事件的号召区分开来,即使不是不可 能,也是非常困难的。因此,我们假设审查者采用了更简单的标准来判断网贴是否诱发潜在群体性事件。而且他们不会考虑网贴是否批评政府的(即支持政府的也一 概不放过)。
  审查者还试图把全部删除色情内容和批评审查者的内容。但不会删除政府政策和其他新闻范畴内的网贴。
  政府的运作程序
   中国政府审查的确切运作程序当然无法观测。但是我们约谈了接近审查机构的人,以及内部人士,我们相信我们的编码规则可以视作接近真实程序。(事实上,在 文章的一个草稿公布后,我们收到的反馈证实了我们的观点)我们手动确定话题范围,用关键词对网贴进行归类,并通过统计发帖数量的时间序列数据,自动甄别网 贴数量爆发。某些情况下,对谈论现实世界事件网贴的过滤可能发生在事件真正发生之前——因为审查者会被秘密告知某事将要发生(比如对某个异见分子的逮 捕),而这件事可能引发群体性事件。
   在网贴数量爆发期间进行过滤,第一步的甄别工作几乎全部需要人工完成,或许偶尔会辅以计算机程序,如算法识别特色词组(statistically improbable phrases)。最后,审查者对单个网贴做出审查决定——根据我们的假说,要检查它是否与某个特定事件有关——几乎肯定是人工完成的,因为没有哪个已知 的计算机系统的精度能与中国审查工作的精确程度相比。审查者可能会先用关键词搜索找到相关事件,但他们依然需要人工阅读文章,再进行审查。比如,当审查者 从网上的讨论中找到增城事件的文章,他们可能采取了关键词搜索的方式,但他们可能必须要阅读全文,这样才能将增城抗议和增城的其他信息区分开来,比如增城 荔枝丰收。
  结果
  接下来我们介绍3个具体的测试以验证我们的假说。这些测试基于:
  1 网贴数量
  2 引发每次数量爆发的事件性质
  3 被审查的网贴的具体内容。
  此外,附录C(见文末)提供了一些证据,表明中国政府的审查行为自相矛盾地反映了中国政府的意图。
  网帖数量
  假如审查的目标是禁止有可能引发群体性事件的讨论,那么我们应该会看到,数量爆发期间会比别的时期有更多审查行动。我们会看到,某些事件爆发——有群体性事件可能的——受到的审查级别会更高。
   为了研究这一模式,我们引入了“审查强度”的概念,即数量爆发期内被审查(删除)网贴的百分比减去数量爆发期外所有被审查(删除)网贴的百分比。(基本 比率在不同的话题范围中变动很小,如下图所示,没有造成天花板或地板效应)。这可以证明中国政府网络政策之严厉,因为在网贴数量爆发期间进行审查明显更加 困难,网帖数量更多,时间更紧迫,且没人预先警告什么时候会出事。
  表3的a直方图似乎支持我们的假说。结果表明,绝大多数数量爆发的审查强度集中在0附近,但有一条显著的长尾(坐标轴左侧没有相应的长尾,即很少有审查比率在重大事件期间下降的案例)。显然数量爆发往往伴随着审查强度的大幅提高,即使跟接下来的6个月相对比也是如此。

  能引发数量爆发的事件的性质
  我们发现,由群体性事件,批评审查者和色情事件引发的数量爆发会遭到审查,但是由讨论政府政策和其他新闻引发的发帖量增加则不会。
  我们在下一节讨论国家批评论。这里,我们提出针对本次调查结果的三个结论。
   首先来看图3的B列,其审查强度的分布与A列一样均匀,并按时间类型显示。结果很明显:与群体性事件、批评审查者和色情(分别是红、橘红、黄色)相关的 事件基本都在坐标系的右边,表明审查强度很高,而关于政策和新闻的事件基本都在坐标系的左边(分别是蓝、紫色)。群体性事件的审查强度平均是27%,而政 策和新闻的平均审查强度分别是1%和4%。[横坐标(删除率)基本上数值很小,约为3-5%,上下波动幅度不高。]
   第二,我们列出审查强度最高和最低的事件案例,在图4用相同的颜色标注。群体性事件可能性最高的事件包括内蒙古牧民被运煤车撞死事件、增城孕妇遭保安殴 打引发民工骚乱事件、艾未未被捕、抚州征地爆炸案。明显的是,“群体性事件可能性”最高的事件根本与政治无关:日本地震和核电厂事故发生后,浙江出现谣 言,称碘盐可以抵御核辐射,于是民众抢购食盐。这个谣言没有科学依据,也和国家无关,但却遭到了严格的审查;原因大概是政府认为在某些地区出现了群体性的 情绪失控。实际上,我们发现地方网站对碘盐谣言审查要比全国性网站来得严格。[在图4的两个相关事件中,社交媒体的新闻和讨论中经常会添加色情内容,以吸 引眼球。]

   与我们的“潜在群体性事件防范论”结论一致的是,一些审查最严格的事件不是对国家政策的批评或讨论,而是可能引发群体聚集的地方性群体表达自己的看法。 一个例子是,温州的一个当地网站出现了一些网贴,声援环保人士陈飞。陈飞力挺用于保护当地环境的环保彩票。虽然陈飞受到了中央政府的支持,但是,所有关于 他的网贴都被当地网站删除了,原因有可能是他过去组织过群体性活动。2000年后,陈飞建立了绿色环保志愿者协会,拥有超过400名注册会员,创立了中国 首个“无塑料袋村庄”,最终推动了关于使用塑料袋的立法程序。
  另一个例子是关于江苏沭阳儿童铅中毒事件。相关的网络网贴讨论了天能集团的电池厂导致儿童健康状况受污染的事情,医院拒绝向受害儿童父母公布检测报告。2011年1月,沭阳村民在电池厂门前要求解释。审查者绝不容许这类群体性集结,无论它是支持政府或批评政府。
   所有被标记为“可能发生群体性活动”的事件中,事件内的审查比事件外的审查更为密集。另外,平均来看,这些事件比其他事件的审查率要高得多。这些事实与 我们的分析一致,即,审查者会主动搜寻并删除那些与“可能发生群体性活动”事件有关的网贴。不过,我们想进一步分析审查的不同力度:虽然我们已经采取了定 量分析,但显然,“可能发生群体性活动”中的某些事件要比另一些事件敏感性高得多。因此,通过分析个别事件,可以看出,审查程度低的事件,其发生群体性活 动的可能性也较低。
   以下举例分析。动画电影《功夫熊猫2》上映时,关于电影种族歧视的抗议出现了言论的数量爆发,但这导致发生大规模抗议的可能性显然极低。另一个例子是钱 云会事件,这位浙江农民带领村民抗议当地政府征地补偿不公,后来被卡车压死。钱云会遭遇的这两件事都发生在我们调查以前。在我们调查期间,钱云会的遗属为 了争取赔偿又引发了一次热点,但这一事件的网贴数量爆发更为集中、事件本身对无关人员的煽动性却较低。
   最后,我们给出三类事件更为详细的一些例子,其中每一类事件都基于某一话题领域的随机网贴。首先,图5给出了4个例子,一开始都是审查力度很低,然后相 关言论突然出现数量爆发,审查强度也就随之增加。无论是删帖的绝对数量,还是删帖占所有网贴的比例,都是非常高。4张图表(还有其他例子,本文无法一一列 举)的结论很明显:中国政府在言论数量爆发期会加倍投入审查。

   我们进一步分析了(按照Grimmer and King 2011的分析方法)可能发生群体性事件的言论数量爆发期间没有被删除的那些网贴,如图5的a坐标所示,红色区域并没有完全覆盖灰色区域。这些未被删除的 网贴与事件没有直接关系,但恰巧包含了事件话题的敏感词。我们再次发现,审查者在增加审查强度时,操作非常精准,极少误伤。自动分类不可能达到如此高的准 确度。
  第二,我们在表6中给出4个话题,这4个话题都至少导致1个话题数量爆发期,但没有遭到审查。其中包括重大而富有争议性、具有潜在煽动性的话题,计划生育、教育改革、腐败和电价调整,但均与地方性的示威游行无关,所以,审查强度一直非常低。
66
   最后,我们发现,几乎所有的话题都呈现出图5和图6的趋势。两种模式如图7所示。这些话题包括色情内容(坐标a)和对审查者的批评(坐标b)。这些话题 的特点是,6个月内其审查强度始终很高,并且,没有在数量爆发期增加审查强度。美国政客将色情内容视为挑战国家的“道德操守”,中国领导层也将其视为腐蚀 年轻人身心健康的产物,并且是社会不稳定因素之一;总之,必须对其进行审查。
   更令人惊讶的是审查者的“不当行为”:他们允许中国人批评任何一位政治家,但不允许批评审查者自己;允许批评每一项政策,但不允许批评言论审查政策本 身;允许批评每一个项目,但不允许批评他们自己的项目。就算是用中国自己的牵强理由来看,图7所示的结果仍可称得上是惊人之举。
  哪些要删除,哪些无需删除
   我们的最后一项测试是比较删除的网贴和未删除的网贴的内容。“国家批评防范论”认为,批评政府的网贴都会被删除,无论它有没有引发群体性事件的可能性。 相反,“潜在群体性事件防范论”认为,有关群体性事件的网贴都会被删除,无论它是批评或赞扬国家;而那些无关群体性事件的网贴,无论对政府是褒是贬,都不 会被删除。
   为了执行此次大规模测试,我们需要一种自动文本分析手段。因此,我们将Hopkins和King(2010)分析英语的方法应用到汉语文本。这个方法不 需要机器翻译、个别话题分类计算或鉴别每个话题的关键词(当然,免不了会发生错误);其方案只需一小部分的中文文本。我们采用了一系列严格的测试,并获得 高度精确的结果——如同人工阅读和分类一般。我们在附件B中描述这一方法,并列举若干例子。
   就我们的分析而言,我们将网贴内容分为3类:(1)批评政府(2)支持政府(3)与事件无关的报道或事实性的报道。不过,我们对每个类别中的网贴比例没 有兴趣,对删除的网贴和未删除的网贴的比例也没兴趣——那是Hopkins和King的研究方法。我们的方法是,估计并比较每一个类别中被删除的网贴的比 例。因此,我们使用的贝叶斯方法(参见附件2),对Hopkins和King的方法进行改进。
   我们首先分析特定的事件,然后从所有的事件中随机抽取网贴。关于群体性事件,我们精确选择了艾未未被捕、内蒙古抗议、抚州拆迁爆炸事件。图8的坐标 (a)呈现了每一个事件中删除网贴的比例,其中,批评政府的用红色表示,支持政府的用绿色表示;纵坐标是95%置信区间。显而易见,无论网贴支持或反对政 府,删除率都很高,平均是80%。虽然常识认为删帖是为了过滤批评政府的声音,但测试表明,批评政府的网贴的被删概率并不比支持政府的网贴高。这支持了 “群体性事件防范论”结论,并与“国家批评论”相悖。


  我们还从图6中选取了三个主题,进行平行试验。这三个主题都没有导致群体性活动的可能性:计划生育、反腐政策和物价上涨的新闻。结论与我们的预期相符:无论支持或反对政府,相关网贴的删除率都很低,平均约为10%。
   为了检验以上结论的普遍有效性,我们从所有数量爆发的主题中随机选取没有群体性活动可能性的网贴。图9显示的结论与图8一致,群体性活动可能性高的事件 删除率也高,无论网贴是支持还是反对政府,而新闻和政策性事件的网贴删除率较低。同上,支持或反对政府的态度对删除率影响不大,而与群体性活动的关系则很 大。


  结论很清楚:如果网贴牵涉到群体性活动的可能性,那就会被删除;否则就不会被删除。无论网贴支持或反对政府、领导人或政策,都与删除率无关。
  最后,我们列举几个中国社交媒体的网贴内容。首先,我们举出两个无关群体性活动可能性的网贴,虽然网贴内容都批评了政府和领导人。例如,以下网贴直接进行了人身攻击,点名当地政府:
   这是一个漠视生命的市政府[陕西省榆林市]、一个官员横行的市政府、一个没有公正的市政府,一个低级趣味的市政府,一个包二奶的市政府,一个为钱不要脸 的市政府,一个为个权不要人格的市政府,一个没有血性的市政府,一个没有道德底线的市政府,一个出尔反尔的市政府,一个忘恩负义的市政府,一个不要子孙后 代的市政府,一个什么怪事都出的市政府,一个什么的市政府,只要你想到的就有……
  另一位博主尖锐地批评了中国的计划生育政策,同样未被删除:
  可以提倡人民自愿节育,但让人断子绝孙的强制节育,搞30年已是忍辱负重,不能形成路径依赖,将不得已的临时性恶政无限延长……可以毫不夸张地讲,计划生育是农民最痛苦的暴政。虽说是“必要的恶”,却是世界少有,遭到世界舆论的广泛谴责,实在不该以此为豪。
  最后,以下博文尖锐批评中国共产党背弃民主和宪政诺言,提及天安门事件,但也没被删除:
   我一直将中国的近代史视为一场改良与革命的赛跑,在清末的大赛场上,最终革命跑到了头,改良的一切设计,在武昌起义枪声响起后成了废纸。中共的民主宪政 承诺,是抗战结束前开出的远期支票,超过了一个甲子仍未兑现。当今中国社会缺乏诚信,要从毛泽东开始问责。邓小平在80年代提出的政治体制改革,在 “8964”事件后被长期搁置……近年所谓“党主立宪”之说,也是主流学者为维系一党执政地位所做的政治设计。
  这些网贴既非特例,也不反常:我们的数据库中还有几千条负面网贴,包括所谓的敏感主题,例如天安门事件和一党执政,并没有瞒过审查体制。证据表明,审查者无意阻止这些网贴的出现。相反,他们注重删除关于群体性活动可能性的网贴,无论是否牵涉到中国领导人或政府的政策。
  为了强调以上论点,我们给出两个有关群体性事件可能性的网贴,这两个网贴都支持政府,但却很快遭到删除。在抚州爆炸事件中,政府删除了这个网贴,虽然它明确谴责钱明奇,并褒扬政府在动迁过程中的工作:
   爆炸案造成他本人和多名政府工作人员死亡的悲剧,即使钱明奇在微博里所称拆迁造成的个人损失是属实的,我们也应谴责他的极端报复行为……政府在连续出台 保护被拆迁者利益的政府法规,媒体也在为公平对待被拆迁者大声疾呼,各地拆迁补偿款上升速度,大多高于商品房售价上升速度,在不少地方,补偿款已经足以改 变一个家庭的命运。
  另一个例子是下面这个被删的网贴,它同样支持政府。该帖指责当地领导冉建新涉嫌腐败,而他在被警察监禁期间的死亡引发利川游行:
  湖北省巴东县委宣传部都在其官方网站发布新闻通稿称,冉建新在担任利川市都亭办事处常委书记、主任期间,利用职务之便,在征地拆迁、工程发包等事项中为他人谋取利益,收受他人贿赂,涉嫌受贿犯罪。
  结语
  我们提供的新数据和新方法表明了中国网民、中国的言论审查机制以及中国政府关注的网络内容各不相同,还揭示了政府压制信息传播的秘密机制,以及中国领导层的关注点、意图和目标。
   证据表明,中国的领导层允许社交媒体发展,允许对政府、政策、领导人的负面、正面批评。因此,政府的政策有时被职责为非常糟糕,领导人脸面无光,这和民 主国家的民选政客并无二致;不过,他们似乎已经意识到,丢脸不会影响到他们的位子,只要不发生群体性事件——政府以外的权力控制群众的行为。可以说,中国 人在个体上是自由的,但群体上是受控制的。
   解释中国政府这一策略的研究已有很多,我们在此提出一些初步性设想。首先,只要不发生群体性事件,社交媒体就是获取对中国政府和官员的意见的良好渠道。 当然,必须考虑到公众发表意见的成本越来越低,政府也越来越懂得如何满足并缓和公众的情绪。从这个角度来看,目前的模式或许是政府利用社交媒体掌握权力的 最佳手段。例如,Dimitrov(2008)提出,人民如果不再抱怨政府,政府就会垮台;因为,这表明在人民心中,政府已经没有了合法性。同 样,Egorov、Guriev、Sonin(2009)提出,缺少自然资源优势的独裁政府会允许媒体更为自由,以便增强其执政能力。引申开来讲,这与我 们的中国研究遥相呼应,即,容许批评可以增强政府的合法性,巩固政权。Lorentzen(2012)提出了一种规范性模式,威权政府调和媒体自由与言论 审查这两种政策,在减少地方腐败的同时,巩固政权的稳定性。也许,研究规范性模式的学者可以吸收我们的经验性结论,进一步发展他们的理论。
  进一步说,本文的数据引申出研究中国政治、比较政治学的新方法和新思维。就中国研究而言,我们的方法反映了威权政府的弹性、中央-地方关系、次国家层面的政治、国际关系和中国的外交政策。
   通过分析国家层面和地方层面不同的敏感话题,本文表明,在某些领域,地方政府可以独立行事。另外,我们的分析明确地揭露了政府的意图,展现出各级政府的 意图差异。我们分析了社交媒体和言论审查的实际内容,这有助于揭示中国的国际关系和外交政策,例如,民族主义的呈现是否会限制政府的外交活动?最后,中国 的审查机制可以被视为一种建设性机构。Nathan(2003)将其视为威权政府弹性机制的一部分,或可反映中国共产党的体制化和长期执政的秘诀。
   就比较政治学而言,我们的工作可以直接展现国家能力、威权政府的长期执政和执政变化。最近关于阿拉伯之春中的互联网和社交媒体的研究(Ada et al. 2012;Bellin 2012)质疑了这些技术组织群体性活动和扩散地区信息的功能,反而强调这些技术创新对维持威权政府执政的积极作用。Edmond(2012)研究了信息 资源(互联网、社交媒体等)对政权的坏处,而如果政府拥有足够的经济能力,它就可以控制信息资源。互联网和社交媒体的经济规模目前在中国还不大,而中国政 府将言论审查的责任下放到了地方上的互联网经营商,因此,中国能够继续款扩张这一新兴技术的经济规模。中国是一个相对富裕、有弹性的威权国家,审查机制复 杂、有效,它也许是全世界独裁者的关注对象。
   我们分析了中国审查机制的主要目标,揭示了中国网民的关注点、中国政府的意图和目标。虽然我们只分析了不同时间段的85个话题,但这种分析还可以延伸到 更广泛的领域。在传统媒体没有提供任何线索的情况下,审查行为或可预示政府在线下的下一步行动,为政府政策和商业活动的学术研究和实践提供启发。
  我们构建了计算机辅助文本分析法,有效分析了中文文本。这些方法还可推广至其他领域。我们设想,我们的数据手机程序、文本分析手段、总体分析和经验策略可以推广至世界其他压制言论自由的地域。
  附录C【附录A罗列敏感词列表、附录B介绍计算方法,此处略——译者注】
   如果说审查行为是衡量政府意图和意愿的一种手段,那么,考察审查行为就可以为预测政府行为提供一些线索。我们就此进行测试。不过,中国政府的大部分行为 都是针对外部事件的评论或反应,都可以事先预测。困难的是那些无法预测的事例,我们在此挑出其中与群体性活动可能性有关的事例进行研究。
   我们本来没有就此专门搜集数据,但根据手头的数据,仍可进行间接的验证。我们采用了广为流传的数据控制手段 (King and Zeng 2001)。首先,我们抽取与群体性活动可能性有关的所有真实事例,然后剔除那些容易被预测的事例。于是,便剩下了两个事件,这两个事件都不能事先预 测:2011年4月3日艾未未被捕,以及2011年6月25日与越南的南海争端。我们分析这两个事例,并证明,政府的反应可以从审查行为的数据中预测出 来。另外,正当本文于2012年初收尾之际,中国发生了薄熙来事件,这一件事件被认为“是数十年来振动中国政坛的最大丑闻” (Branigan 2012),并将“困扰下一代中国领导人” (Economy 2012)。碰巧,我们的数据监控还没结束。因此,这成为了我们研究的第三个事例。
   接着,我们要确定审查行为能够提前多久预测 ( 突发 ) 事件。时间间隔必须足够长,以显示审查行为的存在;但也不能太长,以防数据波动淹没了审查者的干预迹象。我们选择5天为合适的间隔,这不一定准确,但不影 响我们此处的数据。因此,我们架设中国当局预先5天采取行动,并且在审查模式上可以体现出这一迹象。

   在图11的坐标a中,我们来观察艾未未被捕事件。纵坐标是被删除的网贴比例。灰色区域是从(我们假设的)采取行动的日期到艾未未真正被捕的日期。我们从 新闻媒体中无法得知艾未未即将被捕。蓝色线段是实际的审查力度,红色线段是根据此前的数据推算出来的趋势。4月3日红线与蓝线的差距是我们的粗略估计;如 果政府没有特别行动,实际的审查力度应该是将近10%;但最终的实际审查力度是预估值的两倍。为了证明这不是偶然现象,我们选取了任意5天间隔,均没有出 现如上反常现象。
  我们用这个方法再来验证图11坐标b的南海事件。南海的石油勘探导致北京与河内关系持续紧张,审查率暴增。根据媒体报道,冲突一直持续,直到6月25日两国突然达成和平协议。我们再度随机采样,证明这一反常现象绝非偶然。
   最后,我们来看薄熙来事件。薄熙来的父亲是中共八大元老之一。薄熙来被认为是2012年秋季召开的中共十八大的新一届常委热门人选。可是,他的政治生命 却突然终止。2012年2月6日,王立军逃入成都的美领馆。四天前,王立军刚被薄熙来免职。王立军揭发了薄熙来参与谋杀英国公民的秘密,然后,薄熙来被免 职。由于事件反常地揭示了中共高层内部的分歧,我们专门来分析2月2日王立军被薄熙来免职的事件。据称,王立军与薄熙来就海伍德之死发生了冲突,引发薄熙 来采取行动。
  我们的分析如图11坐标c所示,王立军被免职以前的审查力度趋势与实际的审查力度差距很大。王被免职以前,媒体没有任何透露的消息。同样,我们做了验证测试,证明这不是偶然现象。
  这三个事例都证明了我们的结论,但我们是事后分析,且只有这三个例子,所以,还需要对审查率和可预测性之间的做进一步研究。

http://gking.harvard.edu/