从百度贴吧过滤词分析中国对网络言论的规管

2011-01-13





  百度贴吧依托百度的中文搜索功能,以其便捷易用、开放度高聚集了大量用户,经过近7年的发展已经成为最大的中文交流社区。与中国的其他网站一样,百度贴吧对用户的发文操作进行过滤审核,以此监控用户的言论。贴吧设置有过滤机制,采用过滤词把关发贴过程。本文对过滤词进行归类,发现贴吧过滤的内容范围较大,涵盖了政治类、突发事件类、不良信息类以及邪教、军事等方面。对于网络言论规管,本文认为中国应该借鉴国外经验,增加过滤透明度,加强从业者自我约束,制定具备可操作性的规范,明确法律规管条文。

百度贴吧及其发展   
  百度贴吧于2003年11月推出,「是一种基于关键词的主题交流社区」。2003年11月25日,一个题为「百度将升级搜索引擎,具备开放共享的功能」的贴子在贴吧的搜索引擎吧发表,百度贴吧开始试运行。同年12月,百度贴吧正式投入使用。2004年第一个「超级女声吧」创建,此后多个超女吧相继创建;次年8月份随着赛事白热化,贴吧流量也相应激增,超女前三甲的贴吧发贴量超过1000万。经过7年的发展,百度贴吧现有20多万个贴吧,每天的活跃用户数在2000万左右,日均流量达2.5亿人次。   

  百度贴吧里,每个主题贴吧以一个关键词作为讨论主题,各个贴吧类似于是每个关键词的小型论坛。用户可以通过搜索关键词找到或创建相关主题的贴吧,发布、寻找信息和资料,认识共同的兴趣爱好者。   

  贴吧的使用方法并不复杂。对于普通用户来说,在贴吧首页的搜索框中输入关键词,贴吧的默认选择是「进入贴吧」,点击「百度一下」,就立即可以进入到与搜索关键词一致的主题贴吧中。如果该关键词的主题贴吧存在,可以立即参与讨论;如果不存在,可以申请创建贴吧。如果用户想管理某个贴吧,则可发出申请,经系统审核通过就可成为吧主,可以对贴子进行置顶、编辑、删除等操作,甚至封禁用户和IP。

  除了一些有设置权限的贴吧和俱乐部外,一般的贴吧均可供任何用户以游客身份浏览、发表、回覆贴子,无需注册、登录;有的贴吧会根据吧主的意愿决定是否允许用户匿名发贴。但2010年11月18日,贴吧开发团队发出公告,在全部贴吧实行登录发贴,用匿名发贴代替游客身份发贴留言。   

  百度贴吧最大的特点在于,结合百度搜索技术,完全由用户驱动,用户自由创立、自主管理贴吧,达到分享交流的目的。   

  贴吧作为百度中文搜索技术的衍生产品,其准确度和便利性得益于成熟的搜索技术而大大增强,贴吧的主题可以准确快速被搜索到。   

  百度贴吧官方首页显示,贴吧主题按内容共分为明星人物、动漫、影视等17大类常驻目录,根据时事热点会临时推出相关贴吧,比如2010年4月14日玉树地震发生后,贴吧新增玉树地震条目;下有170小类,共90783个贴吧。这意味着用户将有9多万个主题可以参与讨论,而普通论坛是无法形成如此大的规模的。

百度贴吧过滤词的应用情况   
  为了管理和限制用户发贴,使贴吧贴子内容更符合中国互联网法律法规的规定,发贴需要经过百度的过滤系统的审核和人工审核。   

  百度贴吧协议从贴吧用户的权利义务、权利归属、处罚规则三个方面对贴吧用户进行规范。协议第二章「贴吧用户」中声明用户享有言论自由的权利;紧接着规定了12个类别,声明不准含有任一类别信息的贴子出现。如有用户涉及发布含有禁止信息的贴子,贴吧将按协议第四章「处罚规则」处理,用户有可能会被删贴、关闭部分权限,甚至帐号被停用或被删除。但协议中并没有明确表示会用什么方式对禁止的内容进行审查,也没有详细说明哪些字词会违规。据百度贴吧总经理称,百度贴吧每天删贴达100万,主要是删除广告贴。   

  实际操作时,贴吧通过设置过滤词和人工审核作为审核贴子的手段,其中过滤词审核对于贴子的事先审核非常有效。贴吧过滤词以两种方式出现,一种是发贴时对贴子内容进行的过滤动作,另外一种是过滤词无法成为贴吧的讨论主题。前一种方式中,用户发表的贴子内容一旦与事先设置的过滤词匹配得上,贴子的发表操作将被迫中断,出现贴子无法发表的情况,网页提示:「请不要发表含有不适当内容的留言」或者「请不要发表广告贴。」后一种方式则会出现「抱歉,根据相关法律法规和政策,本吧暂不开放」或者「贴吧不存在」或者只能浏览不能发贴的情况。

百度贴吧过滤词分类   
  百度贴吧过滤词数量众多,每过一段时间贴吧系统管理者就会更新过滤词,而且贴吧没有公布这些过滤词。因此本文无法把所有的过滤词罗列出来加以统计。本文将借助「百度贴吧和谐测试器」进行过滤词测试,归纳过滤词的类别,总结贴吧对贴子哪些方面的内容有所限制。

1. 政治类   
  政治类内容是中国网络言论中相当敏感的内容之一,中国特殊的体制和国情是造成这种现象的主要因素。中国的网络监管严格监控此类内容,因此网站管理者也会对此类词语把关,在百度贴吧的过滤词中,政治类过滤词占的比例很大。   

  本文将贴吧的政治类过滤词分为五个小类(表4-1),包括分裂类、煽动仇恨类、反动类、历史事件类、人物类,其中除了分裂类和煽动仇恨类能找到相关的法律依据外,另外三类都没有说明会遭到过滤的缘由。   

  反动类过滤词主要是指质疑当前中国体制,批评、反对现今政治情况的一类词语,有危及到政权的嫌疑。贴吧对明显提及民主和共产党的相关词语进行过滤。由于2010年诺贝尔和平奖颁给因煽动颠覆国家政权罪而服刑的「异见人士」刘晓波,有关其一切言论和消息的发布监控较为严格。

2. 突发事件类   
  突发事件类过滤词指新近发生的消息或新闻中出现的重大的事件,这些事件容易引起网络用户的关注,经过用户的「包装」后,其相应的词语纷纷出现。这些事件经常涉及民生问题并牵涉到政府部门,用户会以此批评社会不公现象和政府的处理不当,在网络上有一呼百应的力量,容易引起不安的情绪,可能影响社会安定,因此这类词语属于贴吧过滤对象。而另一方面,因为突发事件具有时效性,在事件发生的时期内是重点过滤对象,一旦事件告一段落,贴吧将解除部分事件相关词语的过滤。   

  本文将突发事件类过滤词分为社会、动乱、罪案、自杀、灾难等五类(表4-2)。

3. 不良信息类  
  网络上的不良信息是网络规管的难点之一,不仅数量多,且呈多元化,除了包含有暴力、色情类等「低俗内容」外,还存在赌博、毒品、非法交易等信息,既违反法律又违反道德。《互联网信息服务管理办法》中明确禁止互联网传播涉及暴力、色情、赌博、毒品等不良信息。根据这一规定,贴吧对不良信息类的词语进行审核过滤。   

  本文把不良信息类过滤词分为五类,分别是暴力类、色情类、赌博类、毒品类、非法交易类(表4-3)。

4. 其他类别  
  除了前文提到的政治类、突发事件类、不良信息类,还有一些过滤词同样值得注意。本文将这些过滤词归类为邪教类、新闻媒体类、军事泄密类、转换类(表4-4)。其中,替换类过滤词是指用户为了规避过滤系统审查,通过谐音、拼音、英文等方法用来替换掉原本汉字描述的词语。不过,贴吧过滤系统更新频繁,将此类用来替换的词语也加入过滤词队列中。

过滤机制的地位和副作用
  截至2009年底,中国用户规模达到3.84亿人,互联网普及率为28.9%。中国网络相当于一个拥有3.82亿人的虚拟社会。   

  过滤机制以技术手段省去大量人工规管工作,并且在不良信息和言论开始传播之前就将其拦截过滤,效率高而且具有事先防范功能,是中国网络言论规管的有效手段。   

  过滤机制是国家管理互联网的有力工具,然而过滤机制的使用过程中各种对其争议的声音不绝于耳,尤其公众十分警惕过滤机制侵犯了言论自由。相对其他国家而言,中国的过滤机制更为严格,在方便规管网络言论的同时也带来不少的负面影响,例如:繁多的过滤词设置使得网络使用效率降低,容易发生「误杀」情况、过滤词信息不透明不公开、过滤词繁多,用户有兴趣讨论的话题受到限制、封锁过多的网页,限制了用户获取信息的权利等。
下载
相关文章 / Related Articles

「中国式公关」

刘书贤
2021-03-31

香港学生反修例运动中网络关系解体的实证调查

宋昭勋、吴静、胡欣立
2021-01-11

中国传媒上的「奉劝」

钱钢
2020-05-15