数据新闻的实践

2013-02-05

  如今是数据时代。

  天文台说刚过去的大除夕是二十九年来最寒冷的大除夕,因为他们比较了二十九年来的气温纪录。

  政府公布新政策时,往往说因有数据支持。大家听了都会问:是什么数据?政府不如公开那些数据,好让大家分析,才决定是否支持这政策。

  而很多新闻,也是类似这些数据的分析结果。

  「新闻的未来,是分析数据。」发明互联网的Tim Berners-Lee爵士三年前这样描划新闻未来的发展方向。他发表此番言论之前数天,英国政府公开了政府部门、每项超过25000英镑的开支纪录,他有感而发说:记者需要对大量数据有敏锐的触觉,及懂得利用不同工具去分析这些数据,让公众清楚了解这个国家、政府发生什么事。

  而这数年,外国很多大学及训练记者组织都举办课程,培训记者分析数据,而数据新闻学(Data Journalism)亦成为新闻学的新趋势。

港大数据新闻研究项目
  我自去年初,参与香港大学新闻及传媒研究中心有关数据新闻的研究项目(http://datalab.jmsc.hku.hk),我们开发了给公众使用有关土地规划的资料库,也做了几个新闻报导。过程中,我深深感受到,数据新闻不单属于新闻行业或新闻专业培训,而是全民社会的,因为涉及政府的透明度、向民众问责,是大家的知情权,此乃为重要的公民权利。

  港大的数据新闻研究项目,首个阶段是有关香港的土地资源如何使用,土地资源兹事体大,影响经济、政治、民生,也是发掘新闻的主要泉源。这方面的资料,分布几个政府部门及法定委员会,包括城市规划委员会、地政总署及屋宇署,大部份都是公开的,大家都可以上网查看。

  我在一零年三月就在本刊提及城规会纪录的参考价值:

  「有很多公共纪录,都和你拥有的、计划购置的、及居住的房地产,息息相关,关系到的是楼价、租金及居住环境。原来所有房地产都有其指定的用途,好像住宅、酒店、餐厅、写字楼等等,可建楼层高度也有规定,假如对面大厦的业主要改建起多几层楼,或你楼下邻居要(合法地)把某单位由住宅改为骨灰龛,或有人要把新界买少见少的鱼塘填平,改作货柜车场,其实公众都可以预先知道,并有权就此提出意见。

  「以上情况,业主都必要向城市规划委员会申请。城规会内部除了有讨论外,还需谘询公众,收集意见。谘询期间,业主向城规会提出申请的主要文件,包括图则,公众都可查阅,而公众所提出的意见概要,也是公开的。查询这些资料,公众可以前往城规会的办事处,而浏览城规会的网页(www.tpb.gov.hk),就更方便,过去廿年的申请纪录,也可找到。」

  可是,城规会的纪录都以pdf存档,档案以「阅读文件」为主,例如,某一申请个案的几页文件,大家都可以读到及下载到。但若果我们想了解某一个区在特定期间内总共有多少个申请个案、申请类别是什么、某类别的成功率等,或各区申请情况的比较,只靠那些一页页的文件,我们就要人手逐一数算和纪录,大家可以想像,过程费时又会有错漏。

pdf档 Vs csv档
  于是我们向城规会要求索取申请个案资料的另一个版本:CSV,即是申请个案的资料,以试算表excel存档,好像地区、申请类别、城规会决议、决议日期等等,变成一个一个栏目,而每项申请个案的资料,就按栏目填在表格上。

  如果大家对以上两个档案形式不太清楚,不妨看看自己的网上银行信用咭账单,一些银行提供两种账单档案给客户查阅,一个是pdf,另一是csv,pdf档就像一份份印刷文件,上面的资料你不可以移动;而csv档就是一份试算表表格,你可以利用试算表功能计算所有签账的总和、平均值、中位数等,你也可以把全年所有餐厅的签账储存在一个新试算表上,再利用运算功能,你就可以计算到全年你花在餐厅的消费是多少。

  而对于我们调查过去二零零九年一月至零三年三月全港共五千多个的规划申请个案,有了这个试算表档,分析就容易很多了。我们抽出当中涉及农地改变用途的七百多个申请个案,之后,我们仔细研究那几百个个案,再运用试算表的筛选、排序及枢纽分析表(pivot table)功能,就可得出以下几个重要分析结果:

1. 最多申请个案的首五个地区(括号内为数目):锦田南(117)、龙跃头及军地南(84)、坪輋及打鼓岭(79)、八乡(68)、锦田北(64)。

2. 申请最多的土地用途(括号内为数目):新界豁免管制屋宇(279)、露天存放(178)、停车场(37)、康乐场所(37)、训练教育场所(33);露天存放中,存放车辆最多(66)。

3. 获批准的规划许可所申请的土地用途,地盘占地面积的五大:露天存放(161975平方米)、康乐场所(86196平方米)、屋宇(52894平方米)、停车场(35692平方米)、训练教育(19940平方米)。

地图定位及搜索
  我们还把申请个案定位在地图上,加上搜索功能,大家就可在这个数据库看到申请个案的分布,也可以按自己的选择,搜索每区或每种土地用途的数目和分布。

  除了城规会纪录,屋宇署也提供很多有用资料,每月该署会在网上(www.bd.gov.hk)发布多项资料,其中有三项跟新楼地盘有关:获批图则、获批施工同意书及获发入伙纸的数量、地盘地址、楼宇类别及地盘申请人及建筑师等。

  大家经常走过一些地盘,但你未必知道地盘会建什么或者发展商是谁,屋宇署公布的资料,本来是可以为大家解答以上问题,但问题是资料也是pdf档,且是按署方批发文件的日期排列,不是按分区或分楼宇种类,对民众查阅并不方便。

  港大的研究项目,于是把资料转换为可运算数据,及在地图定位,目的是方便民众按自己选择查阅。

政府公开资料政策
  正如上述所言,能否从资料中发掘新闻,或者让民众了解土地资源如何使用,很大程度视乎那些资料是否可用电脑运算及分析的,因为我们面对的,不是几十个数据那么简单,而往往是数以千或万计的,若我们要动手计算,或者把资料自行输入在电脑运算表格,大费周章之余,又难免有错漏。

  即使有不少网上免费工具,可以把pdf档案转换为文字档或者试算表,也并不是全部稳妥。

  因此,最好当然是资料本身是可用电脑运算形式。目前政府很多部门都在网上上载很多资料供市民参考,但大多数是以pdf或类似的档案,大家在网上阅读、列印是可以的,但要运算、分析,就很困难。

  我曾问某些政府部门:在他们网站的一些资料(以pdf档形式),可否给我相同资料的数据档?负责有关方面的官员知我是为研究而来,都答应给我。而以我所了解,部门其实早已有这些数据档,所以他们给我一份,他们不用花很多时间和资源。

  这一点也不出奇,正如我们大家一样,政府用试算表储存数据,其实是普遍不过的事,问题是,为何政府不把这形式的数据放在网站,好让公众(包括记者在内)可以使用?

  申诉专员公署上月宣布,会主动展开调查公开资料守则及政府管理档案的手法,我期望无论是政府部门,或是申诉专员公署,研究那些资料需要公开给民众之外,同时要兼顾公开资料的形式,是否便利民众使用的。

媒体人手及资源配合
  媒体要多做些数据新闻项目,除了有赖政府是否发放可运算的形式的数据外,媒体还要在人手及资源上,作出一些配合,以下是我的三个建议:

一. 电脑运算专才
  虽然很多人普遍对电脑运算软件已有一定认识,但当中一些巧妙的运算、筛选、分类、排序等,并不是三时两刻就可掌握及好好运用,我去年初参与的「美国调查报导记者及编辑」(Investigative Reporters and Editors,简称IRE)举行的全国电脑辅助调查新闻大会,四天的会期中有多场excel训练班,每班都坐满人,廿多岁初出道的、至五、六十岁的大记者、大编辑都在课堂上专心学用excel。

  所以要从事新闻专业新领域的记者,需在电脑运算软件方面,下点功夫,依我及其他数据新闻记者的经验,学好excel是最基本的,而Google fusion tables包含更多运算功能兼备地图定位,能够学好,当然最好。

  媒体主管也可以聘用这方面的专才,和记者合作,各施所长。同时,媒体的网页也需要重新设计,提供更多可跟读者互动的搜索、地图等介面,所以有关电脑和网页的专才,未来媒体不可缺乏。

  在进一步,新闻工作也需要编程员 (programmer)懂得挖掘和处理大量的数据,我的研究团队就有一位编程员,把政府的.pdf文档改编成为可供电脑软件自动化分析的档案。

  我认识有大学生看准了行业大趋势,而选择了读新闻及电脑双学位。

二. 地理资讯专才
  虽然现在流行的网上及手机地图搜索,几乎没盲点,但很多没开发的地方,没有让人识别的地标,最强劲的地图搜索器也无法准确把要找的地方定位。以香港为例,新界农村及离岛就有不少地图盲点。

  我进行港大的数据项目时,一名同事是地理资讯系统(Geographical Information Service)的专业人士,她对获取国际通用的经纬度或坐标,有娴熟的技巧及充沛的资源,对我们把分散在很多不知名地方的农地规划申请个案定位,提供了很重要的解决方案。

  很多新闻和地区结合,往往会是另一条大新闻的头绪,例如,为什么大埔汀角的农地改建村屋的申请个案最多受城规会否决。因此,地理资讯方面的专才,也是未来新闻发展的重要部份。

三. 记者的思考模式
  有人爆料,当然是做大新闻的方法,但记者其实也可以从资料中找出一些趋势、地区或时间上的分布,例如,某些案件多数会在某地区或者某便利店外发生,这已是新闻,再配合记者采访,例如访问警察,新闻就更深入。

 记者应视资料和数据是消息源,是提供新闻的重要线索。
下载
相关文章 / Related Articles

香港学生反修例运动中网络关系解体的实证调查

宋昭勋、吴静、胡欣立
2021-01-11

香港财经新闻教育模式

宋昭勋、吴静、赵应春
2016-11-24