拯救人类文明的纪录(Ⅱ)数码资讯保存的计划与实践

2004-04-15
互联网资讯以几何级数急速膨胀。
上期谈到:愈来愈多创作文本以数码格式存在,但因为科技推陈出新,储存这些档案的载体和设备 (如磁碟、磁带、磁碟机等) 的寿命却不断缩短。新应用软件的出现和迅速普及,不但淘汰了从前的软件,也令已经被妥当储存的数据和文档无法被阅读。

存在于互联网上的信息,情况也不乐观。万维网浏览器的标签功能,虽然可让我们记录网上一些精彩文章、图片、参考数据库等的网址,但却没有人能保证这些信息将永远存在:资料被更新,网站结束经营等问题,往往令有价值的信息从此消失。至于通过检索工具 (search engine) 找寻资料,也并非无懈可击,互联网上充斥着大量垃圾资讯和缺乏规范的索引,每每令高质素的信息成为沧海遗珠。

「数码资讯保存」计划是千头万绪的工作,执行上必然会困难重重。我们试就六个关键性的问题提供一些分析:

(一) 整体计划应由什么机构发起?

国内外有些「数码资讯保存」工程是由个别部门、兴趣小组或教授利用一次性拨款成立的独立项目,由于缺乏持续及全面的支持,往往在收录了一定信息量后便终止,无以为继。要贯彻保存工作,我们必须把它视作保存整体民族文化和知识的重任、跨行业跨机构的文化工程。最有效的模式是由政府牵头统筹,再配合政策、资源和法律方面的支持和保障。各相关单位,如图书馆、出版商、档案馆、资讯提供商、大学及专业组织等也应分担责任。

此外,教育大众认识「数码资讯保存」的重要性,鼓励开办课程,培育数码资讯保存的专业人材,政府应是责无旁贷的。

(二) 应该保存什么资讯?怎样作出挑选?

单就互联网而言,网内信息量巨大,并以几何级数急速膨胀,即使只选择保存某一类别或来自某一地区的信息,也是一项艰巨的工作。目前业者普遍采用两种方案:

(1)「全域式搜集」(whole domain harvest)适用于互联网内资讯。项目人员利用「网络资源发掘系统」,定期及自动地把整个网域以及其连结的资讯下载储存。它的优点是节省分类和筛选所需的人力,但却无法把重要的资讯从垃圾信息中分辨出来,影响日后处理和搜寻的效率。

(2)「选择性保存」(selective archive)相对而言为较多项目采用。方法是把数码资讯分门别类,并制订详细选择指引,按缓急次序搜集保存。澳洲PANDORA计划所采用的SCOAP选择指引,就把与大众有关的政府出版物、大学的研究成果和刊物、会议论文、电子期刊,及如悉尼奥运会等专题网站,列为优先保存的资讯。当然,选择过程中牵涉个人主观判断,部份资讯流失是难以避免的。两种方案各有利弊,策划者须认清计划的目标,平衡编目人手,系统容量,以及日后用户搜寻的效率等因素。

(三) 如何征集藏品?

无论是学术论文、新闻报导,还是音乐创作、活动照片,要从创作者和版权持有人手上取得作品,并进行储存甚至公开分享,绝非一件容易的事。我们建议不妨以「名」和「利」作吸引。

数码资讯保存计划必须拥有很高的社会形像,标榜高素质的藏品,并由政府或具规模的机构牵头,令公众认识计划的文化意义和使命。只要被收录的藏品与优质创作划上等号,将不难取得创作者的认同,主动提供内容。当然有关计划也须要制订严紧的挑选指引,确保被收录的作品具相当价值。若计划启动时能伙拍一些知名的出版商及创作者,贡献大量作品,则更能提升它的形像和号召力。

另外,为藏品资料建立数据库,以规范方式编目,并与国际大型索引服务联网,将有利于藏品为世界各地用户认识,提高创作者和出版商的知名度。虽然大部份保存计划均鼓励无偿共享藏品,但亦可按实际情况考虑收费,如按月或以阅读次数征收,为版权拥有者创造一点收入。

(四) 长期保存数码资讯的策略

科技发展日新月异,但数码资讯载体的生命周期却不断缩短。今天我们把资讯储存起来,没多久便可能因为硬件或软件过时,无法再次阅读。有些人因此提出回归原始:索性把数码资讯列印在纸张上,或以微缩胶片保存,但这种做法占用空间和不利于电脑检索;也有人建议用最简单的ASCII源码储存,但这样做却无法保留资讯的外观格式;而更为前卫的主张是设立类似电脑博物馆的处理中心,保存所有年代的软硬件,供公众阅读从前的内容,但以软硬件发展的速度和变化看来,这类中心能保存多少设备?要设立多少个中心?都不是容易解决的问题。

为省却博物馆式的投资,如CAMiLEON等项目则致力以仿真技术 (Emulation) 保存资讯的外貌及格式。方法是在新环境下开发软件,模拟过往的操作系统、内容编写程式和硬体,从而读取以前的档案格式。

现时较多业者采纳的方案,是同时进行「格式转移」(migration) 和「载体更新」(refreshing) :前者是把档案适时地转换至新一代的软件格式,避免因软件过时而无法阅读;后者是把档案定时复写至最新的硬件载体上,以防硬件读写设备因过时被淘汰。当然,要有效执行格式转移和载体更新,必须准确掌握软硬件的市场情况和发展趋势。

(五) 怎样共享资讯?

藏品是否让公众分享?检索资讯又是否便捷?是评估「数码资讯保存」工程成效的一项重要指标。利用互联网共享资讯是大势所趋,符合公众期望,已是不争的事实。但优质的保存计划,跟坊间的文字和图片网站有什么分别呢?其中一个特点是前者配备极为规范和丰富的诠释数据(或称元数据,metadata)。

纪录数码资讯藏品的数据库,必须做到规范化、可容性高、能兼容其他系统等几个要求,让系统可为所有同类藏品编目,并与其他系统互换和共享资料。而为藏品编目(即进行人工分类和描述),则有赖规范化的诠释数据(又称「数据的数据」,data about data),例如纪录资讯的来源、标题、作者、创作日期、出版商、版权权限、主题等,极其细致地记录藏品的特性。

随着互联网商贸蓬勃发展,世界各地不少半官方机构、图书馆联盟、业界组织等,均已经为多种网上资源编制相当精细的诠释资料国际标准,如 Dublin Core (Dublin Metadata Core Element Set)、IAFA/WHOIS++ Templates (Internet Anonymous FTP Archive)、LDIF (LDAP Data Interchange format)、SOIF(Summary Object Interchange Format) 及 URCs (Uniform Resource Characteristics/Citations) 等,务求不同应用系统和数据库能相互兼容共享,有志启动保存工程者实在无须也不应该重新编制。

(六) 如何保障藏品拥有人的权益?

数码资讯藏品跟博物馆的藏品不同,后者存放在馆里让公众欣赏,无损馆方或借出者的拥有权;但前者存放在网络上,公众在阅读、收听或浏览的过程中,同时会将藏品转移到他们的电脑上,拷贝不但完整,系统也不一定能够确定下载者的身份。保障收藏品提供者的权益,往往是数码资讯保存计划中最棘手的题目。若处理不当,令提供者却步,整个计划便会告吹。

版权拥有人的权益,与知识传播必须自由开放的理念,本来就存在着先天性的矛盾。为平衡两者的需要,密不透风的版权制度通常都会引入为教育和图书馆而设的「合理使用」(Fair use)条款,香港的︽版权条例》就有这样一个空间。遗憾的是,目前能够成功实施的就只有「非牟利教育机构影印印刷作品指引」,它的名称已说明了其局限性。「指引」只适用于为教学需要而复印在印刷媒体上「合理范围」的文学、戏剧、音乐和艺术作品。至于知识产权署就非牟利教育机构以电子方式复制及分发作品制订指引的工作,则因为涉及太多版权拥有集团(如出版、音乐、图像、电影、电视等)和互联网业务的庞大潜在利益等原因,进展并不理想。笔者认为,纵使版权问题艰巨,也不应该把数码资讯保存的目标搁置。只要放弃开放全面无偿使用,我们还是可以把控制阅读权限与建立资讯保存数据库两项工作清楚分开的。以下是几个可考虑的方案:

(1)藏品可交由「数码权限管理系统」(Digital Rights Management, DRM)管理,让版权拥有人设定不同使用者的权限(如只允许已付费者读取内容)。当然,为藏品加上数码水印 (watermark),也能收阻吓抄袭之效。

(2)如版权拥有人抗拒共享内容,也可考虑只收录描述藏品和藏品现时所在位置(无论是网域地址或任何联络办法)的诠释数据,而不收录内容。这仍然能让公众知道藏品的存在、它的特性,以及获取内容的途径。

(3)倘若版权拥有人仍然有所顾忌,可鼓励他们或有关行业的商会自行发起数码资讯保存运动,让他们自己厘定使用准则。政府则可扮演协调角色,提供顾问服务和技术支援。

周详计划共同实践

数码资讯保存所牵涉的问题既广且深,是一项具挑战又不容易做好的工作。总的来说,一份周详的计划、深入了解并锁定保存的目标、不要把收集的范围订得过大,并采取先易后难的政策,是重要的第一步。项目执行者还应进行适当的推广,尽量取得各方的共识和支持,再配合相关藏品的专家论证、诠释数据和系统设计等技术工作,成功应是可指望的。

就让我们一起认定目标,努力为保存属于本地的文化和创作共同实践。
相关文章 / Related Articles

ICT Use at Home and Telecommuting Practices in Hong Kong

Louis Leung
Renwen Zhang
2016-07-25

数码广播 七年之痒

林永君
2014-11-13