古籍数字化的保真问题

【摘要】 保真问题是在古籍数字化过程中,业内专家面临解决数字化古籍使用者所关心的首要问题。本文从实践出发,探讨了数字化过程中的古籍载体转换以及古籍发布形式两个环节上面临的保真问题,并提出了解决保真问题的新思路。

【关键词】 古籍数字化 保真

古籍数字化保真问题分为两方面,一方面要客观地反映古籍原貌,另一方面要真实地传递其中蕴涵的知识信息。关于保真问题,业内专家进行了多方面的探索和实践,但目前古籍数字化保真工作仍未完全摆脱机械性的束缚和技术依赖的误区。本文在众多专家研究成果的基础上,尝试提出新的解决思路,希望能为古籍数字化保真工作提供有益的启示。

古籍数字化保真问题的由来。

历史的变迁、地域的差异、传抄刊刻过程中的讹误,以及人为地增删篡改,都给后人阅读古籍造成了障碍,因此书非校不能读也。通过校勘训诂修正错讹,还原古籍中所要传达的真实信息,同时忠实地记录下古籍原来的面貌,以供后人进一步研究甄别,这种校勘训诂的严谨态度,尤以清代学者著称。而且这一传统一直影响到当代的古籍整理工作,古籍数字化载体的优势为古籍保真提供了更好的解决方案,同时也带来了新的问题,这就是今天古籍数字化保真问题的由来。

古籍数字化保真的现状。

古籍数字化保真问题,突出体现在古籍载体转换数字化古籍发布两个环节

1.古籍载体转换环节保真问题

古籍数字化工作的第一步是完成传统载体数字化载体转换,这一工作的中心环节就是实现汉字的数字图形向数字字符的映射。然而古籍中异体、避讳、通假、俗字、繁体等文字现象,以及传抄刊刻过程中的错讹,造成大量非标准汉字的存在,给这一过程造成了极大的困难。目前对于这一问题的处理出现了以下两种倾向。

转换过程过于机械。比如古籍中的异写字:“半”上的两点或作八,“疽”字下的且或作旦,再如古籍中的缺笔避讳字:“通”缺中间一竖,“丘”缺中间一竖等。对于这种字形上稍有变化的字都要求反映在数字字符上。陈力先生在国家图书馆的古籍数字化工作中就发现,如果按照这种“依样画葫芦”的做法,即使Unicode字符集扩展到十万字以上也不能完全满足这种机械性的古籍数字化的需求。更重要的是,这种机械性的保真将影响到检索的可信度和精度,并造成数据库在开放、共享方面的困难。因为使用者在检索时并不清楚某部书中某字的具体写法,甚至一部书中同样的字也可能有许多种变体[1]。

另外古籍中的通假字,只有具备相关专业知识的专家才有能力甄别,比如:《素问·痹论》“凡痹之类,逢寒则虫,逢热则纵”。本句中,“虫”通“痋”,亦即“疼”字。如果照搬原文,直接转换为“虫”字,那么普通读者读到此处时仍然会是一头雾水。

还有古籍本身的错误,比如:乾隆集思堂本《尚论后篇》“在太阳则寒伤管之症”,“管”字实为“营”字的讹误。“大不后,六、七日不大便”,“不”显为“下”字之讹。像这种错误如果不加甄别地转换数字文本中,反而会使原书失真,从而造成不必要的学术困惑,甚至产生新的错误。这样的保真名为负责,实际上是一种失职,是不负责任的表现。

无论古籍中的字写成什么样,甚至不管对错,都要求找到一个与之字形一致的数字字符相对应。技术人员的出发点是好的,但这种机械性的方式显然不是最佳的解决方案,在目前的技术条件下也是不太可能实现的。

与之相对应的是转换过程过于随意。古籍数字化工作中的技术人员往往不太懂古籍,他们生怕改动古籍的一点一画,只好千方百计发挥自己的技术潜能,希望能将古籍原原本本地转换数字文本,而不太考虑读者的实际需要。一旦技术水平达不到完全保真的程度,他们就会做一些“大胆”的变通处理,结果就难免错乱。

技术人员的变通方案无非“形近替换”,但形体近似者未必功能相同,形体差别很大的有时反而功能相同。比如:敦煌医药卷子《灸图法》中有一字,形近“念”(第四笔的横折为横,第五笔的点为横),但此字跟“念”没有任何关系,而是“俞”字写作“愈”后再草写讹变而成[2] 。再如:《四库全书》中“惠”字有三种写法,除通行体外,一种写法没有“心”上的挑和点,中间的竖画下面不出头,另一种写法也没有挑和点,但中间竖画出头。字符集中只有通行体和竖画不出头的编码,遇到竖画出头的那种写法时,根据“形近替换”的原则,要用竖画不出头写法替换,而不是选用通行的“惠”来替换。这种做法实际上并未达到保真目的,反而忽视了规范原则。

其他变通的方案,一是将这些没有编码的字不做处理,在数字文本中暂时空缺。但这样的话,我们就人为地为古籍制造了一个“数字残本”,古籍数字化的意义就会大打折扣。或是保留图像添补到数字文本中的空缺中,这样表面上是保证了古籍的完整性,但计算机是“读不懂”这些图像的,因此也就无法进行检索、统计等处理,这样将来就无法精确实现数字化古籍的“研究支持功能”[3] 。

2.数字化古籍发布环节保真问题

首先说明一点,数字化古籍发布形式有多种,比如各种类型的检索系统。但本文所讨论的发布专指以提供古籍阅览为目的的发布形式。

目前数字化古籍比较理想的发布形式是“图文对照”,即读者在阅读过程中可随时实现古籍图像与电子文本之间的切换。数字版文渊阁《四库全书》以及“中国基本古籍库光盘”等就采用此种发布形式,并取得比较好的效果。笔者认为,目前这种形式并非尽善尽美,还存在问题需要进一步改进。

首先是对古籍外形的刻意模仿。一些制作精美的数字化古籍产品,其电子文本采用繁体竖排的发布形式,有些甚至做出了翻转书页的动画效果。笔者认为将主要精力集中于此似乎没有太大必要。若从逼真再现古籍的角度考虑,古籍图像是理所当然的首选,然而这种“仿制品”显然不能满足古籍专业研究的需要,也不能作为一次文献来引用。而对于习惯于简体横排的普通读者,又多少显得艰涩。品评数字化古籍优劣的标准,并不在于它与古籍有几分形似,而是要看它是否真正体现了古籍的文化意蕴。

其次,笔者注意到,目前数字化图像采集的范围大都只限于古籍的书页,而古籍的书脑、书根、书脊、版心上也很可能存在版本信息,而这部分内容尚未引起技术人员的重视。再有,古籍的保存环境,比如存放古籍的书函,包裹古籍的锦缎等,它们是古籍的有机组成部分,其中蕴涵了关于古籍的重要信息。但据笔者了解,这部分内容似乎也没有纳入古籍数字化研究的视野,而缺乏了这部分内容的数字化古籍还不能算做是真正完整的。

古籍数字化难以实现保真的根结。

1.古籍整理环节的缺失。

虽然我们一直在强调古籍数字化的本质就是古籍整理,但在当前的实际工作中,对于古籍数字化,我们并没有以古籍整理的态度来对待,也没有将古籍整理的理论和方法引入到数字化工作中。困扰数字化古籍实现保真的根结就在于古籍整理环节的缺失。

4 次访问