古籍文献数据库存在的问题与突破的方向

点击数:690 | 发布时间:2025-02-27 | 来源:www.echu888.com

    内容提要:计算机技术在古典文献整理与研究中的贡献是很大的,但现在存在着缺少统一领导与规划;开发商嗜利忘义;热点文献数据重复,冷门文献数据罕见;技术关卡重重,很难互相兼容;功能单调,很难真的为科研服务;学术圈地,使人心有余而力难用等问题。解决这一问题的重点在于打造公共古典文献数据库和开发个性化文献检索服务管理软件两个方面。具体说来是加大总体规划,打造公共古典文献数据库;数据库内容与文献检索服务管理软件离别;加速确定字库策略;彻底解决古典文献版权问题;打造公平的交易网站和进步新兴学科,培养专业人才。
    关键字:古典文献数据库公共古典文献数据库文献检索服务管理软件

    计算机技术的高速发展,为古典文献研究的现代化提供了坚实的基础,其贡献是有目共睹的。然而,计算机技术在古典文献研究中的运用仍然存在着极为紧急的缺点也是不容回避的。笔者近几年来主持并直接参加设计“e书库”数据库的过程中,感到有必要将我们的一些想法提供给正在设计有关软件的计算机专业职员、想用该类软件的专家学者们参考。

    1、国内古典文献数据库建设的经历

    自古以来,历代学者对古典文献整理与研究一直沿袭手工操作的方法,然而自上世纪80年代后,计算机技术开始涉入到古典文献研究中,对传统的古典文献整理与研究办法(自然也对所有需要用古典文献资料的专业研究)起到了很大冲击。
    第一简单回顾一下计算机技术在古典文献研究范围内进步的经历。上世纪80年代初,国内一些图书馆、大专院校及科研机构陆续开始大规模地借助计算机设计并打造数据库。大致说来有两类数据库,一类是书目数据库,一类是文献数据库。南京图书馆于90年代初率先打造书目数据库,对读者检索有关书目起到了很大的帮忙。之后,各地图书馆纷纷效尤,类似的书目数据库非常快就普及了。虽说到今天各地图书馆的书目数据库的检索方法,仍存在机读编码格式不统一的问题,然而书目数据库提供的便捷快捷的查看功能,对读者来讲无疑是一件大好事,具体到学术研究来讲,至少为研究者提供了一个比较便捷的查找有关古典文献的实用工具。
    在打造书目数据库的同时,一些大专院校与科研机构开始研发各自的文献数据库。从数据制作格式来讲,大致可以区别为两类,一类是图像格式,马上按原著内容扫描成PDF图像文本,另一类是元数据格式,即录入文献文本内容(或扫描并转化为电子文本)导入数据库,并转换成可阅读与检索的数据库机读格式。一般说来,无论是PDF格式还是元数据格式,它们数据库容量都较大,也提供了较为原始的检索方法,为学术研究提供了不小的帮忙。从上述两类制作格式的数据库来讲,PDF图像文本可以直接阅读图像文字,但总体说来不太适应古典文献整理与研究的需要。而元数据格式较为精致,初步拥有了较为便捷的常见的功能,可以检索、作卡片等等。
    古典文献数据库从网站收录的文献内容来讲,大致可以分为两类:一类是类目数据库,即按“类”网站收录有关图籍,如经学类、史学类、文学类与甲骨文、金文或出土文献资料、石刻资料等等,另一类是综合数据库,如《四库全书》、《四部丛刊》、《国学宝典》之类数据库。
    国内最早的古典文献数据库是河南大学的《宋人笔记检索系统南宋主要历史文献》,打造于1987年。之后,各种数据库纷纷涌现,比较要紧的有南京大学、河南大学、苏州大学联合研制的《计算机甲骨文信息处置系统》、中国社会科学院《全唐诗》、《先秦魏晋南北朝诗》、《全上古三代秦汉三国六朝文》、《十三经》、《全唐文》、《诸子集成》等数据库、北京大学《全宋诗》数据库、南京师范大学《全唐五代宋词》数据库、四川大学《宋会要辑稿》数据库(与国外合作)等等。港台古籍数字化起步较早,均使用繁体字形式。1984年台湾中央研究院历史语言研究所开始研发《汉籍全文资料库》,香港中文大学则有《汉及以前全部传世文献》、《魏晋南北朝全部传世文献》、《竹简帛书出土文献》数据库等等。其中《竹简帛书出土文献》网站收录《马王堆汉墓帛书》、《武威汉简》、《睡虎地秦墓汉简》、《银雀山汉简》、《居延汉简释文合校》及其它散见简牍共140多万字的竹简帛书出土文献,价值颇高。
    值得注意的是,这类数据库主如果提供给本单位研究职员用的,当然也有部分数据库对外开放,为其他研究者提供肯定帮助。虽然这类数据库有种种限制,但它们无疑为古典文献的研究(当然包含其它专业的学术研究)提供了便捷。之后,伴随互联网技术的进步,各科研机构、大专院校、各地方的图书馆、与其它数以百计的网站向用户提供收费或不收费的古籍文献检索服务,甚至还提供古籍文献的下载服务。显然,这类工作的拓展,为学术研究的现代化提供了极为有力的支持。到今天为止,据笔者所查索到的除科研机构、大专院校、各地图书馆数据库以外,提供各种文献下载的中文网站至少在200个以上,其中就有不少古籍文献下载的网站。这类古典文献数据库或有关网站的打造,确实为古典文献整理与研究乃至其它学术研究提供了极有价值的帮忙。

    2、现在存在的问题

    当然,大家也应该清醒地看到,在古典文献数据库很多涌现的同时,一些潜在的问题与数据库本身的缺点紧急地制约着古典文献数据库的正常进步。
    从古典文献数据库技术进步角度来讲,笔者觉得大致经过三个进步阶段。第一阶段是PDF图像文本数据库,其数据来源主如果以扫描方法获得,形成PDF图像文本。这种图像文本优点是直观,与原书分毫不差,但它的缺点是功能极其单一,仅可供浏览图像和简单地检索书目。虽然第一阶段的数据库功能极少,但毕竟能便捷而直观地阅读文献了,因此引起了学者们广泛的兴趣。需要指出的是,因为功能太少,这种数据库很难进一步进步。
    第二阶段是元数据数据库,以香港迪志公司投资、书同文数字化技术公司设计、上海人民出版社出版的《四库全书》、书同文数字化技术公司设计、万方数据电子出版社的《四部丛刊》、尹小林《国学宝典》、南开大学永川企业的《二十四史》,与国内、港台等大专院校或科研机构制作的较大型的数据库为代表。它们的优点是具备较多的基本功能,如检索、卡片、打印等功能,有的还附加了日历查看、字典、音乐背景等附加功能。然而,它们都不允许对数据库内的文本错误进行修订、没图表处置能力、不提供功能升级服务(某些软件提供所谓新版本,事实上只不过增加一些文献文本,并未真的提高软件服务功能)。而且因为各自为政,开发者大都采取自概念办法来自造很用的生僻词,因此各种数据库之间字库不可以相互兼容。这一阶段的古典文献数据库也有吸收第一阶段数据库有图像的优点,如上述提及的《四库全书》就附有图像,以利研究者核对文字。该阶段绝大部分数据库注意到版权问题,但仍有一些数据库在版权上出现较大问题,乃至引起法律纠纷。
    计算机技术广泛地涉入文科研究范围,各种古典文献数据库纷纷打造,当然给古典文献整理与研究的现代化提供了极其有利的帮忙,然而,在笔者看来,现在计算机技术在这一范围中的运用形成纷乱无序的“战国年代”,有很多亟待解决的问题,不然将会干扰或说削弱计算机技术在古典文献研究(乃至其它学术研究)中巨大用途。对此弊病,笔者拟作一概述,企望引起有关部门、数据库开发者及用户的看重,以期真的使计算机技术对古典文献整理与研究起到更大的促进用途。大致说来,主要问题有以下几个方面:
    其一,缺少整体领导与规划,国家投资与收益不对称。当然,第一应该看到,国家有关部门已经着手做了一些规划,也推行打造一些比较大的古典文献数据库,如2002年十月,国家科技图书文献中心受科技部的委托,牵头联合中国科技信息研究所、国家图书馆、上海图书馆、中科院图书馆、北京大学图书馆等单位,启动了国内数字图书馆标准规范建设项目。这一项目的目的就是力图打造国内比较统一和规范的数字图书馆标准,自然也会对打造古典文献数据库有较大的借鉴与参考的价值。又如北京大学《中国基本古籍库》、上海图书馆《古籍影像光盘制作及检索系统》等等,也由国家有关部门投入很多资金,而且已经启动并完成了部分内容。不过也应该强调,因为国家没拟定出一个比较符合国内数据库进步情况的真的有价值的规范体系,因此这类项目的承担者仍是各自为政,数据库之间并不可以兼容,不可能形成技术“合力”。再从所获得的社会效益或说实质用价值来看,也不尽人意。由于到今天为止打造的各种数据库仍人为地设置很多障碍,没办法使它们达成较大的用法价值。数据库由国家投资,收益自然应该归国家,或者成为不收费的公益数据库,但现在收益既不归国家,又未能成为公益数据库,这不可以不说是个很大的遗憾。事实上,数据库制作者免费借助国家投资进行了开发,制作完成后却获得相当丰厚的收益,使人感到有“国家投资,个别单位图利”的印象。笔者不反对交纳肯定用成本,但收费单位肯定应该说明收费后去向,绝不允许产生国家投资而由个别单位乃至某些个人得利的状况。
    其二,开发商嗜利忘义,数据库错误紧急。除上述由国家投资开发的古典文献数据库外,还有一些有肯定技术实力的软件开发商加入到古典文献数据库的开发中来了。比较而言,各科研机构、大专院校及各地图书馆打造的古典文献数据库水平较高,而开发商则极少关注数据库中的文献水平。大家承认确有少量开发商制作的数据库水平较高,如迪志公司开发的《四库全书》之类,然而象《四库全书》如此的数据库确实凤毛麟角,很难寻觅。大家发现,甚至有的开发商只是把文本进行文字扫描导入,疏于校对,因此文本错误百出,很难卒读。因为利益驱使,绝大部分开发商都以“一个人开发”为己任,数据库设计相互保密,互不兼容,用户深感不便。这类问题已紧急地影响到古典文献数据库的正常进步了。
    其三,热点文献数据重复,冷门文献数据罕见。虽说现在数据库品种繁多,但因为考虑到用户对文献内容的需要,因此很多开发者沉迷开发那些热点数据,而一些比较冷门的文献则鲜有人问津。事实上,冷门的文献并不是是没学术价值的文献,只不过用人较少而已。因而,现在不但数据库中文献内容重复现象非常普遍,甚至同名同姓的数据库也有不少,如《四库全书》就出现了武汉大学版、上海人民出版社版等数种不同版本。且不说那些数目繁多、水平也不甚高的数据库浪费了多少人力物力,其实也用户陷入无可适从、欲舍不可以的境地。用户总是为了某些少量文献内容不能不购买和安装整个数据库操作系统,而且这类庞大的数据库很多占据硬盘空间,致使计算机运行速度大为减慢。而那些允许网上检索的文献数据库又总是容量很大,上网检索者多,致使“交通阻塞”!
    其四,技术关卡重重,很难互相兼容。各开发者既鉴于不同开发目的与技术条件,又为预防别人解密,因此在开发过程中在数据库某些程序中人为设置技术障碍,以保障自己利益不受损害。自然,开发者需要投入很多人力物力,保障本身利益不受损害是无可非议的。然而也因为人为地设置了障碍,却使各种文献数据库之间不可以兼容,没办法形成合力,一流的技术反而成为技术壁垒。事实上,这一状况大大浪费了宝贵的人力资源与财力,对古典文献的开发与借助有百害而无一利。另外,因为技术壁垒,在古典文献数据库的文字方面更致使很多问题。国内古籍常用汉字大约为4万余个,这还不包含超越2万个异体字及数千甲骨文、金文等古文字。然而国内现在在计算机上采纳的国标字库和扩展字库,两者相加也只有27000余字,这与国内古籍常用汉字数目相比,实在差距太大。因此,这样小的字库与需要相比确实是顾此失彼。为了弥补这一缺点,一些软件设计者就采取在自概念区自造字(乃至占据字库中扩展B的地方)、有的也用图片方法来填字。而这类自造字、图片字,拷贝到WORD文本之后,因为内码地方的差异就变成其它字了,从而致使文本错误。
    其五,功能单调,很难真的为科研服务。打造较早的古典文献数据库功能比较单调,只能做些简单检索、拷贝,没更为一流的功能,不可以适应学术研究的需要。后来的一些古典文献数据库也存在类似问题,比如《四库全书》的检索功能,虽说可以使用添加“作者”、“书名”等限定条件,但检索结果只不过罗列一排出处,没办法直观地知道检索到的具体内容。而且《四库全书》也没提供更多的功能给用户,因此这一巨大的工程仍远远难以满足用户的需要。况且这一数据库现在已经“定型”,不再继续开发,用户对此深感遗憾。而其它古典文献数据库设计者的思维大多仍停留在“文本之争”当中,重复着原来设计思想的错误,没更多地开发为科研服务的有效功能,因此在笔者看来,这一做法显然不可能真的摆脱古典文献数据库现在面临着的困境。
    其六,学术圈地,使人心有余而力难用。解放后,一些国家级出版社化费了很大的精力,组织专家点校了不少要紧古籍,为学术研究的进步作出了很大贡献。然而时至计算机年代的到来,却出现了“版权”的问题。一些制作者忽略了国家有关版权法规,直接借助了一些出版社的成就来牟取经济利益,理所当然地会产生版权纠纷。笔者以为,保护版权是每一个学者乃至每一个公民应尽的责任,根本毫无讨价还价的空间。然而问题是,目前一些出版社因为各种缘由,没对自己已出版的点校过的古籍进行开发,而想开发这类古籍资源者却没办法涉入其中,致使他们处于既想开发这一宝藏又没办法回避版权问题的尴尬境地,这就使海量需要用户望洋兴叹。假如有关出版社不愿授权,那样想要开发这类古籍者只能返回到没标点的原始文本中去。这样的情况确实使每个期望用古典文献数据库的用户感到极其失望,而且严重干扰了古典整理与研究的现代化进度。
    上述种种现实状况,已经是制约计算机技术对古典文献整理与研究支持的瓶颈了,假如不解决这类问题,计算机技术即便再发达,恐怕也很难对古典文献整理与研究予以真的意义上的支持与帮助。

    [1][2]下一页

  • THE END

    声明:本站部分内容均来自互联网,如不慎侵害的您的权益,请告知,我们将尽快删除。

专业院校

返回顶部

Copyright©2018-2024 中国考试人事网(https://www.bzgdwl.com/)
All Rights Reserverd ICP备18037099号-1

  • 中国考试人事网微博

  • 中国考试人事网

首页

财经

建筑

医疗