高效能的佛典研究数据管理模式
高效能的佛典研究数据管理模式
张琼夫
中华佛学研究所
中华佛学研究所第4期 (p261-305)
台北:中华佛学研究所
--------------------------------------------------------------------------------
p. 261
提要
对佛典研究者而言,电子佛典与图书馆的在线检索系统在佛典研究数据的搜集上仍有所不足。本文所提出的「佛典研究数据库」正是希望能弥补此空缺。笔者试着从最基本的数字化数据的特质与管理谈起,接着论述佛典研究数据的高效能管理、佛典研究数据库的定位与价值、以及如何以HTML与HTML Help来建构与管理佛典研究数据库,希望透过这些说明让佛典研究者了解「佛典研究数据库」的重要。此外,值得一提的是「佛典研究数据库」的实用、易学、经济这三个特性,使得此数据库是可以由佛典研究者自行建构与管理的。自行建构与管理最大的好处是可完全依据自身的需求去做规划,将原本使用卡片、纸、笔等工具的传统模式转变成具有高效能的数据库管理模式。
关键词:1.佛典研究 2.数据库 3.超文件标记语言 4.数字化
p. 262
一、前言
(一)研究动机与目的
随着计算机的普及与其功能的日益提升,再加上由于现代社会中信息的急速膨胀所造成数据量的大增,导致传统管理数据的方式产生瓶颈的情况下,数据库[1]的使用就成了当务之急。借着数据库管理系统处理数字化数据的超高能力来大幅提升整体的效率,在社会上早就行之有年。即使在佛学界也有一些成果发表,如:印顺文教基金会的「印顺法师佛学著作集」、中华电子佛典协会(CBETA)所发行的大正藏光盘版,及中华佛学研究所出版的《中华佛学研究所专辑》CD光盘版等。[2]
然而,当我们稍为观察一下周遭的佛典研究者找寻、整理、使用研究数据的方式时,不禁感到讶异与纳闷:为何他们仍旧停留在传统那种没有效率的方法上,而没有丝毫的改进?是他们不知道有高效能的管理方式[3]可以应用在佛典研究数据上?如使用数据库[4]等。或是觉得太难了,需要花很多时间来学习?还是有其它的因素就不得而知。总之,如何将佛典研究数据以数据库的模式来管理这方面的研究似乎还处于真空状态,本文就试着以自身建构「阿毘达磨研究数据库」[5]的经验与心得为基础,及在中华佛学研究所三年对佛典研究的认识,来阐述如何藉由这种高效能的管理的模式大幅提升佛典研究数据的使用效率,
p. 263
并希望能透过对佛典研究数据库性质上的分析以及建构与维护此一数据库的探讨,让更多的佛典研究者能善用这项工具,并期能发挥抛砖引玉的功效,让更多的佛典研究者重视数据库的应用。
此外,须特别说明的是:本论文所提及有关数据库在建构与管理佛典研究数据的方法上是以超文件标记语言(HyperText Markup Language, HTML)[6]及HTML Help[7]这两项工具的使用为限,而不广泛的论及所有建构、管理数据库的方法。主要的原因,除了笔者本身能力不足的因素外,实用、易学、经济是最大的因素。
由于佛典研究数据包括了经、论、疏等之一手数据,以及近代学者的研究成果,如书籍、期刊等所组成,可以说从经(论、疏)名、书(刊)名到目录、内文等都是数据库所要管理的对象,因此佛典研究数据库很难将其视为一「关连式系统」(relational system)[8]来建构与管理,同时也使得一些时下常用的数据库软件,如:Access、Delphi、Visual Basic、Visual Foxpro、Power Builder等可能也派不上用场。至于SGML(Standard Generalized Markup Language)[9]虽然在欧美某些大学的电子文件与人类学科计算中心(electronic text and humanities computing center)中是最常被使用到的工具,究其原因主要还是由于它能让使用者自行定义所需的标记语言(markup language)
p. 264
之故,这一点对汉译佛典(如大正藏等)电子化的工作者来说尤其重要。然而对一般的佛典研究者来说,除非他对格式的要求很严格,否则所需要的数据库大体上使用 HTML来建构就已足够。[10]至于HTML Help的使用主要是为了弥补以HTML建构成的数据库无法检索的缺憾,让此佛典研究数据库的功能更加完备。[11]此外,HTML与HTML Help易学的特质对佛典研究者来说应是更重要的考虑,因为这项特质使得佛典研究者自行建构数据库的想法变成可能。换言之,借着HTML与HTML Help之助,佛典研究者已经有能力摆脱传统上没有效率的管理方式,走向高效能的管理时代。不但如此,使用HTML与HTML Help来建构、管理数据库还是免费的,不需额外花钱。[12]
就是因为HTML与HTML Help的实用、易学、经济这三项特点,才使得本论文会以它们作为高效能管理佛典研究数据的工具。
(二)研究方法及其步骤
本研究所采用的方法迥异于一般的佛学研究法,如:语言文献、思想比较、历史考证、宗教社会学、宗教人类学等等的研究法,而是较类似于自然科学如:物理、化学的实验方法。「阿毘达磨研究数据库」的建构可说是实验的结果,而论文的部份算是实验报告,两者间有密切的关连性。
p. 265
亦即论文的部份是将自身建构「阿毘达磨研究数据库」的经验与心得加以分析、归纳、整理后结合了对佛典研究资料的认识与了解的情况下,才逐步来完成的。由于数据库的建构与论文本身属不同的模式,有不同的性质,因此以下就将这两个部份分开来探讨。
1.数据库的建构方面
在数据库的建构上,整个作业流程可简述如下:
资料搜集→分类→数字化→除错→修饰→加入检索功能
(1)资料搜集
本数据库是以近代学者对阿毘达磨的研究成果为搜集的范围,主要是以阿毘达磨的语言、文献、思想这三方面的研究为重点,分别就中文、日文、英文这三种语言的书籍、期刊加以收录。期能藉由地毯式的搜索,完整的呈现出目前的研究现况。为使此工作能更有效率的进行,我使用了三种工具。第一种为本所网资室所制作的「中华佛学研究所专辑」光盘,里面有整个图书馆藏,方便我寻找所要的数据。第二种为厚观法师在《谛观杂志》所发表的一篇文章:「日本的阿毘达磨佛教研究」。[13]在这篇文章中分门别类的搜集了当代日本的研究成果,让我省下了不少摸索的时间。至于第三种为本所副所长惠敏法师从日本带回来的日文佛学期刊目录,里面收录了一百多种日文佛学期刊的目录,而且它还是个电子文件,可透过Word或汉书这一类的文书处理系统所提供的「寻找」功能,轻松找出所需要的期刊数据。此外,南投的「德妙佛学数据中心」的馆藏有以书籍的方式出版,[14]且在其网站上也可看到全部藏书,[15]可惜完全没有分类,使用者只能一本一本的从头看到尾,甚为不便。
p. 266
(2)分类
本数据库的分类方式是基于笔者本身研究的领域并考察当今佛学界在阿毘达磨的研究上常用的三种佛学研究法:文献、语言文字、思想而将所有数据先分为这三大类和一个包含指引与解题的阿毘达磨入门以及无法用这四类来涵盖的其它类。接着,再根据每一笔资料的性质下去细分,如文献研究可分为北(藏)传之文献研究与南传之文献研究,思想研究可分为单一论书的思想研究、单一部派的思想研究…等。在细目分类中的数据若同时有书籍与期刊,则又再分为书籍类与期刊类。如此分类的好处在于完全以近代学者们研究的问题、主题为导向,可以快速的了解、掌握近代学者的研究动向与成果。至于为何不采用像图书馆常用的佛教图书分类法,如李世杰、香光尼众佛学院图书馆所提出的,[16]原因是那种分类法是站在图书馆员的角度来分的,而不是专为佛学研究者来分的,因此可能较难满足佛学研究者的需求。
(3)数字化
数字化的工作是整个数据库制作的核心,它不单只是数据的输入,更重要的是将原本书面格式的数据转变成具有多功能性质[17]的电子文件(Electronic Document)以提升整体的使用效率。而在这转变的过程中,计算机软件的使用扮演着关键性的角色。建构数据库的软件不少,但在考虑本数据库的形式、软件学习的难易、经费等因素后,决定以制作首页(Home Page)的超文件标记语言(HTML)为使用的工具。
(4)除错
在数字化的过程中,输入错误或分类错误是常有的事,因此在数字化的工作告一段落后,重新检视一遍作最后的修正是重要而必要的。如此,才能减少数据误用的可能性并提高使用的效率。
p. 267
(5)修饰
修饰是希望能提供使用者一个更具亲和力的接口,不但能享受计算机高速处理数据的成果,而且在每次使用时都能很愉快。
(6)加入检索功能
由于本数据库是以超文件标记语言(HTML)所写成,所以数据库本身并不具备检索功能,为使此数据库发挥更大的功效,指导老师推荐我使用微软(Microsoft)公司所发展出来的在线辅助说明系统——HTML Help来弥补这方面的不足。
2.论文方面
论文本身的撰写是在数据库的建构几乎告一段落之后才开始进行的。由于尚未有直接相关的论文可供参考,所以只能凭自己粗浅的认识及与老师们的讨论,并参阅少数几篇较有关系的论文、报告[18]及欧美一些电子文件与人类学科计算中心(Electronic Text and Humanities Computing Centers)的网站上的资料[19]以及一些在线检索系统的相关说明[20]等,来做出一个简要性的论述。
(三)本研究之适用范围
几乎每个研究都有其局限性,因此也就有其适用范围,自然本研究也不例外。本研究适合于具有下列特质的佛典研究者:
1.具有前瞻性,且愿意学习、尝试新的事物
学习一项新的东西总会有短暂的阵痛期,学习建构数据库也是一样。但是,若能了解到信息科技的运用是必然的趋势以及善用它所能带来的便利后,
p. 268
学习过程中的不愉快或许可以减少许多,而且也不会有那么大的排斥感。这一项特质最为重要,它是进入数据库领域的关键。
2.不满足于传统处理数据的方式
传统的数据不但占空间、保存不易,处理起来更是速度慢、效率低,如果有这种感觉者,不妨换个方式,试试数据库的管理模式,说不定过去所有的困扰都会一扫而空。
以上这两点特质是基本的要求,如果自己想尝试建构一个数据库的话,最好还能具备以下这两点特质:
(1)具有固定的研究领域
不可讳言的,建构一个数据库随其简单或繁复或多或少都需要花点时间。因此,有着固定的研究范畴,或是一部经、一部论,或是一个学派[21]、部派[22]或宗派[23],甚至是佛教史上的一个分期,如原始佛教、部派佛教、初期大乘佛教等都好。否则,好不容易建成的数据库却只用过一、二次,那岂不可惜?
(2)对计算机的使用有一定程度的了解
建一个数据库虽不难,但至少要熟悉操作系统(如:Windows 95, 98等)的基本操作,及文书处理器(如Word,汉书等)的使用,否则恐怕很难进行下去。
(四)当代佛学界的研究成果回顾
目前可见到的佛学数据电子化的成果主要可分为三类:第一类即所谓的「电子佛典」,一开始尚未以光盘的形式发行时,许多发心的人士便将电子化后的经典挂在网站[24]上供人免费下载(Download),然而或许是限于人力与技术等等的问题使得质量一直无法突破。
p. 269
此种情况终于在中华电子佛典学会(CBETA)成立后获得改善。此单位目前正致力于《大正藏》电子化的工作,已发行第1~32册的光盘版。[25]此光盘版不但包涵校对严谨的藏经原文,亦提供完善的检索功能,以质量而言,可算是目前所见过最好的汉文电子大藏经。除了汉文佛典外,梵文、巴利文、藏文、蒙古文、泰文、越南文等佛典的电子化也在世界各地正方兴未艾的展开,甚至有的已有成品出来,[26]以上是属于电子佛典的部分。
相对于第一类的佛典(一手数据)的电子化,第二类为近代佛教学者著作集(二手数据)的电子化,最有名的当属《印顺法师佛学著作集》。[27]此著作集有网络版与光盘版,网络版只有普及版而光盘版则包含了学术版与普及版两种版本。这两种版本同样都包含了印老的全部著作,且能显现中文、梵文、巴利文等不同字体,只不过在检索系统方面学术版的功能较强而已。另外,中华佛学研究所历年发行的《华冈佛学学报》、《中华佛学学报》、《中华佛学研究》之各期全部论文,已纳入《中华佛学研究所专辑》CD的光盘版中;整体而言,具有很高的学术价值,能带给许多佛教学者相当大的方便。
第三类是属于工具书的电子化,值得一提的是「佛光大辞典光盘版」。[28]佛光大辞典是目前汉文的佛教辞典中编的最好的一部,不但收录的词汇多,且有梵、巴原文,在其光盘版中亦保留了这些特色,并加入了良好的搜寻引擎,可让使用者快速找到其所要的数据。不过,此光盘版有些小小的瑕疵,
p. 270
如只能在桌上型计算机640*480、笔记型计算机800*600的分辨率下正常显示,其它的分辨率下画面会变得有点难以操作,且查询到的数据无法单笔打印等。
以上这三类大致上是目前佛学界可见的电子化成果,[29]很明显的在佛典研究数据的电子化工作上还急待努力。
二、数字化数据的特质与管理
数据数字化是走进高效能管理的第一步,因为传统上管理数据的效能之所以低落,主要的原因就在于数据是记录于纸等的媒介上,由于这些媒介本身性质上的限制,使得数据在管理上始终是费日损功、毫无效率。因此,想根本解决此问题,就必须从转换媒介着手,而数据数字化正是这样的工作。
(一)数据数字化过程[30]
数据库可说是由许多的数字化数据[31]所构成,而每一个数字化数据都是透过数字化的过程才得以从原始的数据模式(如:书籍、期刊中的文字、图表等)转变过来。因此若想知道为何数字化数据才可能会有高效能的管理,就必须对最基本的数字化过程有一清楚的认识与了解。
所谓数字化的过程就是将原本记载于甲骨、竹简、绢、纸…等物质上的数据,不论是文字、图、表…等型态,透过数字化的技术将其转变成为一连串0与1这种可由计算机来处理的讯号的过程。借着数字化的过程,
p. 271
数字化数据也因此而产生。然而,数字化数据相较于原始数据而言有何殊胜之处呢?为何需要将数据数字化呢?想要解答此问题就必须从这两种数据本身的性质来作分析、比较。
尚未数字化之前的原始数据不论是记录在纸上或是其它的物质上,由于这些物质本身具有的属性而使得原始数据的性质同样的也受此属性的规范。比如说殷商时代所用的甲骨文是一种记录在牛骨、龟壳上的文字,由于牛骨、龟壳质地非常的坚硬且笨重,体积大、数量又不多,因此使得甲骨文不论是在写作、复制、搬运、传播、整理…等方面都会造成许多的困难与不便。随着人类文明的进展,新的记录文字等数据的物质,如绢、帛、竹简等亦相继为人们所采用,直到造纸术的发明,「纸」成了人们记录数据最方便的东西。
尽管相较于之前记录数据的物质而言,纸已经是最完善的了,且记录在纸上的数据也开展出人类文明的花朵,但是在人类文明高度进展的同时,藉由纸来记录、传递、保存…数据已经愈来愈不能满足现代人的需求,人们要的是能更方便、更快速、更安全…的来处理数据的方法,而数据数字化正能满足这样的需求。到底用纸张来记录的原始数据与数字化后的数据有何差异呢?我们可以从以下几个方面来探讨:
1.内容的调整
用纸张来记录的原始数据若遇到增补、修改等需要调整内容的情况时,不论资料是手写或是打字的形式,在处理上都会比数字化后的数据麻烦许多,相信这是任何一个熟习文字处理软件的人都会有的感受。
2.数据的整合
记录在纸上的数据若遇到彼此间需要整合在一起时,唯一的方法就是使用剪刀、浆糊等工具来完成,不但不美观又很耗费时间。相反的,若所要整合的资料都已经数字化,只要懂得运用合适的软件来处理,便能在短时间内将此工作圆满的达成。
p. 272
3.数据的搜寻
记录在纸上的数据有个很大的缺点,就是数据的搜寻很没有效率,不但速度慢、花费时间多、耗损的精神体力更多。但是数字化后的数据可藉由强大的搜寻引擎之助,在短时间内将符合搜寻条件的数据列出,而免除了上述的缺点。
4.数据的使用
记录在纸上的数据其使用的方式是固定不变的,比如说报纸上的一篇文章,我们可将其剪下后影印复制、放大缩小等,但我们却没有办法将这篇文章中的一段话直接插入我们的报告中当作内容的一部份,除非擦掉重写或重新打字才行。然而,数字化后的数据其使用的方式相对的就显得多采多姿。因为数字化后的数据可以借着计算机中不同的应用软件而有了多种的使用方式。比如说一段数字化后的文字,透过文字处理软件我们可以选择所要的字型、大小、颜色等,同时还可以拷贝、打印。透过网页编辑软件,如:FrontPage等可以将其转变为网页的内容。透过影像处理软件,如: PhotoShop、PhotoImpact等文字特效的处理,则可产生各式各样令人惊叹的结果。由此可见数字化后的数据具有一个非常重要的特色,就是「多样化的使用方式」。
5.资料的传播
记录在纸上的数据其传播的方式不外乎就是藉由车、船、飞机等交通工具及人力、兽力的搬运来完成。这样的传播方式不但速度慢,成本也高。但是数字化后的数据便无此缺点,特别在今日网络的运用如此发达的情况下,两者的差异更是显而易见。
6.资料的保存
记录在纸上的数据在保存上有许多的顾虑。除了必须防止水、火灾的发生外,虫蛀、纸张日久变黄导致数据毁损也是需要预防的。此外,当数据量大时所占用的空间、所花的经费、人力等都是要解决的问题。相对于此,数字化后的数据在保存上就相当的容易,同时也较为安全。
p. 273
因为数字化后的数据体积小(从「印顺法师佛学著作集」光盘中可得到最好的证明),而且保存这些数据的成本低(如一片空白的CD-R片只要数十元,但却可以烧录六、七百MB的数据),保存的时间长(MO片最长可以保存数据达四十年)。此外,数字化后的数据还可透过「加密」、「编码」等方法让其它人无法轻易取得数据内容。
此外,数字化数据还有一个独特性,那就是资源共享。由于数字化数据复制容易且成本低廉,使得资源共享的理念更容易施行,《印顺法师佛学著作集》、《CBETA电子佛典系列》便是典型的例子。此外,透过资源共享的方式也使得分工合作变得更有价值。因为佛典研究者大体上有其各自的研究领域,但有时候仍会有参考其它研究领域之数据的可能。因此,若彼此间的资料能相互分享的话,当有需要处理到自身研究领域外的数据时,便能有效率的加以解决。特别在今日台湾的佛学界,若想要迎头赶上日本、欧美的研究成果,分工合作是唯一可行的路,单打独斗只会削弱整体的表现,这是台湾的佛教学者需要特别注意的。
(二)数据库系统[32]
将众多数字化数据统合在一起便成为一数据库。然而,光是只有数据库是不够的,它必须配合数据库管理系统(DBMS)、应用程序、硬设备等才能让人们方便的来使用。因此,我们可以把数字化数据、软件、硬件、使用者这四部份统称为「数据库系统」。从下面的简图[33]中让我们可更清楚的看出它们彼此间的关系。
由于数字化资料在前面(页270~273)中已作过详细论述,我们将接着探讨剩下的软件、硬件、使用者这三部份。
p. 274
图1.4 数据库系统简图
1.软件
软件部份包括最重要的数据库管理系统(DBMS)以及其它的应用程序(application)、公用程序(utility)等。数据库管理系统之所以重要是因为它介于实际数据库与系统使用者之间,使用者对数据库所有的存取要求(如增加、删除、修改某一笔数据等)都是透过数据库管理系统来处理。这样做的好处是数据库管理系统将数据库提升至硬件层面之上,使用者不必去了解硬件层面的细节部份,只要晓得如何使用此管理系统即可。应用程序则是让使用者得以透过数据库管理系统对数据库作存取的动作。亦即使用者必须借着应用程序向数据库管理系统提出存取的要求,方能存取数据库中的数据。至于公用程序是用来帮助数据库管理员执行各种管理工作。
2.硬件
硬件部份指的是能让使用者顺利的透过数据库管理系统对数据库完成存取动作的所有对象。然而,随着数据库与数据库管理系统在设计上的不同,所需要的硬设备相对的也有所差异。譬如一个想放在公司内部网络上,让各个部门的同仁都能够存取的数据库与一个私人的通讯簿数据库所需的硬设备是截然不同的。
p. 275
前者可能需要有服务器(server)与多台PC才能做到,但是后者只要有一台PC就可达成。
3.使用者
使用者大体上可分成三类:程序设计师、数据库使用者、数据库管理员。
(1)程序设计师:
指的是负责撰写应用程序以便让数据库使用者来使用数据库的人。当然这些应用程序处理数据的方式都是透过向数据库管理系统(DBMS)提出请求才得以完成。
(2)数据库使用者:
一般想要使用应用程序以便透过数据库管理系统(DBMS)来存取数据库中的数据者皆可称之。
(3)数据库管理员:
简单的说,数据库管理员就是数据库的建构者与维护者。它常常是由一组专业人员所组成。
三、佛典研究数据的高效能管理
从上面的论述可以知道数字化资料的特质及其管理方式。对佛典研究数据来说,想要有高效能的管理除了首先要将数据数字化之外,接着就要考虑如何将这些数字化数据作完善的整合,以及整合后的数据该如何透过检索系统来方便使用。因为完善的整合与检索才能把数字化数据的优点彻底的发挥。然而,想要将佛典研究资料作一完善的整合,先决条件就是要了解其性质。虽然佛典研究资料的性质很多,但值得注意的地方在下面第一项中会有详细的说明。在第二部份中将会说明「整合」的意义为何?为什么在高效能的管理中,它会扮演如此重要的角色?最后,在第三部份中将会对检索系统作一说明。
(一)佛典研究资料的性质
佛典研究是佛学研究中的一环,只不过它研究的对象是以佛典为限。
p. 276
佛典研究资料包含了经、律、论、经疏、律疏、论疏等原典或古代祖师大德的著述以及近代欧美、日本、台湾等的研究成果。
面对如此庞大的数据体系,该如何设计一个数据库才能有效率的来管理是个重要的课题。而第一步要做的就是先了解这些资料的性质,因为了解这些资料的性质才晓得该如何将这些数据作最完善的整合,也唯有透过最完善的整合,数据库整体的效能才有最佳化的可能。
这么庞杂的数据所具有的性质当然也非常的多,所幸大部分都是一般数据共通的属性,真正值得注意、有其独特性之处,大体上可分为以下六项:全文性、固定性、多型态性、相关性、多文字性、同本异译及多版本(及写本)性。
1.全文性
全文性的意思是说佛典研究资料不论是一手或是二手都是由一连串的文字所组成,包含了许多的章节与段落。虽说这个性质并非佛典研究资料所独有,但是若与时下大多数的数据库内容相较,仍可清楚显示出其特色。目前社会上普遍存在的数据库,特别是在公司行号中,关连式系统(relational system)可说是主流。而关连式数据库系统的特点之一就是所有的数据都是以表格的方式来呈现。这一点对佛典研究数据来说,在处理上有其困难。正因为如此,所以佛典研究数据库无法以关连式系统的模式来建构,连带的一些数据库软件,如:DB2、ORACLE、SYBASE、ACCESS等,及 Visual Basic、Delphi等数据库程序语言也都派不上用场。面对这样的情况,我们该如何解决?所幸尚有一些同样具有全文性特质的数据库,如:某些网站上的数据库、印顺法师佛学著作集、CBETA所发行的《大正藏》第1~32册光盘版等可供参考。从这些数据库的建构工具中,我们不难发现标记语言,如: HTML、SGML、XML(Extensible Markup Language)[34]等似乎已成为非关连式系统的最爱。
p. 277
究其原因,以其能完善的处理文字、段落、格式,使其属性能充分发挥是最大关键。标记语言不但能轻易地掌控文字的变化,如字型、大小、颜色的选定,甚至如段落的编排、格式的选择也都能解决。[35]
2.固定性
固定性的意思是说每一笔佛典研究资料,从作者、书(刊)名、题名、出版社、出版年代、到目录、内文等几乎是固定不变的。原典、古代大德的著述最是明显,而近代的研究成果中,也只有当改版时才会有些微的变动。这样的特质使得佛典研究数据库在维护时显得格外的容易,因为它不必像许多的数据库一样,常常要从成千上万笔的数据中找出需要更新的部份,再进行修正或是增补。它所要做的只是将新出版或发表的相关书籍、期刊增补到数据库中的适当位置罢了。因此,在维护上与大多数的数据库相较,佛典研究数据库可减少许多的人力、精力与时间。[36]
3.多形态性
多形态性指的是佛典研究资料可能是由多种不同的形态所组成。这些不同的形态包括了梵文、巴利文原典,汉译、藏译等经典,中国、西藏的祖师大德们的著作,缅甸、斯里兰卡等南传国家的大德们所作的注释书,以及近代的日本、欧美、台湾等的学术著作、工具书等,甚至是个人的研究成果,心得等等,只要是有利于研究工作的数据,都可透过适切的整合,使其成为数据库内容的一部分。一旦数据库的建构完成后,便可轻易掌握所有相关的研究资料。
p. 278
4.相关性
所谓相关性的意思是佛典研究资料彼此间并非相互独立而不相干,相反地,常常有密切的关连性。举例来说:以《俱舍论》为研究的主题时,相关的数据有原典(包含梵、藏、汉文),称友、安慧、寂静天等论师的注释、中国的大德们如:普光、法宝等所作的《俱舍论记》、《俱舍论疏》等,及近代日本、欧美、台湾等学者的研究等。由于数据间彼此的相关性,使得在建构数据库时就必须考虑到如何将此相关性适切的传达出来,以便当数据库建构完成后的使用能轻易掌握住所有相关的数据。
5.多文字性
多文字性意味着佛典研究数据是由多种文字所组成。梵文、巴利文的原典,藏译、汉译的经典,英、日、德、法文的近代研究成果,这么多的数据该如何整合在一起是门大学问。此外,这么多种文字如何让它们都能在中文的操作系统中显示出来,也是需要克服的难题。[37]
6.同本异译与多版本(及写本)性
同本异译与多版本(及写本)性是佛典研究资料所具有的两种独特的属性。同本异译指的是某一部梵文经典在被翻译成汉文或藏文后,译本彼此间的内容有所出入。这种情况有两个发生的可能:⑴不同的译本其实是根据不同的梵本来翻译的,所谓不同的梵本指的是经名(经典的名称)相同,但流通的时间与地方却不一样。由于在古代的印度,经文是透过抄写的方式来流通,一部经在经过数十年甚至上百年的流通之后,不同写本间多少会有差异存在是可以理解的,而根据这些不同的梵典(有着相同的经名)所翻译成的经典,当然在内容上或多或少会不相同。⑵所根据的梵典在内容上其实是大同小异,但由于译者或是翻译过程等因素之故,译本的内容有了不同。
p. 279
与同本异译的情况相对的是同样的一部经或论或疏等(有着相同的译者或作者),但在不同的版本(及写本)中内容就有些许的不同,如在《大正藏》的校刊栏中常会看到某一个字在其它的版本却是作另一个字。而这种情况不单只发生在汉文的藏经中,藏文甚至巴利文原典也有相类似的情况。[38]
(二)佛典研究资料的整合
佛典研究资料的整合大体上可分为两类:一类是属于相关数据的整合,另一类则是非相关数据的整合。相关数据的整合是把原本在内容上或性质上就有关系的数据分在同一类中来处理,或是透过超级链接的方式把所有相关的数据串在一起。当然这两种方式也可以搭配着使用。常见的例子是我们可以把原本写在卡片、记事本上有关于某个研究主题的数据以这样的方式整合在一起。至于非相关数据的整合指的是虽然数据彼此间并无必然的关连,但却可以将其置入一个较大的架构中,使其分别成为其中的一部分。举例来说,在《阿毘达磨研究数据库》中〈北(藏)传阿毘达磨论之文献研究〉与〈南传阿毘达磨论之文献研究〉这两类资料原本并没有什么关系,但经过整合后却分别成为数据库中「文献研究」这项的一部份。如此可让人了解到阿毘达磨的文献研究原来是由这两类资料所组成的。此外,我们也可以把原本记录于卡片、记事本上的不同研究主题的数据以这样的方式整合在一起,整合后的数据就不单单只是某个研究主题的数据,同时还会属于其它领域或分类上的数据。
对整合的意义有清楚的了解后,便可开始论述为何佛典研究数据的整合在高效能的管理中会有如此的重要性。这可以从「相关性」与「层次感」这两点来作说明:
p. 280
1.相关性
在上面论述佛典研究资料的性质时,曾提到相关性这一项(页278)。由于这个性质而突显了数字化数据在管理上的优越,同时也暴露出传统模式在处理上的困难。当相关的数据不多时,传统模式还可勉强借着数据的整合(把相关的数据打字或抄写在一起,或注明其它相关数据的所在)将其关连性表现出来。然而,随着资料量与日俱增,相关的数据也会变得愈来愈多,但是记录于纸上的数据其整合性本来就不太好,如此一来就会使得传统模式下的数据变得异常混乱,数据间的关系过于复杂,使得数据不知该如何使用。
但是数字化数据的管理则较无此问题,因为数字化数据的整合能力强,且较有层次感(见下面的说明),所以即使相关的数据多且关系复杂,数字化数据的管理依旧可让使用者有一个清楚明了的使用环境。
2.层次感
层次感是数据处理或表现上很重要的一环,懂得运用层次感,可以让人对数据的整体性、架构上有清楚的认识与了解,而不会有见树不见林的感觉。然而记录于纸上的数据其层次感大体上是很难表现出来的,虽然可借着特殊的安排来突显,但效果并不理想。[39]但数字化资料就没有这种困扰,因为数字化数据是属于「跳跃式资料」,使用者可以很轻易的从一笔数据跳到另一笔资料,而完全不必考虑中间是否还有其它数据存在。借着这样的特性,在管理数字化数据时就可以根据数据的内容,而将数据作层次性的整合。佛典研究数据库也可以借着这种整合方式,将整个数据库的轮廓、大纲先行点出、再一层一层的深入进去,如此便可对数据库有个「立体」的感觉,对数据库整体的认识绝对有正面的帮助。
p. 281
(三)佛典研究资料的检索
佛典研究数据的检索可说是最能看出其管理效能好坏的指标。好的管理效能就是能让使用者很容易便找到其所要的数据。从这个角度来探讨,可以比较出佛典研究资料在数字化之前与之后检索功能的差异。
数字化之前的佛典研究数据所具有的检索功能可说只限于某些书籍的索引(index),至于期刊数据可说完全不提供。而且在书籍最后面所附的索引只有标示出页码,使用者还是必须自行回到该页把所要的部份找出。此外,索引也没有AND、OR、NOT等布尔逻辑的检索功能。最麻烦的是还必须一本一本的找,可说非常没有效率。
数字化后的佛典研究数据其检索的功能是由检索系统来提供,不但可以布尔逻辑的方式检索,而且可以一次就把所有符合条件的资料全部找出,找出的数据还会以反白(或其它)的方式呈现,让使用者清楚知道其位置的所在。其效率之高是可以想象的。
四、佛典研究数据库的定位与价值
在前面论述佛典研究数据的高效能管理时,曾对数字化前与数字化后的佛典研究数据的管理作一比较式的说明。从说明中不难了解数字化后的佛典研究数据才可能会有高效能的管理。本论文所提出的「佛典研究数据库」其实就是由数字化后的佛典研究数据经完善的整合而产生。然而「佛典研究数据库」在整个数据库的领域中该如何定位?此外,图书馆的检索系统同样能提供快速的查询,两者有何差异?其价值为何?这些都是本章所要探讨的内容。
(一)佛典研究数据库的定位
在讨论佛典研究数据库定位的问题前,有必要先解决两个问题:⑴佛典研究数据库的内容为何?⑵数据库有哪些类型?解决这两个问题后,定位的问题自然就迎刃而解了。
p. 282
1.佛典研究数据库的内容
佛典研究数据库建构的目的并不在于取代原始文献,而成为一个全文数据库(fulltext database)。[40]其实是希望能扮演「指引」的角色,让使用者能很快的得知想研究之主题或问题的相关数据[41]之所在。要达成此目的,数据库的内容是最大的关键。然而,什么样的内容具有指标的特质,能让人依此而找到所要的数据呢?依个人管见,书籍部份:一手数据的品名、科判等标题资料及《大正藏索引》的相关部份;二手资料的书名、序或前言、目次等。另外,自身在读了一手数据的某一卷或品还是二手数据的某些章节时,所作的摘要、重点提示、关键词等也都属于这一类的资料。至于期刊部份:论文名称、标题、关键词,及个人心得、重点摘要、提示等都是。
2.数据库类型
在分析数据库的类型前,有必要对数据库的定义作更明确的叙述。[42]就在线信息检索系统而言,广义的数据库乃指针对某一主题、某一数据类型的需要,搜集相关的数据加以整理、分析,并将结果存入计算机可读的媒体中,以供各方使用。若就其它学科不同角度的定义,则有:
⑴某特殊企业机构中为一些应用系统所用而储存的一群作业数据。⑵是数据库管理系统(DBMS)中的各种数据库。⑶是一群有用而最少重复之数据单元,于适当的结构状况下储存,透过数据库管理系统,可提供各种需要数据。
给予数据库明确的定义后,将接着说明数据库的类型。数据库原则上可根据收录数据的形式,学科主题及数据形态这三种方式来分类。[43]
p. 283
1.依收录数据的形式
数据库依收录数据的形式大体上可分为文字数据库、数字数据库、文数字混合数据库及影像与声音数据库四种。
(1)文字数据库
文字数据库又可细分为书目数据库(bibliographic database)、专利商标数据库、名录数据库、全文数据库(fulltext database)。
①书目数据库
书目数据库是图书馆最早采用的在线数据库,主要以书目记载形式指示数据出处,有些则附加摘要。读者需进一步取得原始文献后,才算达成信息检索目的。
②专利商标数据库
专利商标数据库收录全世界或某一国专利及商标公告事项。
③名录数据库
名录数据库主要收录简单的事实数据,如传记名录、工商名录等。
④全文数据库
全文数据库即是将原始文献的全部原文数字化后加以储存而形成的数据库。此种数据库于1980年代开始呈现大幅成长的趋势。
(2)数字数据库
数字数据库主要收录的是原始数据或统计数据,如:实验数据、户口普查数据等。
(3)文数字混合数据库
此类数据库的内容包括文字与数字混合的数据,如:字典、手册等。
(4)多媒体数据库
随着电子信息的蓬勃发展,现在可说是一个多媒体的时代。随着多媒体被普遍的使用,自然也就有了多媒体数据库的产生。
2.依学科主题
若依学科主题来区分,则有科学、医学、工程、社会科学、人文学、商业经济、新闻与一般消息及法律等。
p. 284
3.依收录数据形态
收录数据的形态指的是所收录的数据是书籍或是期刊、技术报告、博硕士论文、会议文献等形态。不过,大多数数据库所收的数据形态为混合型,不单只有一种数据形态。
对佛典研究数据库的内容与数据库类型有明确的了解后,便可以来探讨佛典研究数据库的定位问题,亦即佛典研究数据库究竟是属于何种数据库?从上面数据库的分类中不难看出,若从收录数据的形式来看,属于文字数据库,类似其中的书目数据库,但又不限于书目,或许可看作是「改良型书目数据库」。若依学科主题分,属佛学数据库;若依收录数据形态分,则属混合型的数据库。
(二)佛典研究数据库的价值
佛典研究数据库这样一个「改良型书目数据库」究竟有何价值,为何本论文如此重视它呢?以及它与图书馆的检索系统、电子佛典这类的全文数据库有何不同?彼此间能否搭配着使用?
借着以下这两方面的说明,该可清楚点出佛典研究数据库的价值。
1.佛典研究数据库的必要性
对一个佛典研究者而言,能迅速掌握研究主题的所有相关数据是重要的第一步。然而,想借着图书馆的在线检索系统或是电子佛典来达成此目的都是很困难的。因为这两者本身就不是根据此目的而设计,当然会有其困难。以在线检索系统来说,虽然它可以「主题」、「作者」、「书名」、「关键词」等方法进行检索,但遇到像「阿毘达磨的研究中有关六因、四缘的相关数据」这类的问题时,在线检索系统根本就无能为力。电子佛典能做的就是把所有阿毘达磨论中有出现六因、四缘这些字的地方,通通找出来。这种做法在一手数据方面的确可完全掌握,但可能需要很多时间去过滤那些不必要的部份。但在二手资料的部份,即近代的研究成果方面则一点也帮不上忙。
反观佛典研究数据库,虽然在一手数据方面无法像电子佛典一样找到这么多数据,但在二手数据上,它却可迅速找出相关的研究成果,且从找到的二手资料中,
p. 285
可再继续找出相关的一手资料。可见佛典研究数据库有其必要的存在价值。
2.佛典研究数据库可与在线检索系统、电子佛典配合使用
使用佛典研究数据库找出相关数据后,可接着使用图书馆之在线检索系统找到该数据,或是使用电子佛典继续找出一手数据。反过来,使用电子佛典找出的一手数据,经过滤后得到的真正相关数据,可再存入佛典研究数据库中,或于佛典研究数据库中标示其所在,下次再有用到这些数据时,便可直接从佛典研究数据库中取得。
从以上两点的说明,应不难了解佛典研究数据库的价值所在。
五、以HTML及HTML Help建构与管理佛典研究数据库
前面的内容着重在佛典研究资料的高效能管理之理论说明,这部份则在阐述如何将理论转变成实际的行动,亦即如何以HTML及HTML Help来建构与管理佛典研究数据库。本文在一开始时便曾经说明为何要以HTML及HTML Help来建构与管理佛典研究数据库,主要的原因有实用、易学、经济这三项。
在使用HTML及HTML Help来建构与管理佛典研究数据库之前,有两点是必须要知道的:
(1)理想的佛典研究数据库该具备的条件为何?(2)可运用的方法为何?
若能对这两点有一清楚的认识,想建构出一个理想的佛典研究数据库相信就不会太难了。
(一)理想的佛典研究数据库该具备的条件
一个理想的佛典研究数据库该具备的条件最少可分为「内容、架构」与「操作接口」两方面。一个是「体」,一个是「用」,唯有体用兼备才能满足理想的佛典研究数据库的要求。
p. 286
1.内容、架构方面
一个理想的佛典研究数据库在内容与架构上该满足何种要求呢?答案可能莫衷一是,但有几点或许是共同认可的:
(1)分类明确
数据分类是数据管理上重要的一环,分类的好坏不但会影响整个数据库的效能,同时也是评估其价值的指针。良好的分类方式不但让使用者能迅速找到其所要的数据,更重要的是能具体的勾勒出整个数据库的架构,让人清楚了解到这个数据库的内容包含哪些方面。此外,在分类的同时若能考虑到近代的研究成果的话,相信此数据库会有更高的价值。因为如此能让人明白近代研究的趋势为何?哪些领域的研究最热门?哪些领域才刚在起步阶段?这样的认识与了解对有心想从事相关研究的人来说,可省下许多的摸索时间。因此一个理想的佛典研究数据库其分类的考虑必须是多方面的。
(2)层次分明
在前面曾提到「层次感」的问题(本文页280),这是数据库管理模式的特色与优点之一。懂得善用层次感来架构内容、分类数据,将可使得数据库的「整体性」更容易彰显,也更有立体的感觉。因此,「层次分明」是理想的佛典研究数据库必须具备的条件。
(3)内容精确
一个数据库不论分类得多好、层次感多佳,倘若内容不精确,终究是白忙一场。因为有问题的数据不但会误导研究的方向,甚至因此而得到严重错误的结论。所以在建构数据库的步骤中有一项是「检查」,[44]无非就是希望透过此方式将数据的错误减到最低。不过,真正的解决之道还是在于数据的输入时能尽可能的小心谨慎,多花一分心思,将来就可以省下许多不必要的修改工作。
(4)相关数据之连结(单一数据库内或与其它数据库间)
前面曾提到「相关性」这一项(本文页280),这是佛典研究资料很独特的一项属性。然而,相关性的数据在分类上可能由于某些原因,
p. 287
而被分到不同的类别中。举例来说,探讨「无为法」的数据中,有些是属于北传的说一切有部的,有些则属于南传上座部及其它部派等的数据,在分类上属于不同部派的思想。但是对想研究无为法的人而言,这些数据都必须参考到。因此,如何让这些相关的数据彼此间的连结能够建立,以便突破分类上的限制,形成完整的「数据网」,是建构一个理想的佛典研究数据库该正视的课题。
此外,另一个要考虑的问题是:不同数据库间的相关数据的连结。以《俱舍论》相关的研究数据为例,若我本身所建的数据库其内容是以梵、藏、汉三种语文的原典、注释数据为主;某一位好友的数据库却是有关《俱舍论》的近代研究成果。这两类数据虽然分属不同的数据库,但对我或他而言,可能都有用到对方数据的可能性,因为彼此间有相关性存在。由此可见不同数据库间的相关数据之连结也是需要重视的问题。然而,此问题却由于数据库间存在着不同的建构方法,没有一个共通的标准而变得复杂与困难。如「佛光大辞典」光盘版的数据就无法与CBETA的《大正藏》电子数据相结合,每次使用时都得分别打开两个数据库,且彼此间使用不同的检索系统也是大问题。不过,尽管佛学数据库间的整合仍有一大段路要走,但若彼此间能慢慢凝聚共识,逐渐订出一套共通的标准出来,相信对佛学数据的共享上能提供最直接的帮助。
2.操作接口方面
操作接口是整个数据库中与使用者最为接近的部份,一个数据库内容再充实、分类再好…,若操作接口吸引不了使用者的兴趣,终究是乏人问津。佛典研究数据库亦是如此,虽说不用作的太花俏,但基本的要求还是有的。
(1)操作简易
近年来软件的设计方式已愈来愈走向人性化,简易的操作已经是一致的要求,但操作简易并不代表功能会因此而受影响。相反地,常常可见操作非常容易,但功能却异常强大的应用软件出现。同样的,一个理想的佛典研究数据库也要具备这样的特质,才能让我们在使用前不需经过长时间的学习,
p. 288
开始使用后也不用常常翻阅使用手册。只要凭着直觉,并稍为阅读一下使用说明,马上就能够上手。
(2)接口和善
随着图形化接口的广泛运用,计算机与人的距离拉近不少。从微软(Microsoft)所推出的Windows 95、98在世界各地被普遍使用的情况来看,和善的操作接口已经逐渐成为软件在设计时不得不考虑的要素。佛典研究数据库也不例外,如何透过接口的巧妙安排,将生硬的内容加以柔化,让人能少几分畏惧,而增添其吸引力是佛典研究数据库的建构者该注意的课题。
(3)完善的检索功能
检索是数据库必备的功能之一,也是数据库能被广泛使用的重要因素。因此检索能力的好坏也关系着使用意愿的高低与否等问题。对一个佛典研究数据库来说,检索的功能可以弥补分类寻找[45]的不足。所以具有完善的检索功能[46]才能让佛典研究数据库的效能真正的发挥。
(二)可运用的方法
上一节讨论的是理想的佛典研究数据库该具备的条件,接着要探讨的是想具备这些条件,可以运用哪些方法来达成。可用的方法固然很多,但若以HTML与HTML Help的使用为主的话,大体上可分成以下几点:
p. 289
(1)表格(table)化的数据整理(2)超级链接(hyperlink)的活用(3)分割窗口(frame)的效果(4)多媒体(multimedia)的呈现(5)搜寻引擎(search engine)的使用
以下便逐一地加以论述,必要时会以「阿毘达磨研究数据库」为例来说明。
1.表格(table)化的数据整理
表格是数据库中常被使用到的工具,尤其在最近一、二十年关连式数据库(relational database)蔚为主流,在关连式数据库中所有数据都是以表格的方式来呈现,由此可见其重要性。虽然佛典研究数据库并不是关连式数据库,但表格的运用仍是建构过程中重要的一环。
因为透过表格的使用,可以将原本分类好的数据转变成一张张的资料表。借着数据表其独特的性质能让同一类的数据于其字段中清楚的显现。而字段数据即是一本书或一篇论文的基本数据,因此从一张数据表便可了解到某一类资料每一笔的情况为何。接着是以「阿毘达磨研究数据库」来作说明。
从「阿毘达磨研究数据库」的首页可清楚的看到整个数据库可分成「阿毘达磨论之研究指引与解题」、「南北传阿毘达磨论书」、「北(藏)传阿毘达磨论之文献研究」等共十三类。十三类中有的还可细分为「书籍」与「期刊」两类。每一类的基本资料都是以一张资料表来作说明,如:书籍类的数据表包含了序号、作者、书名、出版社、出版年份等字段;而期刊类的资料表则包含序号、作者、题名、关键词、出处、卷期、页次、出版年份等字段,每一字段均详细记录了某一本书或某篇论文的某项数据,使用者从这张数据表就可知道所有相关的背景资料。由此可以了解到表格化的数据整理在整个数据库的建构过程中,是多么重要的一项。
p. 290
2.超级链接(hyperlink)的活用
超级链接是HTML中最重要的功能之一,同时也是HTML(Hyper Text Markup Language)之所以称为HTML的原因。[47]它之所以重要就在于它能够把两份文件轻易地连结起来,即使这两份资文件是分属不同的计算机,只要能透过网络相连就办得到。
在佛典研究数据库中使用超级链接的机会非常多,任何两类或任何两笔相关的资料都可以超级链接的方式来建立彼此间的关系。甚至于只是想从某一笔数据跳到另一笔资料来阅读,两笔数据间并无任何关系,同样可透过超级链接来完成。在前面(页280)曾提到「层次感」与「相关性」这两项佛典研究数据库的优点,而这两项优点之所以能够产生,主要就是由于超级链接之故。
在「阿毘达磨研究数据库」中从首页到最后的数据内容的呈现,超级链接的运用可说是无所不在。即使HTML Help在作编译(compile)的动作时,整个数据库也因为超级链接的使用形成一阶层式的树状结构,操作上因此而简化许多。[48]
3.分割窗口(frame)的效果
分割窗口是网页经常会运用到的一个技巧,它的特色就在于画面被分成了几个子窗口,每个子窗口有其各自的URL,且若在某个子窗口内按下超级链接,内容还会在另一个子窗口中出现。这样的效果当运用在佛典研究数据库时,可让数据库在使用上变得更加容易。以下我们以「阿毘达磨研究数据库」来作说明:
在前面「表格化的数据整理」中(页289),曾提到数据库中的每一分类都是以一张数据表来记录其基本数据。而与这张数据表透过超级链接相连接的深一层数据,
p. 291
便是以分割窗口的方式来呈现(指本数据库中书籍类的数据内容)。这么做的好处在于当看完某一笔数据时,不必先回到资料表才能再进到另一笔资料,[49]只要在列出书名的子窗口中点一下书籍名称,其内容就会在旁边的子窗口中出现,不但节省时间更能提高使用效率。
4.多媒体(multimedia)的呈现
多媒体的呈现方式在今日已成为网页文件的基本要求,当然对数据库而言不见得非得如此,但若能稍为运用一下多媒体的技巧让数据库的操作接口「活起来」,以吸引使用者的兴趣,拉近与使用者的距离,也未尝不是件好事。
在数据库中最常使用到的多媒体数据形态不外乎动画与音效。这两种数据形态均可透过HTML中简单的标签(tag)的使用,而将效果具体地呈现出来。[50]
此外,图片的巧妙运用,如:按钮、分隔线、背景图、文字特效等都可让数据库更有美感,也更有活力,能使人摆脱对于数据库的刻板印象。
5.搜寻引擎(search engine)的使用
一个数据库想具有检索的能力,就必须要有搜寻引擎这样的检索软件才行。随着搜寻引擎能力的强弱,相对的数据库所具有的检索功能也会有所差别。
对佛典研究数据库来说,由于其内容包含了表格与文字,所以很难用Access等专门处理表格的数据库软件或是如OPEN 98的全文检索软件来提供检索的功能。[51]想要彻底解决此问题,就必须以程序语言来撰写一个专门针对佛典研究数据库的特质而设计的搜寻引擎才行。
p. 292
然而,对绝大多数不懂程序设计的佛典研究者来说,这是远远超出其能力所及的事,于是本论文才会提出以HTML Help来充当搜寻引擎的构想。HTML Help的检索能力虽然不是很强,但一般的情况相信还可以处理,而且在学习上也不困难,这对不会写程序的人而言,也算是一种不错的替代工具。[52]
六、结论
随着计算机科技的蓬勃发展,许多学科的研究已陆续与计算机的应用相结合早已是不争的事实。佛学界最近这几年来在这方面也开始有一些不错的成果发表,如《中华佛学研究所专辑》CD、《佛光大辞典》光盘版、《印顺法师佛学著作集》光盘、电子佛典…等,确实带给佛学研究者不少方便。
不过,尚待开发的地方还很多,本文所提出的「佛典研究数据库」就是一例。尽管图书馆的在线检索系统能方便的查询数据,但对佛典研究者而言,仍有许多研究数据无法藉由在线检索系统找出。至于电子佛典,则尚在起步阶段,许多佛典尚未完成数字化的工作。纵使佛典已全部数字化并可直接检索,充其量只解决了一手数据的取得问题,对于二手数据的部份仍是无能为力。换言之,在图书馆的在线检索系统与电子佛典之外,似乎还缺少了什么,而这样东西是可以弥补这两者的不足,让佛典研究者真正有效率的来找到所有相关的研究数据,「佛典研究数据库」正是扮演这样的角色。
本文试着从最基本的数字化资料的特质与管理谈起,接着论述佛典研究数据的高效能管理、佛典研究数据库的定位与价值、以及如何以HTML与HTML Help来建构与管理佛典研究数据库,希望透过这些说明让佛典研究者了解「佛典研究数据库」的重要。此外,值得一提的是「佛典研究数据库」的实用、易学、经济这三个特性,使得此数据库是可以由佛典研究者自行建构与管理的。自行建构与管理最大的好处是可完全依据自身的需求去做规划,
p. 293
将原本使用卡片、纸、笔等工具的传统模式转变成具有高效能的数据库管理模式。
本文由于时间与笔者自身能力等因素的关系,只能提出「佛典研究数据库」的理念及简要的说明,不论在深度或广度上都明显不足。将来若有机会,希望能在在线信息检索的理论与应用及数据管理、数据库理论、甚至数据库软件及下一代的标记语言XML等方面作加强,期能对佛典研究数据的管理在方法上做出贡献。
二十一世纪的佛学研究会有哪些转变,目前尚不得而知。但有一点是可以确定的,那就是与信息科技的关系会日趋于密切。当然这并不是意味着不懂得运用计算机的人就会被时代所淘汰,而是懂得运用计算机将可使其研究工作有着如虎添翼的功效。「佛典研究数据库」正是希望秉持这样的理念,提供佛典研究者一个好用的工具,使其真正了解信息科技的运用所能带来的便利。
p. 294
附录一 佛典研究数据库的建构与维护
附录一的部份是根据自身建构与维护《阿毘达磨研究数据库》的经验与心得,经分析、归纳、整理后而产生。主要的目的是希望能给佛典研究者一个参考的方向,减少一些摸索的时间,尽快学会建构与维护数据库的技巧,以早日迈入高效能的管理时代。
在数据库的建构上共有七个步骤,而在数据库的管理上则有两种方法。建构数据库的七个步骤为:1.资料的搜集与分类整理,2. HTML与HTML Help的学习,3.设计数据库的架构与呈现方式,4.数据的数字化与整合,5.检查,6.创造具有亲和力的界面,7.加入搜寻、检索功能。
而维护数据库的两种方法为:1.资料的增补,2.调整架构。
一、建构数据库的七个步骤
(一)资料的搜集与分类整理
这是建构数据库的第一步,也是最基础的一步,这一步没有做好,就不可能建构出理想的佛典研究数据库。这个步骤其实包含了数据的搜集与分类整理两部份,而这两部份的处理方式是截然不同的。因此,我们将其分开来处理。
1.资料的搜集
资料的搜集看似简单,实际上却大有学问。如何在有限的时间中找出所有的相关数据是需要方法与技巧的,光靠勇气与毅力是行不通的。以下就提供几点作为参考。
(1)使用图书馆的检索系统
这是最直接的方式,但一般而言,功效有限。因为图书馆的检索系统虽然可使用许多种方法,如:书(刊)名、作者、出版社等来作查询。但是当我们要搜集某个主题的相关数据时,将会发觉大概只有书(刊)名的查询可勉强派的上用场。然而,却有许多的相关资料无法从书名看出,
p. 295
因为它可能只是书中内容的一小部份。至于期刊部份的相关数据可能就更加无能为力了,除非该检索系统已经将所有期刊的目录数据、关键词等建档管理,并可直接检索。不过尽管如此,使用本方法来搜集数据,仍是最基础而不可或缺的第一步。
(2)利用一些介绍性质的数据
某些书籍的附录或期刊论文会介绍某个研究领域截至目前为止有哪些研究数据,利用这种方法可以弥补第一种方法的不足。譬如在绪论的「研究方法及其步骤」中曾提到的「日本的阿毘达磨佛教研究」这篇期刊论文就是典型的例子。
(3)参考已搜集到的书籍或期刊论文中的「引用、参考数据」
如果某些研究领域或主题并没有上述的介绍性质的资料的话,则只好参考已搜集到的书籍或期刊论文中的「引用、参考数据」,再从这些「引用、参考数据」中的「引用、参考数据」找出更多的相关数据。
(4)请教相关领域之研究者
如果方法都用尽了还是无法搜集到所要的资料的话,那只好请教相关领域之研究者了。只是若非师长或好友,别人恐怕也不愿轻易奉告。
2.分类整理
数据如何分类是重要的课题。在本文「理想的佛典研究数据库该具备的条件」中,曾提到「分类明确」这一项(本文页286)。数据库的内容之所以能够分类明确,有赖于建构数据库前数据分类整理的步骤,这两者其实是一体的两面,密不可分。分类的方法有许多种,且可能会随着建构者的动机与目的而有所不同,但无论如何有一点是必须谨记在心的:分类前不要预设太多的立场,尽可能根据所搜集到的资料的性质来作分类,如此才能真正符合现况。
p. 296
(二)HTML与HTML Help的学习
这个步骤算是使用工具的学习,数据库能否建成这是最重要的关键。在本文一开始就说明使用HTML与 HTML Help的三个重要原因:实用、易学、经济。可见想要学会这两种工具并不困难。首先说明HTML的学习。HTML其实就是由许多的标签(tag)所组成,标签本身有其固定的用法,透过这些标签的使用来产生我们想要的效果,如:超级链接、分割窗口、表格、文字大小、字型等。由于HTML是标记语言(markup language),而不是程序语言(programming language),因此不需要有程序设计的经验或是受过很严谨的逻辑训练,只要能学会使用那些标签的用法,自然就能驾轻就熟。最简单的方法就是找一本 HTML的使用说明书,按照其说明亲自上机操作,相信很快就会有成果出来。另一个重要的方法就是多观摩别人的网页,特别是一些优秀的网站,再参阅该网页的原始档,必能从中学会许多实用的技巧。
此外,若是觉得HTML的学习还是很难的话,则不妨改用网页编辑软件,如:FrontPage等,那就连学习HTML的时间都省下来了。
至于HTML Help它原本是个在线辅助说明系统,使用它的理由是因为其「搜寻」与「检索」这两项功能可以弥补HTML的不足。正因为如此,所以我们不必花时间在其它不相关的部份,只需学会如何把数据编译(compile)起来,同时具备搜寻、检索的功能即可。因此,只要把《Official Microsoft HTML Help 创作工具》第三章的部份看懂,相信不会有什么大问题。
(三)设计数据库的架构与呈现方式
这个步骤是在完成了资料的搜集与分类整理,同时也学会了HTML与HTML Help这两项工具的使用后,在真正开始着手建构数据库之前,必要的一个过程。因为搜集完资料也完成分类整理后,对想建构的数据库的内容应该会有一整体性的认识,加上学会了HTML与HTML Help之后,对这两项工具的功能也会有一定程度的了解,此时若能先对数据库的架构与呈现方式作一规划的话,就如同盖房子前先把蓝图画好一样,
p. 297
将来只要按图施工即可,纵使将来真正建构数据库时出了状况,也可据此架构而进行修正。否则,没有一个整体性的规划,想到什么做什么,不但浪费时间,且建成的数据库的质量也是大有问题。
(四)数据的数字化与整合
在前面三个暖身的步骤后,数据的数字化与整合这个步骤真正踏入数据库的建构中。对一般的数据而言,数字化与整合的过程该不会有问题才是,只要按照步骤三所规划好的架构将数据一一的加到数据库中即可。会有问题的资料主要可分为两类:一、梵、巴、藏文;二、中文缺字与特殊日文汉字。[a1]以下分别来说明。
梵、巴、藏文:若只是要在浏览器(browser)中显示梵、巴、藏文的转写的话,可使用Foreign1这个字型来解决,但若是要正确的显示天城体(Devanāgarī)或是藏文在目前Windows 95、98的操作系统下仍有困难。或许在Windows 2000支持unicode之后,这问题可以获得解决。
中文缺字与特殊日文汉字:这个问题最简单的解决方式就是使用组字的方法,如中华电子佛典协会(CBETA)所采用的一般,如:明=〔日*月〕、音=〔立/日〕、闲=〔间-日+月〕等。[a2]但如果坚持要在浏览器中显示正确的字型,在中文缺字方面大体上可藉由「汉字库」[a3]来达成,而在特殊日文汉字的部份,或许无虾米输入法及向量科技所出版的「外字工坊 for 无虾米输入法」的字型软件可帮得上忙。
(五)检查
检查是为了提高数据库中的数据的准确度。对佛典研究者而言,使用不正确的数据所带来的后果是难以想象的。
p. 298
因此在所有数据都完成数字化之后,在进行下一步的动作之前,有必要从头到尾好好的检查几遍,如此才能有效的降低使用错误数据的可能性,真正发挥高效能管理的功效。
(六)创造具有亲和力的界面
数据库的操作接口就如同其门面一样,拥有再好的架构、内容,若无法提供使用者一个具有亲和力的界面,一定会降低其使用的意愿。因此,如何创造一个具有亲和力的接口也是建构数据库的过程中一个重要的步骤。由于数据库是以HTML与HTML Help来建构,所以想要创造具有亲和力的界面一点都不困难。
HTML的卷标中本来就有提供使用图片、动画、音乐等的功能,若觉得不够还可以从网络上下载一些以 javascript、VBScript所写成的小程序,将其加到HTML中,便可让操作接口真的活了起来。不过在进行的过程中,可能会使用到影像处理软件,如:Photoshop、PhotoImpact、达文西等。因为一些图标、按钮、文字特效等都需要透过影像处理软件才有办法解决。不过不用担心,影像处理软件的学习并不困难,而且只要学会基本的使用即可。况且有的影像处理软件还是免费的呢![a4]
(七)加入搜寻、检索功能
这个步骤是建构数据库的最后一步,目的就是希望借着HTML Help之助,让辛苦建成的数据库能具有搜寻、检索的功能,以便让数据库能有更高的管理效能。
二、维护数据库的两种方法
数据库的维护与建构可说是同等的重要,不懂得维护的数据库其效能必定低落,
p. 299
且提供的数据内容也无法满足需求,最后一定会面临被弃置的命运。不过由于佛典研究数据本身性质的关系,使得数据库的维护与建构相较,显得容易许多。以下就维护数据库常用的两种方法逐一的来加以探讨。
(一)资料的增补
在前面论述佛典研究资料的性质时,曾提到「固定性」这一项(本文页277),也就是因为这一项性质,使得佛典研究数据库在维护上容易许多。因为建构完数据库后,剩下要做的工作就是不定期的把新增的数据,如:刚发表的期刊论文、刚出版的新书、及自己最近的研究成果、心得等加到数据库中,不必考虑旧有的数据是否需要修改、删除等问题。换言之,资料的增补是唯一要做的事。不过,当增补的数据累积到某一个程度时,原先的架构可能会变得无法负荷,而使得整个数据库的效能降低,此时就是该调整数据库架构的时候了。
(二)调整架构
数据库架构的调整也是维护数据库的一种方法。常见的调整方式是增加其分类的项目以符合实际的需求。不过由于架构的调整不像数据的增补那么容易,何时才是调整架构的最佳时机是值得探讨的课题。且在调整架构前也可以对新增的数据作一些处理,如可以归类到旧有的分类中就将其归类进去,若无法归类的话,可先将这些数据全部都放在一个名为「新增数据」的分类中,待累积到一定程度时,再来考虑该增加何种分类项目或许会较为理想。
p. 300
附录二 「阿毘达磨研究数据库」简介
附录二的部份是希望对「阿毘达磨研究数据库」做一个概略性的介绍,以助于此数据库的使用者能更方便的来使用。而介绍的内容包括以下几项:⑴数据库涵盖的范围及其内容,⑵数据库的架构,⑶数据库的使用。
一、数据库涵盖的范围及其内容
「阿毘达磨研究数据库」所搜集的范围主要是以近代欧美、日本、台湾在阿毘达磨论(北传、藏传、南传)的入门、文献、语言文字、思想其它这四方面的研究之书籍、期刊资料为限,而不涉及阿毘达磨论之原典资料。其内容是由上百本的书籍与五百多篇的期刊论文所组成。
二、数据库的架构
整个数据库的架构可先分为入门、文献、语言文字、思想研究、其它这五部份。入门的部份由「阿毘达磨论之研究指引与解题」、「南北传阿毘达磨论书」两个主题所组成。文献研究的部份可分为「北(藏)传阿毘达磨论之文献研究」与「南传阿毘达磨论之文献研究」。语言文字方面的研究则不再细分。思想研究的部份则可细分为「部派异论研究」、「阿毘达磨思想泛论」、「阿毘达磨论之单一思想研究」、「阿毘达磨论之思想比较研究」、「阿毘达磨论之思想研究──各部派通论」、「阿毘达磨论之思想研究──单一部派」、「阿毘达磨论之思想研究──单一论书」七个主题。此外,有些独特的数据无法适切的分到这些主题时,则将其置入「其它类」中统一管理。以下分别对各部份的主题加以说明。
(一)入门
(1)「阿毘达磨论之研究指引与解题」
这个主题是搜集与阿毘达磨论有关的研究指引,如《佛学研究入门》、《佛学研究指南》等书,提供有关研究阿毘达磨最基本的资料。
p. 301
(2)「南北传阿毘达磨论书」
这个主题包含了北传阿毘达磨论书与南传阿毘达磨论书的背景资料,如:经号、册数、作者、译者、卷数等。
(二)文献
(1)「北(藏)传阿毘达磨论之文献研究」
搜集目前有关北(藏)传阿毘达磨论在文献研究上的资料。
(2)「南传阿毘达磨论之文献研究」
搜集目前有关南传阿毘达磨论在文献研究上的资料。
(三)语言文字
搜集目前有关研究南、北传阿毘达磨论的语言、文字方面的数据。
(四)思想研究
(1)「部派异论研究」
搜集论述部派异论的书籍、期刊数据。
(2)「阿毘达磨思想泛论」
搜集较全面性的探讨阿毘达磨思想之数据。
(3)「阿毘达磨论之单一思想研究」
搜集研究阿毘达磨论中之单一思想的资料。
(4)「阿毘达磨论之思想比较研究」
搜集研究两(数)个阿毘达磨思想的比较之数据。
(5)「阿毘达磨论之思想研究──各部派通论」
搜集通论各个部派思想之资料。
(6)「阿毘达磨论之思想研究──单一部派」
搜集论述单一部派思想之资料。
(7)「阿毘达磨论之思想研究──单一论书」
搜集论述单一论书思想之资料。
p. 302
(五)其它
无法归类到上述主题的研究数据皆收于此。
以上的分类方式纯粹是根据所搜集到的资料,依其性质、内容去作区分,不事先预设立场。这么做的好处可如实反映近代的研究成果,并清楚勾勒出其轮廓。
三、数据库的使用
「阿毘达磨研究数据库」的使用方式有两种:
⑴若想寻找某一类型的资料,如有关《俱舍论》思想研究方面的资料,可先点选「阿毘达磨论之思想研究──单一论书」→《俱舍论》即可。换言之,依所欲寻找的数据类型直接点选合适的主题即可。
⑵若不知该点选哪个合适的主题,则可使用HTML Help所提供的检索功能。此检索系统有AND、OR、NOT、NEAR四种布尔逻辑可使用,检索到的数据会以反白的方式呈现。
p. 303
【参考数据】
一、书籍类
(一)外文
Date, C.J. 1983. Database: A Primer (Reading,Mass:Addison-Wesley)
Jakob Nielsen, 1990. Hypertext & Hypermedia (San Diego: Academic)
Nigel Woodhead, 1990. Hypertext & Hypermedia Theory and Applications (Wilmslow: Sigma)
Charles F. Goldfarb, 1992. The SGML Handbook (Oxford:Clarendon)
David Crystal, 1994. The Cambridge Encyclopedia (Cambridge: Cambridge University Press, 2nd edn)
Richard Light, 1997. Presenting XML (Indianapolis:Sams.net)
(二)中文
李世杰,1962.《佛教图书分类法》(台北:台湾佛教月刊社)
蔡明月,1991.《在线信息检索——理论与应用》(台北:学生)
陈惠珍编,1993.《德妙佛学数据中心图书目录》第一辑(南投:正观)
陈昭珍,1994.《古籍超文件全文数据库模式之探讨》(台北:台湾大学图书馆学研究所博士学位论文)
陈攸华,1995.《图书信息学研究》(台北:文华图书馆管理信息)
香光尼众佛学院图书馆,1996.《佛教图书分类法1996年版》(嘉义:香光书乡)
黄慕萱,1996.《信息检索》(台北:学生)
施威铭研究室,1996.《轻松学会javascript》(台北:旗标)
王秀琴、谢添基编,1997.《德妙佛学数据中心图书目录》第二辑(南投:正观)
黄加佩译,1997.《数据库系统概论》(Date, C.J着,台北:儒林,第六版)
施威铭研究室,1997.《98 HTML与HomePage设计实务》(台北:旗标)
1997.《Homepage制作高手》(台北:旗标)
陈智伟编译,1997.《Java/javascript最新版教战手册》(Loren Bandiera, Christopher Haddad着,台北:文魁信息)
杰利小子,1997.《达文西V3.5私房学院》(台北:新人类信息科技)
周 钧,1997.《FrontPage 98实战手册》(台北:碁峰信息)
张宝源译,1998.《Official Microsoft HTML Help创作工具》(Steve Wexler着,台北:碁峰信息)
张宝源,1998.《HomePage设计工具箱》(台北:碁峰信息)
孙昱译,1998.《HTML 4最新版教战手册》(Lois Patterson着,台北:文魁信息)
p. 304
许嘉纯,1998.《PhotoImpact 4中文版——影像网页制作大师》(台北:松岗计算机图书信息)
施威铭研究室,1999.《IE5 DHTML设计实务》(台北:旗标)
太平洋邻里协会秘书处总编辑,1999.《太平洋邻里协会一九九九年会论文集(Proceedings of 1999 EBTI, ECAI,SEER&PNC Joint Meeting)》(台北:中研院计算中心)
二、期刊类
释厚观,1993.〈日本的阿毘达磨佛教研究〉,《谛观》72
庄德明,1998.〈汉字缺字处理与梵巴藏字母的输入〉,《佛教图书馆馆讯》14
维习安,1998.〈数字化中文佛教大藏经〉,《佛教图书馆馆讯》15
杜正民编译,1998.〈当代国际佛典电子化现况:电子佛典推进协议会(EBTI)简介〉,《佛教图书馆馆讯》15
三、网络数据类
Academic Text Service (ATS) at the University of Stanford
http://www-sul.stanford.edu/depts/hasrg/ats/ats.html (7/31/1999)[a5]
Centre for Computing in the Humanities King's College London
http://ilex.cc.kcl.ac.uk/ (7/31/1999)
CETH (Center for Electronic Texts in the Humanities)
http://scc01.rutgers.edu/ceth/ (7/31/1999)
Electronic Text Center at the University of Virginia
http://etext.lib.virginia.edu/ (7/31/1999)
HTML的相关网站
07/02/1999, http://www.w3.org/MarkUp/ (8/1/1999)
p. 305
HTML Help的相关网站
07/16/1999, http://msdn.microsoft.com/workshop/author/htmlhelp/ (7/31/1999)
XML的相关网站
07/21/1999, http://www.w3.org/XML/ (8/1/1999)
中国文学网络研究室
http://cls.admin.yzu.edu.tw/ (7/31/1999)
台大佛学中心
07/09/1999, http://ccbs.ntu.edu.tw/ (7/31/1999)
德妙佛学资料中心
10/12/1997, http://nt.med.ncku.edu.tw/biochem/lsn/034/library.htm/ (7/31/1999)
谢清俊
1994.〈语文工作与信息发展──从电子文件的发展谈对语文研究的期盼〉
(作者于国立台湾大学文学院主办的当前「语文问题学术研讨会」中发表)
1997.〈文字﹑语言与数字媒介〉(作者于中研院历史语言研究所发表)
以上两篇文章已收录于中研院文献处理实验室的网站:
http://www. sinica. edu.tw/~cdp/之中。
四、光盘类
佛光文化事业,May 1997,《佛光大辞典光盘版》
财团法人印顺文教基金会,Jan.1999,《印顺法师佛学著作集》(光盘版)Vev.2.0
中华佛学研究所,June 1999,《中华佛学研究所专辑》第三版
中华电子佛典协会(CBETA),March 1999,《CBETA电子佛典系列──般若部、法华部、华严部、宝积部、盘部、大集部、经集部、密教部、律部、释经论部、毘昙部、中观部、瑜伽部、论集部》
[1] 在The Cambridge Encyclopedia p. 324中对数据库(database)一词解释如下:A file of computer data structured in such a way that it can be of general use and is independent of any specific application. This information can be managed by a database management system (DBMS), a software system or program which allows data to be modified, deleted, added to, and retrieved from one or more databases. 关于数据库的其它定义与说明,请参阅本文页281~284。
[2] 关于目前佛学界在数据库应用上的成果在下文的「当代佛学界的研究成果回顾」中会有较详尽的讨论。
[3] 所谓高效能的管理方式指的是以高效率、多功能的形态来处理佛典研究数据的相关事宜,如:数据的搜寻、检索、连结、增补等。
[4] 本文将此数据库名为「佛典研究数据库」。详细论述请参阅本文页281~285。
[5] 请参阅「阿毘达磨研究数据库」光盘。
[6] Tim Berners-Lee在1989年发表的一篇论文促成了HTML的诞生。目前HTML的标准制定单位为W3C(World Wide Web Consortium),最新的版本是4.0版。有关HTML的相关说明可由该网站(http://www.w3.org/MarkUp)上得知。
[7] HTML Help是由微软(Microsoft)公司所发展出来的在线辅助说明系统。详细说明可参阅张宝源译《Official Microsoft HTML Help创作工具》一书,或微软的网站:http://msdn.microsoft.com/workshop/author/htmlhelp/
[8] 关连式系统可说是今日数据库领域中的主流,从1970年代末期以来,数据库方面的发展几乎都是关连式的。然而关连式系统的一个重要特性就是使用者所看到的数据都是表格。参阅C.J.Date《数据库系统概论》第六版,页1~27。这对佛典研究数据库的建构来说,是有其困难的。
[9] SGML是在1986年由瑞士日内瓦的国际标准组织(ISO)所制定(ISO 8879)。有关SGML的详细说明,可参阅Charles F. Goldfarb, The SGML Handbook一书。
[10] 虽然某些少数的佛典研究数据由于其独特的格式而使得HTML在处理上不尽完善,但若对格式没有那么严格要求的话,则HTML仍就可以适用。此外,笔者会考虑以HTML来建构数据库还有另外一个原因:当笔者在考虑该用何种语言来建构数据库时,恰好此时因特网(Internet)上的中文入口网站纷纷成立,其所使用的数据分类的模式与超级链接的运用等正好可用于佛典研究资料上,而网页正是以HTML所写成,于是有了以HTML来建构佛典研究数据库的想法。
[11] 中华电子佛典协会(CBETA)所发行的电子佛典系列大正藏第一至第三十二册(March 1999)亦使用HTML Help来提供检索的功能。
[12] 以HTML来建构数据库只需有文字编辑软件,如Wordpad即可。当然使用网页编辑软件,如Frontpage亦可,只是需要额外花钱购买。至于HTML Help的开发工具Workshop可由微软的网站:http://msdn.microsoft.com/workshop/author/htmlhelp/免费下载。
[13] 《谛观》72,页1~54。
[14] 《德妙佛学数据中心图书目录》第一、二辑。
[15] http://nt.med.ncku.edu.tw/biochem/lsn/034/library.htm
[16] 这两种分类法在阿毘达磨部份大致相同,分为发智诸论、六足论、阿毘昙诸论、俱舍论、顺正理论、显宗论等。参阅李世杰《佛教图书分类法》页20~21,香光尼众佛学院图书馆《佛教图书分类法1996年版》页77~78。
[17] 亦即可以任意的增补、修改数据,且数据彼此间能快速的连结等。
[18] 如谢清俊教授在中研院网站上(http://www.sinica.edu.tw/~cdp/)的文章及元智大学罗凤珠的中国文学网络研究室(http://cls.admin.yzu.edu.tw/)的网页说明。
[19] 如CETH(Center for Electronic Texts in the Humanities)、Centre for Computing in the Humanities King's College London等。
[20] 如蔡明月《在线信息检索——理论与应用》、黄慕萱《信息检索》等书。
[21] 如中观、唯识学派等。
[22] 如说一切有部、正量部、经量部、南传上座部等。
[23] 如天台、华严、禅宗、净土等宗派。
[24] 台大佛学中心的网站(http://ccbs.ntu.edu.tw)便搜集了许多这类型的网站。
[25] March 1999正式版。
[26] 有关这方面的详细说明可参阅《佛教图书馆馆讯》第15期,页28~39。本文为杜正民题为〈当代国际佛典电子化现况:电子佛典推进协议会(EBTI)简介〉的一篇文章。EBTI(Electronic Buddhist Text Initiative)是由世界各地从事佛典电子化的学术与佛教单位所共同组成。从1993年举办首次会议以来,今年(1999)元月18~21日在台北的中研院举办的是第五次的会议,之后并有论文集发行。
[27] Ver 2.0(1999.1.15)财团法人印顺文教基金会。
[28] 1997年版由高雄佛光山发行。
[29] 除了这三类外,少数由佛教团体所制作的光盘大多为弘法性质,故不在讨论之中。
[30] 关于这部份的说明可参阅谢清俊教授的两篇文章:〈语文工作与信息发展──从电子文件的发展谈对语文研究的期盼〉、〈文字、语言与数字媒介〉。(以上两篇文章已收录于中研院文献处理实验室的网站http://www.sinica.edu.tw/~cdp/中。)
[31] 数字化数据的内容可以是文字、图、表、声音、影像等,凡是可经由数字化的过程将原本的数据型态转变成可由计算机透过软件来处理的数据皆可称之为数字化数据。
[32] 有关数据库系统的详细说明可参阅黄加佩译《数据库系统概论》第六版的第一、二章的内容。
[33] 引自黄加佩译《数据库系统概论》第六版,页1~5。
[34] XML在1998年2月已由W3C(World Wide Web Consortium)通过其建议书,此种标记语言最大的特色就在于其简化了SGML的复杂度,但同样允许使用者自定格式,且适合在网络上传输等。目前IE5及Office 2000已完全支持XML1.0。有关XML的详细说明可参阅W3C的网站:http://www.w3.org/XML/ 或Richard Light, Presenting XML一书,施威铭研究室《IE5 DHTML设计实务》第十六章也有简要的说明。
[35] 在自订格式上,HTML较无能为力。
[36] 有关佛典研究数据库在维护上的详细说明请参阅附录一的部份。
[37] 有关此问题的探讨在附录一〈佛典研究数据库的建构与维护〉中会有较详尽的论述。
[38] 如《西藏大藏经》的北京版与德格版、拉萨版等在内容上就有许多差异。而巴利原典的P.T.S.版与缅甸的第六次结集(Cha??ha Sa?gāyana)版的内容同样也有不同。
[39] 因为记录于纸上的数据原则上我们可将其视为是「直线式的数据」,就如同记录于录音带、录像带上的数据一样,虽然可用「快转」的方式来读取数据,但却不能「跳跃式」的来读取,如CD、VCD一样。如此,使用者便较难感觉出层次性的存在。
[40] 关于全文数据库请参阅下文「数据库类型」的说明。
[41] 包括一手与二手数据。
[42] 关于以下对数据库的定义请参阅蔡明月《在线信息检索——理论与应用》页51~53。
[43] 关于数据库类型的详细说明请参阅蔡明月《在线信息检索——理论与应用》页57~62。
[44] 详细说明请参阅附录一的相关部份。
[45] 分类寻找的意思是根据所要找的数据属于数据库内容的何种类别而进行的寻找方式。以「阿毘达磨研究数据库」的分类法来说,想要寻找有关《俱舍论》文献研究的资料,一开始先选「北(藏)传阿毘达磨之文献研究」类,接着选「单一论书」类中的「俱舍论」。
[46] 「完善的检索功能」其实是很含糊的说法,检索功能是否完善常常是取决于数据库的使用者,不同的使用者可能会有不同的需求。厚观法师在《佛教图书馆馆讯15》页43中曾提到心中理想的全文检索功能:1.布尔逻辑,2.隔行检索,3.万用字符,4.再检索,5.缺字检索,6. 2 bytes中文检索引擎,7. fuzzy检索。或许可作为参考。
[47] 「Hypertext这个用法是Ted Nelson先生于1965年的杰作,意指:不局限于文件型式的文件,我们称之为超文件。超文件最大的特色是:可以与其它文件连结。」以上文字节录自Lois Patterson着、孙昱编译《HTML4最新版教战手册》页1~4。
[48] 关于HTML Help的使用说明,请参阅附录一的部份。
[49] 虽然在每笔数据的最后可使用超级链接的方式直接连到另一笔数据,但若笔数很多时,此方式就不太适合。
[50] 详细的说明请参阅附录一的内容。
[51] OPEN 98是由巨石工作室(Macrostone Workshop)所研究开发。
[52] 有关HTML Help较详尽的说明请参阅附录一的内容。
[a1] 所谓特殊日文汉字指的是日本人自己造的汉字,而非中国固有的汉字。如:佛、、等字。
[a2] 请参阅CBETA电子佛典系列大正藏册5~10光盘 (file:///D:/CBETA/HTML/HELP/VERSIONS.HTM#组字式,D为光驱代号。)
[a3] 「汉字库」是由巨石工作室与中央研究院文献处理实验室合作所制造完成的,内含五万余个汉字。
[a4] 如PhotoImpact 3.02版就可免费取得,《阿毘达磨研究数据库》中的图标、文字特效等大多数都是以此软件来完成的。
[a5] 网站数据的书写格式是参考MLA-Style Citations of Electronic Sources(http://www.columbia.edu/cu/cup/cgos/idx_basic.html)之2.8 The World Wide Web(WWW)Humanities Style的写法而成。第一项日期(月/日/年)代表网站的最近更新日期(若无则省略),接着是网址。最后括号内的日期(月/日/年)是笔者最近一次上该网站的日期。以下网站数据的书写格式同此。
欢迎投稿:307187592@qq.com news@fjdh.com
QQ:437786417 307187592 在线投稿
2.佛教导航欢迎广大读者踊跃投稿,佛教导航将优先发布高质量的稿件,如果有必要,在不破坏关键事实和中心思想的前提下,佛教导航将会对原始稿件做适当润色和修饰,并主动联系作者确认修改稿后,才会正式发布。如果作者希望披露自己的联系方式和个人简单背景资料,佛教导航会尽量满足您的需求;
3.文章来源注明“佛教导航”的文章,为本站编辑组原创文章,其版权归佛教导航所有。欢迎非营利性电子刊物、网站转载,但须清楚注明来源“佛教导航”或作者“佛教导航”。