以CBETA为例 谈大量文献之建立——汉文藏经电子化作业简说
以CBETA为例 谈大量文献之建立
——汉文藏经电子化作业简说
杜正民
中央研究院计算中心通讯
第15期第13卷 (1999.06.21)
页117-122
--------------------------------------------------------------------------------
中华电子佛典协会简介
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
「中华电子佛典协会(CBETA)」自1998年2月15日成立以来,此次的EBTI会议可说是首次对国外团体发表其作业内容与成果,会中获得颇多的回馈与回响。因此,谨藉此文就「中华电子佛典协会」一年来,制作汉文电子佛典的作业流程、程序开发、缺字处理、看图校对、标记订定及解决困难等项目,就教于专家学者。并且,就新近发行的成果内容做一简介,如电子文件的分类、采用SGML档案的方法、以及未来展望等相关信息,与关心佛典电子化的先进分享,期能因此获得更多的指正与协助。
首先,简单说明CBETA的工作目标与宗旨,CBETA是以学术界通行的《大正新修大藏经》为底本,初期以完成第1-55册及第85册藏经电子化为标的。因此,CBETA与日本「大藏出版株式会社」,经双方进行多次的交流与修改契约书之后,于1998年9月30日正式完成签约。契约中,「大藏出版株式会社」除授与CBETA使用《大正新修大藏经》的权限外,并同意CBETA发行《大正藏》电子版的网络版与光盘版等权益(注一)。
依此目标达成的成果,就如CBETA的网页声明,是「免费提供电子佛典数据库,以供各界作非营利性使用」,则为CBETA的主要宗旨。
有关CBETA的作业流程简述如下:
CBETA的工作小组分为「输入组」、「校对组」、「缺字组」、「信息组」、「网络组」及「研发组」等。依小组功能,CBETA的作业程序则为:由「输入组」准备先行工作及提供所需的素材,交由「校对组」进行数据比对等作业,「缺字组」发展缺字表达方式,「信息组」提供必须的运作程序,「研发组」提供作业方针,最后则由「网络组」将成果与相关数据呈现于网页上。有关CBETA的工作流程,试以图一之流程图表示之:
CBETA作业流程说明
 ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄ ̄
今依上述流程图,简说CBETA的作业情形,藉以了解汉文佛典的制作状况。兹将CBETA作业进行的方法与步骤简述如下:
数据输入
 ̄ ̄ ̄ ̄
「输入组」的工作,主要是以扫描及辨识的方式进行,如有必要则负责打字输入或寻找其它资源,为不浪费资源,CBETA尽量不用人工键入的方式进行输入工作,如能取得合作单位的认可,则可代为校对,并将所得结果做成校勘表送回原单位,以利双方作业顺利进行(注二)。
在工作过程中,由于丹青系统的「力新国际公司」研发部几个月来的协助,终于研发出「丹青for CBETA版」的丹青OCR辨识软件;此软件纯为CBETA的输入作业而设计,旨在提升汉文佛典的辨识效率,以加强工作速率,及解决《大正藏》特有的双行小注的辨识等问题。
由于「力新国际公司」的鼎力支持,替CBETA的输入工作解决很多困难,因而可以在第一年年底前完成《大正藏》55册所有扫描工作、转换辨识文字、提供比对图文件等业务。
缺字处理
 ̄ ̄ ̄ ̄
CBETA为解决缺字的问题,因而成立「缺字组」以求突破计算机缺字的困难。CBETA缺字的工作可分为几个步骤:初步工作,以着重于现有缺字的「形、音、义」及「通用字」的数据查询及整理等工作。呈现方面则又可分为「普及版」与「学术版」两方面,本段先就「普及版」简介之,CBETA为考虑让使用者能在纯文字环境下阅读,不需另外安装造字档或是图文件,因而采用系统字(Big-5)的组字方式,亦即「一般组字式」(注三),作为「普及版」佛典缺字的表达方法。这种方式除了可以提供阅览、散播上的便利性外,也不会占用使用者对造字档自行运用的空间等特性。此外,CBETA「普及版」中大部份的缺字是以通用字来取代,少部份没有适当通用字的缺字亦附有图档,以补「组字式」之不足。
当然,不同的缺字表达方法各有其利弊,因此CBETA建立一缺字数据库,来达成不同缺字格式的转换,因此在光盘中HTMLHelp版本的缺字处理,便同时利用了组字式和图档来表示。
同时,在CBETA「学术版」以SGML/XML(Standard Generalized Markup Language/Extensible Markup Language)表达的主要档案(Source File)中,则以「M码」(注四)处理缺字的表达。CBETA采用「M码」表示缺字的原因,一则利于国际化的使用,二则目前「M码」已具有八万多字的缺字数据,是国际间较完整的一个字集,三者利用「M码」方便我们建立一个缺字的转换数据库。虽然国际间试图解决缺字的方法有很多种,其它的缺字表达方式亦曾是我们考虑使用的,然而目前CBETA主要档案(Source File)中的缺字表达,有些缺字图档是取自日本「今昔文字镜」(注五)的字型,原因如上述:因其乃当今国际上最大的汉字库;且网络上提供免费字型让 使用者下载,不增加使用者的额外负担;而该中心亦根据CBETA缺字数据库与其字集比对,如有欠缺,则随时补充其尚未造的佛典缺字。且使用者依CBETA建立的缺字数据库,亦可以自行转换成其它的缺字表达方式,甚或转至将来拟采用的Unicode码(注六)。
格式整理
 ̄ ̄ ̄ ̄
因为CBETA拟以SGML/XML(Standard Generalized Markup Language / Extensible Markup Language)标记语言作业,并期能结合良好的界面以表达结果。依此目标,CBETA先制定规范,如版本格式、计算机缺字表达、组字式规范、通用字规范、电子佛典呈现方式,及大正藏内文格式与校勘输入格式等重要的课题。
「校对组」依此规范,进行缺字处理、大正藏格式化、档案比对、看图校对等工作,做完基本校对之后,即将档案交给「研发组」以进行后续的缺字处理、架构标记、学术研究、发行研发等工作,并完成SGML/XML作业流程,做成主要档案(Master file)。
因此,「校对组」的首要工作,就是在经文产生之后,依大正藏格式加上必要的数据。通常是在每一行之前留上 <册数> <经号> <页码> <栏> <行> 等资料。因为,这些数据在需要查对原书时,能够让很快的找到出处,且对于后序的作业提供很大的方便。因而针对此需求,以程序进行格式化的动作。其结果如表一。
档案比对
 ̄ ̄ ̄ ̄
汉文佛典电子化的作业流程中,「经文校对」通常是最耗时的一个环节。然而,经由中研院提供档案比对的技巧与概念,改良成能处理相异格式的「佛教经文比对程序」。利用这程序来比对二分以上的文件,可以很轻松的找出文件之间的差异处(请参照表二),再利用一些工具,就可以迅速的协助工作者利用这个差异表,修改出一份极低错率的数据。
根据表三的比对后结果,就可以很快发现可能有问题的差异。只要利用这个结果,再运用其它相关程序,如下文的「看图校对程序」,即可快速的修正差异处,以完成一份高质量的经文档。
看图校对
 ̄ ̄ ̄ ̄
在计算机比对之后,针对结果档,传统是以翻书订正,但在CBETA「信息组」的努力下,开展出一个快速的「看图校对程序」(请参照图二),可以一边看大正藏扫瞄图文件,一边做文字订正。由于它可以同时开启一文字窗口及一图形窗口,并且在文字窗口中快速移动到比对差异处,然后在图形窗口中秀出相对应的图形位置,再由校对人员选择或加载正确的信息,使得作业可以顺畅的进行之外,对正确率与速率的提升也有很大的帮助。
查书校正
 ̄ ̄ ̄ ̄
查书校正,可分为两大步骤,一为在看图校对后,发现问题,即查阅原典或查对其他不同版本作为校勘之用。二为将所有的电子文件印成文字文件,交由CBEAT幕后一群默默工作的义工处理。CBETA很荣幸能邀约到散布于各国中、国小的教师群帮忙校对,因为职业上的训练,他们对于错字与错误的敏感度高于常人。是以,佛典经文经过严密的「计算机校对」后,有这群义工老师的把关,CBETA的电子文件经文得以以较好的质量及较高的正确率问世。
标记处理
 ̄ ̄ ̄ ̄
除了精确与严谨的校对是CBETA最基本的要求外,如何保持原来版本的格式也是一重要的考虑点,另外为了合乎电子化的特点,并不只是把书面变成计算机排版就是所谓的电子化,因此要考虑到标记(Markup)的处理,及采取TEI(Text Encoding Initiative)(注七)的准则,并且以SGML/XML的方式表现出来等作法。同时也考虑人性化检索的需求,而开始做结构与层级的索引典之考虑。上述所有成果的呈现格式皆是以SGML作为主要档案,故特于下段举例说明CBETA如何以SGML处理藏经的内涵。
在CBETA处理《大正藏》经文的标记过程中常见的问题,皆一一将之列入《CBETA工作手册》中,以便参考。譬如处理藏经时【遇到不分卷该如何处理】、【遇到一个Note中包含另一个Note的处理方式】、【遇到卷终的处理】、【遇到别的版本比大正藏多字的处理】、【遇到Note的内容有跨行的情形】、【Note为该语词的梵文时之处理】、【遇到Note为”明注曰x南藏作y”的处理方式】、【遇到”*”的处理方式】、【遇到别的版本比大正藏少字的处理方式】、【遇到夹注的处理】、【遇到卷首的处理】、【遇到某个版本缺译号的处理】等常遇到的问题与处理,皆详明的列出SGML的作业方式,今举列说明如下(注八):
电子文件上网
 ̄ ̄ ̄ ̄ ̄
CBETA与大众分享的成果,可分为三大类:
一、将CBETA的操作系统与方法印制成册与有兴趣于佛经电子化的单位或工作者分享;
二、将CBETA作业过程所研发的程序或工具与有志于佛典电子化的工作者分享;
三、则为将CBETA藏经电子文件与大众分享,这些电子文件又可分为网 路版与光盘版两种呈现方式。
CBETA藏经电子版成果的主要呈现方式以发表于网络上为主,目前有《大正藏》第五至第八册之《般若部》、第九册的《法华部》及第九册下半部与第十册的《华严部》,共计三部六册,并将依工作进度陆续发表于网上(注九)。目前网络版经文文件(http://ccbs.ntu.edu.tw/cbeta/result)有「普及版」与「HTML版」供读者阅览。除上述两版外,并有依句点分段,以便检索的「App版」等三个版本,供使用者FTP下载所需的经文数据。
除电子文件经文外,CBETA网页并提供有[简介]、[技术]、[规划]、[进度]、[成果]、[检索]、[下载]、[芳邻]、[其它]及[导览]等项目,以提供读者更多的电子佛典信息,及随时查阅新增数据与最新讯息等网络功能,详细内容请参阅CBETA网页(http://ccbs.ntu.edu.tw/cbeta)。
全文检索
 ̄ ̄ ̄ ̄
目前CBETA网络版的检索引擎,是采用中正大学GAIS团队所开发的组件,再以perl程序改写所需的部份。检索功能可分为「整部经文」检索与「单册经文」检索(检索功能,请参阅图三)。检索结果可以「经号」呈现及「经名」呈现,并可阅览符合(match)的部份或阅览全文(fulltext)等功能。
除了网络版的检索功能外,在光盘版中,CBETA亦提供三项检索程序,以利读者于单机环境使用。这些程序可从光盘的「使用说明」选项中,选取工具使用说明,直接选取安装,或是将光盘上的程序复制到硬盘执行,这三项工具分别为:
1.CBGrep(Windows下的文字搜寻工具)
2.CTGrep(Dos下的文字搜寻工具)
3.Search and Replace for Windows 95/NT(Shareware)等三种检索程序。
此外,于光盘的HTMLHelp版,亦有检索与索引等功能。使用者可输入欲搜寻的名相后按Enter键,或是选取列出主题,便会在目录区出现该名相出现的位置。点选该经目之后,浏览器会出现该经文档,并将所搜寻的名相反白(蓝底)。另外,读经器提供了再检索及关系(布尔)操作数(And/Or/Not/Near) 等的检索模式。并附有「仅搜寻标题」提供使用者只对经目的搜寻(内容请参照图四)。
制作光盘
 ̄ ̄ ̄ ̄
除了网络版本外,CBETA同时也发行光盘版,以利不方便上网者使用,1998 CBETA电子佛典系列含有《般若部》、《法华部》、《华严部》,亦即《大正藏》第五册至第十册的普及版电子经文,并依其呈现功能分为Normal版、App版、HTML版及HTMLHelp版四种方式。此外还有全文检索工具、丁福保《佛学大辞典》、CBETA网站光盘版、其它相关工具及在线使用说明文件等(注十)。其中HTMLHelp 浏览器,包含有工具列、内容、索引、搜寻、我的最爱、打印、选项设定、佛学辞典、弹出式清单、及其它多种项目(请参阅图五)。
CBETA电子佛典是由同一套 SGML电子主文件所产生,光盘提供下列版本,以供读者不同的使用需求,分为一般文字文件的「普及版」;行末以句点作为结束,以利一般检索的「App 版」;具有目录、索引、全文检索多功能的「HTMLHelp版」及可以直接使用网络浏览器阅读的「HTML版」等四种不同的呈现方式。兹再对各版本说明如下:
1.普及版
普及版为一般文字文件的格式,可利用任何支持中文Big-5码的文书处理器或是浏览器阅读编辑。为了达到阅读以及流传的方便,普及版对于计算机中无法处理的缺字,如果可以通用字代替,则以通用字代替。反之,若无可用的通用字,则以一般组字式来表示,不另设造字档或其它的图档代码。
普及版不包含《大正藏》的注释,对于大正原版错误的地方,则在版本中直接更正,不另作注说明。全文依照《大正藏》的格式横向排列,于每行行首注明册数、经文号码、页码、字段及行数等讯息,方便读者查阅。例如T08n0221_p0001a09则代表《大正藏》第八册第221经第一页第一栏(上栏或a栏)第九行,详见行首信息(注十一)。光盘中并含有「以卷为单位」及「以经为单位」的两种版本,提供使用者选择。
2.App版
App版的内容及格式与普及版相同,唯一的不同是为了方便部份检索软件能正确的检索,因此每行行尾如果有不成句的字,则会移动到下一行的行首(亦即以句点作为行末切割处)。搬动的字数会在下一行的行首信息后以括号显示出,譬如T08n0221_p0001a09(02),其中的(02)代表由上面的行数搬动两个字到本行行首。偈颂的部份因为没有断行的问题,故不处理。
3.HTMLHelp版
此版是以微软公司的HTMLHelp浏览器为主(注十二)。本版本与上述的两个版本内容相同,但是如遇有更正大正版本错误之处,则会以红色显示。本版并以《大正藏》的字段作为显示基准,譬如以《大正藏》0001页的a栏单独处理成一页显示。并且为了方便阅读与检索,因此每页的最后二行会重现在下一页的前面,并以蓝色斜体的方式显示。对于无通用字的缺字,除了使用一般组字式之外,本版提供了缺字图档,读者点选组字式便可以看到该缺字图型。
本版提供了经文目录、索引、全文检索、在线佛学辞典,并支持网络及多媒体等功能,预计在微软公司发行新版的HTMLHelp格式之后,可提供使用者透过网络直接更新经文内容的功能。而目前HTMLHelp版只限于中文Windows使用者。
4.HTML版
HTML版与CBETA的网页数据相同(http://ccbs.ntu.edu.tw/cbeta),也与HTMLHelp版的格式相似,但是目前尚无全文检索,使用者可以直接使用网络浏览器阅读。但是,由于HTML版本是由许多的小档案组成,如果备份到硬盘上执行,可能造成硬盘资源的严重浪费。如果需要在硬盘里工作,建议使用者可以利用HTMLHelp版本或其它版本。倘若需要利用其中的某部份经文进行教学或其它的运用,可于经文浏览区选择检视原始档,再选择另存新档。或者直接利用剪贴薄的功能,如此较不浪费硬盘资源。
5.丁福保《佛学大辞典》电子文件
为方便使用,光盘中提供两种格式的丁福保《佛学大辞典》的电子文件(注十三):纯文字文件格式及HTMLHelp格式。且点选HTMLHelp版丁福保《佛学大辞典》,由于档案较大,开启时间较长。另外,目前这个HTMLHelp版本只能在中文Windows环境之下操作使用。
结语
 ̄ ̄
流程检讨
简言之,CBETA依作业流程,分别由负责扫描辨识或输入的「输入组」、经文计算机比对及人工校对的「校对组」、提出前瞻性、国际性及学术性之整体规划及进行标记工作的「研发组」、处理计算机上缺字问题的「缺字组」、技术程序以及网络、单机应用程序开发的「信息组」、将各组工作近况及成果利用网络呈现的「网络组」、以及负责成品发行事宜及推广活动的「发行组」等组,依工作性质分别负责各项业务(注十四)。
在整个的作业过程中,校对与研发是佛典电子化最耗时的部份,如何能快速又精确地达到要求,并且能研发出符合普及与学术的要求,一直是CBETA的重要课题。事实上,这也是撰写此文的主要目的一希望学者专家能就上述「作业流程」与「成果内容」提出改进与改良的方案,期能制作出更精良的汉文佛典与界面,以服务大众(注十五)。
未来展望
 ̄ ̄ ̄ ̄
至目前为止,CBETA除了上述的成果之外,其它的藏经电子文件,也正陆续完成中,并将依进度随时置于网页上,并于每年年底前制作成光盘,与大众结缘。未来,我们将朝向附有校勘信息的「学术版」努力,CBETA拟于学术版内附有《大正藏》的批注栏等数据,藉此提供历代各版本汉文大藏经的原貌。并将与佛教学者合作,以完成以单部经典为主的学术版等计划。当然,最终则是期望能达到《CBETA电子大藏经》「普及化与学术化、本土化与国际化兼备」的目标。
同时,为了能让佛典电子化的工作能永续经营,培养新生代参与佛典电子化的作业,也是CBETA的重点工作之一。因此,除了上述CBETA的工作群外,「研发组」亦延聘多位佛学研究所学生担任「研究助理」,参与佛典电子文件的校勘与标记(Markup)工作。如此,不但能增进学生的佛学与计算机知识,亦期能藉此培训俱佛学学识与计算机技能的新一代学者,以因应二十一世纪的需求。
注释:
 ̄ ̄
注一:谨此感谢日本东京大学故江岛惠教教授,及日本SAT多位教授热心协助,始能顺利完成「中日大正藏版权签约」的重要任务。
注二:CBETA并于各版本的经文数据中,均附有经文相关信息,记载原始数据来源,提供使用者参考外,亦期望此经文信息与经文提供者名称,能随经文电子文件一并流通。每件事业的完成,都是众缘和合所成,CBETA于工作进行中同时与国内外很多单位团体联络合作,然因为协助与赞助者很多,恕无法一一详列于此,
详细名单请参阅CBETA网页http://ccbs.ntu.edu.tw/cbeta/friend/gongde.htm。
注三:「一般组字式」基本规则说明:
注四:所谓「M码」就是以M开头后面接着一串数字的缺字表示法,是国际上广为采用的缺字表达法之一。譬如CBETA以M00763代表[条-木+火],通用字为「倏」的这个计算机缺字。
注五:特此致谢日本「今昔文字镜」(Mojikyo Font Center, http://www.mojikyo.gr.jp/)提供网上免费下载字型,以便使用者处理缺字问题。
注六:有关缺字的处理可参考谢清俊,《电子古籍中的缺字问题》等文,及庄德明,〈汉字缺字处理与梵巴藏字母的输入〉与《佛典共享造字集的规画》等文,以上有关缺字论文全文,可于 http://www.sinica.edu.tw/~cdp/下载。
注七:Sperberg-McQueen, C. Michael and Burnard, Lou (Eds.) Guidelines for Electronic TextEncoding and Interchange [TEI P3 ], Chicago and Oxford: Text Encoding Initiative, 1994.
注八:此二范例摘录自《CBETA工作手册》。
注九:CBETA的工作进度与产量,依目前的财务能力,以平均十二位工作人员计算。依此人力估算,至1999年底的预计进度,期能完 成藏经1-55册的一半数量,亦即完成《大正藏》28
册以上的校对。
注十:譬如,有关梵文转写字可安装CBDIA.TTF字型文件。如果安装顺利的话,将可看到类似如下的表达:Mahayana。
注十一:普及版与App版行首信息规则说明
Txxnyyyyopzzzzcll为每行经文之前的信息,其意义如下:
T :表示大正藏(Taisho)经文。
xx:二位数,表示大正藏册别。
n :固定不变,表示后面接经号。
yyyy:四位数,表示大正藏经号。
o :大写之 A,B...表示大正藏有记载之同经号之别本,小写之a,b...表示大正藏没有记载之同经号之别本,完全没有同经号资料者,用下底线符号填入’_’。
p :固定不变,表示后面接页码。
zzzz :四位数,表示大正藏页码。
c :表示第几栏,a 表示上栏,b 表示中栏,c 表示下栏,d 表示校勘栏。
ll :二位数,表示在该栏的行数。
例如:T10n0279_p0001a01,即表示大正藏第十册0279经第一页上栏第一行。
注十二:HTMLHelpR格式是微软公司R开发的新一代在线辅助系统格式,为窗口98R系统中辅助说明的浏览器,并可连结微软因特网浏览器R(Internet Explorer),支持HTML,
javascript及Vbscript语法和相关的图文件格式(jpg和gif等)。HTMLHelp为附于窗口98中辅助说明的浏览器,窗口95亦以更新使用。
注十三:光盘所附的丁福保《佛学大辞典》电子文件,为「佛教计算机信息库功德会」所提供,特此致谢。
注十四:当然,每件事业的完成,都是众缘和合所成,CBETA于工作进行中,得到国内外许多单位的协助,特此致谢。然因为协助与赞助者很多,恕无法一一详列于此,详细名单请参阅CBETA网页http://ccbs.ntu.edu.tw/cbeta/friend/gongde.htm。
注十五:「中华电子佛典协会」联络信息:
地址:台北市朱仑街36号(慧日讲堂)303室
Tel:+886-2-8773-6469 Fax:+886-2-8773-6470
E-mail:cbeta@ccbs.ntu.edu.tw
Homepage: http://ccbs.ntu.edu.tw/cbeta
欢迎投稿:lianxiwo@fjdh.cn
2.佛教导航欢迎广大读者踊跃投稿,佛教导航将优先发布高质量的稿件,如果有必要,在不破坏关键事实和中心思想的前提下,佛教导航将会对原始稿件做适当润色和修饰,并主动联系作者确认修改稿后,才会正式发布。如果作者希望披露自己的联系方式和个人简单背景资料,佛教导航会尽量满足您的需求;
3.文章来源注明“佛教导航”的文章,为本站编辑组原创文章,其版权归佛教导航所有。欢迎非营利性电子刊物、网站转载,但须清楚注明来源“佛教导航”或作者“佛教导航”。