您现在的位置:佛教导航>> 五明研究>> 五福文摘>> 人文杂话>>正文内容

数字经录与时空信息的交会

       

发布时间:2010年04月24日
来源:第二届佛教论坛论文集   作者:杜正民
人关注  打印  转发  投稿

本文拟撷要介绍台湾近年来电子佛典相关计划的制作方法及成果,以探讨新时代“大藏经全文数字数据库”编撰的可行性。

文中拟藉演示数字时代电子佛典的发展过程,如简述历年来的汉文大藏经电子化作业内容、简列多年来的各项电子佛典周边项目,并报告近年执行“数字经录”与“时空信息”等数据库内容及功能,以了解大藏经数字化作业发展现况,作为本探讨之基础。

文末,拟以“数字经录”、“时空信息”及“电子佛典”等数字成果,说明对数字藏经未来开展的期望。

一、前言 :台湾“大藏经数字数据库”相关计划发展现况

本文拟撷要介绍台湾近年来电子佛典相关计划的制作方法及成果,以探讨新时代“大藏经全文数字数据库”编撰的可行性。因笔者自1994年从事“佛学网络数据库”(http://ccbs.ntu.edu.tw) 的建构以来,有机会参与建构多项佛学网络数据,涵盖有“佛学书目数据库”、“佛学全文图书数据库”、“佛教电子大藏经”等数据库总计二十余项。故拟抛砖引玉,藉此演示数字时代电子佛典发展过程,如简述历年来的汉文大藏经电子化作业内容、简列多年来的各项电子佛典周边项目,以及报告近年执行的“数字经录”与“时空信息”等计划内容,以权显台湾“大藏经数字数据库”的发展现况,作为本探讨之基础。

首先,简述历年来汉文大藏经电子化作业:

中华电子佛典协会CBETA自1998年2月15日起开始《大正新修大藏经》(以下简称《大正藏》) 电子化作业,当年年底发表《大正藏》第5册至第10册网络版与光盘版。嗣后再 经一年多时间完成汉译佛典“经、律、论”计32册6000万字作业,于1999年12月发行《大正藏》第1册至第32册。同年,CBETA 亦完成建立电子数据库的“标准化”、“国际化”作业规范。此项作业奠定了国际间汉文电子文献制作的规范。

迄2000年底,CBETA已大致完成《大正藏》第1册至第55册暨第85册初稿。其中,有需特别处理的难度与挑战,如“双行小字”及“缺字”等问题,耗费较长时间一一处理。这些技术面的克服与缺字的处理,并成为国际间汉字处理的一大突破。2001年4月,CBETA发表《大正藏》第1册至第55册暨第85册全文电子文件。至此,历时三年二个月的努力,CBETA终于完成“大正藏普及版”电子化初步作业。

在完成上述各项艰巨作业之后,CBETA又积极展开“校勘版”的输入、校对、标记、缺字处理等工作。于2002年底完成所有校勘数据电子文件的输入及电子化初步作业。2003年, CBETA成立五周年时,正式发表“校勘版”作业的初步成果。除上述《大正藏》作业外,CBETA同时也进行《卍新纂大日本续藏经》(以下简称《卍续藏》) 的基本输入与测试作业,2002年初正式进行《卍续藏》电子化作业。于2003年底发行“CBETA电子佛典集成”内含“校勘版”与《卍续藏》的电子数据。2006年底完成《卍续藏》1至98册全套藏经的数字化作业。 2007年起则开始执行不包含于《大正藏》与《卍续藏》的藏经遗珍。

其次,简列多年来执行各项电子佛典周边项目:

笔者除于1995年至2003年间,参与建构与维护台湾大学“佛学数字图书馆暨博物馆”网络数据库,以及1998年以来的CBETA建构外,从1999年至今,所参与执行电子佛典周边项目建构,计有国科会之“数字博物馆计划:玄奘西域行”、数字典藏“台湾佛教数字博物馆:蓬莱净土游”计划、“数字典藏多媒体档案之研究与建置--西藏珍藏语音档案研究计划”、“台北版电子佛典集成之研究与建构”、“丝路中印文化交流研究--以法显、玄奘、义净三大师西行路线为主”、“瑜伽师地论数据库-电子佛典制作与运用之研究”;以及蒋经国国际学术交流基金会赞助的国际合作案,如“台湾佛教文献数字数据库的建构与研究”、“汉文古籍译注与数字编辑的研究--以巴利文与汉文《别译杂阿含经》(T.100) 的版本比对与英译为例”,及“《法华经》多种语文版本数字数据库的建构与研究”等多项佛学数字计划。从上述笔者所参与数据库之建置数量及经验而言,或可提供编撰“大藏经全文数字数据库”可资讨论的基础。

最后,报告目前执行中的计划:

除上述已完成的项目外,目前执行中的计划与项目尚有“佛典数字典藏内容开发之研究与建构--经录与经文内容标记与知识架构”(以下简称“数字经”或本计划)、“汉传佛教高僧传之时空信息系统研究计划”(以下简称“时空信息”)、“台北版电子佛典集成之研究与建构”、“佛教人名地名及年表权威数据库(Authority Database)”、“ZEN --‘轻安一心’创意禅修空间研究”以及“佛教数字工具资源的建构与研究”等计划,因资料繁多不易聚焦,故下文拟集中于与“数字经录”与“时空信息”有关的数据,作进一步报告。

二、“数字经录”数据库的内容与功能

历时三年完成的“数字经录”计划,第一年已建置汉文现存版本藏经“现藏录”强大功能检索、古师大德所编“古经录”检索;第二年亦如期完成多语言梵文、巴利语、藏文藏经经录等数据库检索,并提供对应相关经群在线阅读连结等相关数据的查询,丰富并加强使用者的需求与方便性;第三年于汉文经录增加多部日本求法目录与“至元录文献专区”、多语言经录则增设“满文经录数据库检索”等。

“数字经录数据库”的完成,堪称为佛教学界的一大贡献。学者已不需出门上图书馆、翻阅目录,轻易能从本数据库检索到某部经,找到佛典收录版本册页出处,及汉、藏、巴等相关经群对应,并同时连结全文在线阅读。其中“数字经录”的主要功能是多语言、多版本佛典强大效能的“经录数据库检索”。于此,仅依“现藏录”及古经录“两大类,简介经录数据库的检索功能:

1. 现藏录数据库检索

图一 经录网页首页

首先于网页上方设立九项功能选单,即是本网站的主要功能。其中现藏录经录数据库检索及古经录数据库检索,提供强大功能检索即是本网站之特色。现藏录经录检索页,主要是经名与作译者功能检索,亦可二者合并检索。

图二 现藏录经名检索页,读者可在经名框中输入欲查询的经名。

图三 现藏录经名检索呈现页,如图所示与“金刚般若”的相关经、注释本及作译者等皆完整列出各藏版本的经号出处。

图四 现藏录作译者检索页,同样亦可检索作译者。

图五 现藏录作译者检索呈现页,列出所查询的译者“鸠摩罗什”所有翻译的经文及在各版藏经的经号出处。

图六 现藏录作译者+经名检索页,同时可检索作译者与及其所译的经名

图七 作译者+经名查询成果页,列出译者“鸠摩罗什”及所译“维摩诘经”的相关资料及在各藏中的出处等。

图八 经名、作译者同名功能检索:

图九 经名、作译者同名功能检索成果:

2. 古经录数据库检索

图十:古经录树状结构与开展页

在古经录数据库页面,左边是历代古经录依年代排列的树状结构,每一个古经录依性质内容不同分类,各有各的架构,可一层一层打开,如下图。

图十一 古经录经名检索,在古经录数据库中输入欲查询的经名

图十二:古经录经名检索成果呈现页,列出查询经名“阿弥陀经”在古经录所记载的出处及卷数、朝代、作译者等资料。

图十三:古经录朝代检索,如检索古经录中有记录“唐”朝的经名

图十四:古经录朝代检索呈现页,列出在古经录中记载“唐”代的译经及经文译者、卷数等。

图十五:古经录作译者检索页,查询古经录中记载玄奘的译经

图十六:古经录作译者检索成果页,列出在古经录中记载“玄奘”所译经典的资料,所译经名、卷数等。

图十七:经名+朝代+作译者检索页,缩小范围合并查询经名、朝代、作译者

图十八:经名+朝代+作译者检索成果页,列出古经录中记载唐代玄奘所译“摄大乘论”的相关数据,古经录记载的出处、此经的卷数等。

三、“时空信息”数据库的作用与功能

“数字经录”数据库不同于以往传统纸本经录,除整合24部藏经经录,建立功能强大的检索网页外,更具有连结、阅读电子佛经全文与扩展技术应用端的中间媒介功能,为提升经录数据库与其它资源整合之应用服务与技术开展,并建立“经录时空地理检索平台”网站。本节即梗概陈述“数字经录”数据库与“时空信息”系统整合应用的研究与讨论。

“数字经录”数据库是一种“后设数据库”,数据库可加入需要的字段,“经名”、“朝代”、“作译者”与“地点”等信息,每一笔数据各设定一个唯一的ID,透过TimeMap及 Google Map等网络式地理信息技术(Web-based GIS)程序,将时间及空间信息加以整合,使汉文佛经目录文献中的人事时地物等重要讯息,转换并呈现为时空地理信息系统的数字资源,以兹架设人物与时空二轴互动关系的数字研究平台。目前已测式完成,建立“经录时空地理检索平台”网站。但时空地理检索平台涉及许多技术作业,碍于篇幅无法于本文讨论。故以图示说明“经录时空地理检索平台”的作用与功能于下:

图十九:时空地理检索平台词汇检索

图二十:时空地理检索平台词汇与文本时空信息关系

图二一:时空地理检索平台 依检索词汇之文本年代排列

图二二:时空地理检索平台从GIS呈现,检索词汇时空三维效果

以上介绍的“数字经录”数据库与“时空信息”系统,所整合应用的数字功能,可说是开时代之先机与创新,加上“电子佛典”藏经数字数据库的大量全文建置,或可作为编纂一符合新时代的完整实用的数字佛教全文数据库的参考。而此类巨型的数字数据库,可在汉文经典文献数字化保存、知识管理与学习、流通推广上,挹注一股连结时代发展趋势的新动力,并为数字典藏与当代佛学信息化奠定厚实的基础。

四、结语:台湾“大藏经全文数字数据库”目前成果及未来规划

─以CBETA 2009年成果发表为例

信息时代的数字化作业,可将浩瀚的佛典陈现出有别于古文献不同的新的面貌与功能,如以前述多年来已建置的资料量及经验为基础,参照“数字经录”与“时空信息”两项作业为方法,进而了解台湾已完成的“电子佛典”全文成果,相信通过各界的合作,新编撰的“大藏经全文数字数据库”将成为一项重要的学术资源。

因此不揣谫陋,提出“数字经录与时空信息的交会”整合应用的功能,以探讨新时代“大藏经全文数字数据库”编撰的可行性。故本文文末即介绍CBETA拟于2009年4月15日发表的成果,以作为本文结语。

CBETA的作业重点不只在《大正藏》或《卍续藏》电子版,而是以完成汉传佛教电子佛典集成为首要目标。因此在整理完成《大正藏》、《卍续藏》两者不重复的典籍后,已开始就其它藏经所特有的典籍进行数字化工作。因此,先以“数字经录”完成的“佛教藏经目录数字数据库”(http://jinglu.cbeta.org/) 作为前行作业,从24种“现存藏经目录”筛选其它各部藏经可能的特有典籍,再经仔细核对,扣除有目无经、重复收录、内容分合等情况,目前确定收录的经目有389部。2007年9月,又进而开始与“台北版电子佛典集成”项目(http://taipei.ddbc.edu.tw/) 合作进行“集成”的工作,预计以三至四年时间完成目标。

这是一个全新的挑战,远比之前《大正藏》、《卍续藏》的数字化工程有着更高的难度,是以执行时也遇到一些困难,譬如这批待处理数据大都是年代久远的雕版藏经,常有字迹模糊的状况;而且,当中的字形异体变化极大,判别及规范均属不易。可以了解,从雕版藏经《高丽藏》到铅字排版《大正藏》,《高丽藏》经文用字的异体状况被大幅的规范(通用化);又,从铅字排版《大正藏》到 CBETA 电子佛典,其实也对《大正藏》异体用字做了相当程度的规范(通用化)。

2008年,《嘉兴藏》选辑是我们的工作重点。《大正藏》、《卍续藏》以外尚未收录的典籍大都集中在《嘉兴藏》,当中丰富的明清禅宗史料最为学界所企盼。进行中的《嘉兴藏》典籍共有283部1668卷,约1500万字,分“原选辑”及“新增选辑”两部份。目前已完成的《嘉兴藏》选辑电子档案,可以在国科会数典计划“台北版电子佛典集成”(http://taipei.ddbc.edu.tw/)网站阅读及取得。

CBETA不但着力于《嘉兴藏》,“补足现存历代藏经经文”的作业。同时,很荣幸,CBETA取得杜斗城先生所编辑《正史佛教数据汇编》(共一册)以及方广锠先生所编辑《藏外佛教文献》(共九册)的数字化授权,始能更进一步执行「当代补编及藏外文献」的作业,这两项珍贵的历史数据,于下一版光盘中会录入《正史佛教数据汇编》全文,以及《藏外佛教文献》部份册数。

此外,对于已收录典籍的“新式标点”及“经文修订”作业的成果。新增的“新式标点”经文有95经282卷;而“经文修订”也新增了6657笔,分别为《大正藏》4877笔、《卍续藏》1780笔等。

未来规划

在数字化经文生产方面,《嘉兴藏》选辑完成之后,接下来处理下列数据:

1. 其它藏经遗珍:共106部1100卷。

2. 正史佛教资料汇编(杜斗城辑编):1册。

3. 藏外佛教文献(方广锠主编):9辑。

4. 大藏经补编(蓝吉富主编):36册,但扣除之前已处理过的入藏典籍。

以上四项是已经确定的目标,后三项均已取得授权。第一项是将所有入藏典籍搜罗完整,二、三两项属于藏外文献的收集,第四项的重点在于近代中国佛教典籍以及国外的珍贵佛教相关文献。这个作业方向,完全依循着 CBETA 电子佛典集成的四个步骤:

1. 完成《大正藏》与《卍续藏》汉传佛教典籍──作为基础。

2. 补足现存历代藏经经文──完整呈现历代藏经。

3. 进行当代补编及藏外文献──超越古德的整理。

4. 未来若有余力再进行写本及其它形式经文之数字化。

The Intersect of Tripitaka Catalogs and Geographic Information Systems

Aming Tu

This article intents to provide an overview of the working experience of the constructing of the Buddhist Tripitaka Catalogs (Jinglu project), in the hope to discuss the possibility of building a new digital Buddhist Tripitaka full text database in this new year.

The collecting of various versions of extant Chinese Buddhist Tripitaka Catalogs and constructing the database for these catalogs have being done in the previous 3 years, and the range of the construction of the database has been extended to the foreign Buddhist languages, such as Buddhist Tripitaka Catalogs of Tibetan, Sanskrit, Pāli etc. Hence, this article will also report the databank system in the construction of digital archive, and to make the Buddhist Catalogue as the Archive content.

In the developmental process of digital archive, the first generation is to make the large amount of information digital, and to construct an effective management mechanism and index system. From the viewpoint of the level of information to position, the digital archive of this generation provides the service of the level of information. This can be observed from its index function. Its index system, fundamentally, bases on the key words input by the users to retrieve the relevant information from the corresponding word chain found in the whole text file or interpretative information file. So, in the construction of the next generation of digital archive, the introduction of the function of knowledge management becomes one of the would-be developmental directions. This article also provides how to base on Buddhist Catalogs to construct the digital archive with the function of knowledge management.

The purpose of making the knowledge management is just like the function provided by the missile navigation in the geographical information system. In the research and operational process of this project, we analyzed the frame of knowledge management system, to use XML (eXtensible Markup Language) form to make the content labels of digital information, and construct an effectively organized and definitely knowledge presented “structural knowledge management model” in order to store, retrieve and extend knowledge and thus to achieve the final purpose of knowledge sharing and knowledge creation.

And then based on the XML markup of the Buddhist Lexicographical Resources and Tripitaka Catalogs, we use Google Earth and Google Map on the Geographic Information Systems (GIS). TimeMap is capable of display various data chronologically in a specific time zoom. The database of Buddhist Tripitaka Catalogs and Buddhist Lexicographical Resources supports both online GIS applications, and this study demonstrates both methods. In the long term, we hope to build a Buddhist Archive Research Platform. As the study of term extraction is the basis for the establishment of Buddhist knowledge hierarchy, therefore, we target our research direction in term extraction.

In conclusion, base on the Digital database created by CBETA, this project provides a friendly interactive way of doing 'content markup' of documents by linking the Tripitaka Catalogs to the designated text string, then to generic knowledge structures of the Sūtra. The original document and its outlines as the generic knowledge structure to illustrate the techniques of representing various versions, providing matching, browsing, and retrieving of ancient documents. Then through the cooperation and collaboration of various areas to establish the Integrated Buddhist Archives network – in the Information ear to build a new Digital Buddhist Full text database to serve scholars worldwide.

Key words: Electronic Buddhist Texts Tripitaka Catalogs Multi-lingual Buddhist Sūtras Buddhist Lexicographical Resources GIS.

没有相关内容

欢迎投稿:lianxiwo@fjdh.cn


            在线投稿

------------------------------ 权 益 申 明 -----------------------------
1.所有在佛教导航转载的第三方来源稿件,均符合国家相关法律/政策、各级佛教主管部门规定以及和谐社会公序良俗,除了注明其来源和原始作者外,佛教导航会高度重视和尊重其原始来源的知识产权和著作权诉求。但是,佛教导航不对其关键事实的真实性负责,读者如有疑问请自行核实。另外,佛教导航对其观点的正确性持有审慎和保留态度,同时欢迎读者对第三方来源稿件的观点正确性提出批评;
2.佛教导航欢迎广大读者踊跃投稿,佛教导航将优先发布高质量的稿件,如果有必要,在不破坏关键事实和中心思想的前提下,佛教导航将会对原始稿件做适当润色和修饰,并主动联系作者确认修改稿后,才会正式发布。如果作者希望披露自己的联系方式和个人简单背景资料,佛教导航会尽量满足您的需求;
3.文章来源注明“佛教导航”的文章,为本站编辑组原创文章,其版权归佛教导航所有。欢迎非营利性电子刊物、网站转载,但须清楚注明来源“佛教导航”或作者“佛教导航”。