浅谈索引典
佛教图书馆馆讯 第五期 85年 3月
浅谈索引典
农业科学资料服务中心资讯服务组组长 黄惠株
一.索引典简介
目前图书馆所用的分类法大多是依据学科体系和类属关系排列类目,其主要功能是组织分类目录和排列图书,将同一学科或同一类的资料集中展示,但无法适切的处理多(跨)学科或主题的资料;索引典则是以各种概念名称当作主题词,以概念与概念之间的关系建立词间架构,不依学科或类目编排,可依特定的主题查询,但不具图书排架的功能。以“莲”为例,在分类表中只能有一个分类号;但在索引典中却能同时分属于三个分面(facet),在植物学观点是一种生长于热带的水生植物,园艺学观点是一种观赏作物,而佛教观点则是清净的象征。
索引典的英文同义字是“Thesaurus”,其希腊与拉丁的字源本义为“宝典”( A treasury),而现今我们所熟悉的索引典则是50年代至60年代逐渐发展的一种受控的标引及检索语言。
(一)索引典的定义(注1)
1. 国际标准组织(ISO 2788)
一种受控标引语言词汇,从编制形式上明确显示概念间的先显关系(如:广义和狭义关系)。
2. 美国国家标准(ANSI Z39.19-1980)
索引典就是将词与词组依照同义关系、层级关系及其他关系与附注规定编辑起来,其功能是提供一部标准化的词汇,供资讯贮存与检索之用。 3. 联合国科教文组织全球科技资讯系统(UNISIST, UNESCO)
索引典可以其功能或结构定义之。就功能而言,索引典是一种控制词汇的工具,其用途是将文献、标引人员或系统使用者所用的自然语言,转译成更为规范的“系统语言”(文献工作语言,资讯语言)。就结构而言,索引典是一部含有特定知识领域的词汇,词汇间有语义或从属上的关系,且词汇是控制的、动态的。
(二)索引典的目的(注2)
1. 在特定的知识领域,提供概念之间的关系指引,帮助标引人员(indexer)及检索
人员(searcher)了解该学科的知识架构。使用者并可藉著词间关系,由已了解的
知识概念来了解新概念的涵义。
2. 在特定的知识领域,提供标引人员一套标准化词汇,确保资料标引的一致性。
3. 为了确保资料处理的一致性,索引典为一概念一词,而其他同义词则以用代关系指
引。
4. 词与词之间有明确的词间关系存在,这些关系能区分各词在语义网架构中的功能
,可作为使用者选择正确词汇的指引。
5. 当查出的资料太多或太少时,索引典的层级结构可帮助使用者扩大或缩小检索主
题的词汇范围。
6. 最好能成为该学科的标准用语。
(三)索引典的功能
不论是标引人员分析资料或检索人员查找资料,他们都是先分析出主题概念,找出主题词,而索引典则帮助他们将主题词由自然语言转为系统语言,因此索引典就是建立一套使用者(包括标引人员、检索人员、读者)彼此了解可藉以沟通的系统语言,为资讯的储存与检索提供标准化的语汇,以确保对同一主题,分析及检索资料时所用的语汇一致。
D.Soergel则认为索引典的概念结构(conceptual structure)在标引及检索时能将主题概念表现的恰到好处,而索引典将同义词聚集亦有词汇控制(terminological control)的功能。(注3)
二.索引典编制
索引典编制的基本程序为(一)准备工作,(二)词汇搜集,(三)定词,(四)建立词间关系,(五)编排与展示,(六)测试与修正,(七)维护与更新。
(一)准备工作
1. 学科范围确定:该系统包含的学科范围为何,那些为核心学科,那些为边缘学科,
各学科彼此间的关系等需事先考虑清楚。
2. 资料量及类型:图书居多或资料量少的系统,需要的词少且多为概念宽泛之词;反
之,若以连续性刊物或单本为主的系统,则需概念详细且词量多的索引典。
3. 详尽性(exhaustivity)与专指度(speci-ficity):设计该系统所预期的标引之详尽性
与专指度的高低亦影响词汇量的多寡。
4. 作业表格内容设计:制作单位依系统要求设计作业表格,目前农资中心的作业表格
包括:资讯库编号、中文描述词、英文描述词、中文同义词、英文同义词、族首词
、上位词、下位词、联想词、分类、定义、适用范围、沿革、注音、笔画、语法、
备注、撰写员/日期、审核员/日期等19项。
(二)词汇搜集
一般常用的方法有经验法(empirical approach)与小组汇编法(committee approach)两种,前者是搜集该学科的百科全书、字(辞)典、刊物及其他权威性出版品,将出现的词记录于作业表格,而后再进行属性划分。汇编法则是聚集一群学科专家,进行脑力激荡,列出相关词汇,确定族首词(top term),再行分族编排。经验法亦称"石笋式法"(stalagmitic),汇编法称为"钟乳石法"(stalactitic)(注4)。布朗(Roger Brown)的研究显示,人类习惯于使用“较短、使用较频繁、且具有区别作用”的基层范畴(basic-level categories)(注5)词,而每一学科都有代表该学科核心概念的基本词汇,因此选词时不可遗漏这两种基本词汇。再则由于索引典的词汇已独立于上下文之外,所以要选概念明确的词汇,不要选易产生误解的词。
(三)定词
定词程序有二:
1. 按字面排列,将重复词的所有资料合并于一张卡片,删除字面重复的词;但同形异
义词要保留并需以限定语加以说明。
2. 采用组面分析方法,将同一概念的词聚在一起,选出一个常用或正式用法的词当作
选用词(preferred term),亦称描述语(descriptor),其他同义词或类同义词则当
非选用词(non-preferred term),亦称非描述语(non-descriptor),以此法消除概
念重复的词,完成定词工作。此步骤即是建立等同关系。
因为限定语(qualifiers)及范围注释及定义(scope notes and definitions)在本程序即有加入的可能,因而在此说明。
限定语是为了区别同形异义词而设,一般以括号或不同字体区分,限定语是主题词的一部分,故并列于词后。如“无心”是佛教语,但明代有位临济宗的僧人其法号亦为“无心”,因此在索引典中的格式是“无心(佛教语)”及“无心(明代僧)”,另外法号“慧明”的高僧,历代有之,此时亦需以限定语分别其异,如“慧明(明;1318-1386)”、“慧明(清;1859-1930)”。
范围注释与定义不是主题词的构成部分,只是指明在特定索引语言中词的用法,并非所有的词都需要范围注释,因为由索引典之概念体系及词间结构,已可明了一个词的具体涵义。如果一个词在索引典的规定用法与平常用法完全不同,或不同的词典有不同的定义者,则范围注释需将该词的定义解释清楚。
如:正法明如来
SN:古佛名,其在娑婆世界的应化 身为观世音菩萨。
贝叶经
SN:此处指仿贝叶典籍装订法之书册。
无心(佛教语)
SN:指离妄念之心。
除了上述内容外,范围注释还可记录(1)收入该词或范围重新定义的日期,(2)词汇出处,尤其是代表新概念的词的来源,(3)用法说明,如该系统语言,允不允许该词作某种组配等。(注6)
(四)建立词间关系
词间关系包括等同(equivalence)、层级(hierarchical)和联想(associative)三种关系。
1. 等同关系
又称用代关系,参照符号是“USE”及“UF”。凡具有这类关系的词,彼此在概念/用法上是相同或视为相同,包括同义(指意义完全相同,可互相取代的词,如“观音”与“观世音菩萨”)、准同义(指意义相近,如“般若”与“智慧”;或意义不同但为了标引目的视为同义的词,如“面然大士”与“观音菩萨”)和组代关系(标引时以数词组合代表另一概念,如“增劫”+“减劫”=“小劫”)三种。为了保证一概念对应一词的原则,必须选择其中之一作为描述词,而其余的作为非描述词。描述词在索引典中具有"法定"地位,可用于标引和检索,而非描述词仅仅是作为标引和检索的入口词(lead-in term)。
2. 层级关系
又称属分、上下或等级关系,参照符号是“BT”及“NT”。凡具有这类关系的词,彼此是上位与下位概念的关系,相当于分类表中相邻的上位类与下位类。包括属种(genus-species),集元(set-element)、整部(whole-part)及多层级(polyhierarchical)四种关系。
属性相同(即属同一范畴)的词才能构成层级关系,ISO-2788提出三种判断公式:
(1)属种关系:说明普遍概念(类称词)与特殊概念(专指词)之间的关系。判断
公式是,自上而下为"一些……是……",自下而上为"所有……全都是……"。
如"一些(鸟类)是(鹦鹉)","所有(鹦鹉)全都是(鸟类)"。
(2)整部关系:说明整体概念与部分概念之间的关系。判断公式是,自上而下为"…
的一部分是……",自下而上为"……是……的一部分"。如"(台湾)的一部分
是(台北)","(台北)是(台湾)的一部分"。这一公式适用于下列类型:生
物体的系统与器官(循环系统与心脏);地理位置(亚洲与日本);学科及其分
支(佛学与禅学);社会结构等级(陆军与师),至于专业索引典亦可以此规则
,组织该学科的整部关系,如有关涡轮机工程的索引典的“叶片”与“压缩器
”。
(3)集元关系:ISO-2788称例举型关系(instance relationship),表示集合概念与其所
含单独概念之间的关系。判断公式是,自上而下为"有的……是……",自下而
上为"……一定是……"。如"有的(河流)是(长江、黄河…)","(长江、黄河 …
)一定是(河流)"。
3. 联想关系
又称亲缘、类缘或相关关系,参照符号是“RT”。是指两个描述词之间虽无等同或层级关系,但从标引或检索角度而言,有相互参照,提醒使用者有另一词存在的关系。
ISO-2788为避免联想关系的认定太过主观武断,依范畴属性提出两参考原则。
(1)同一范畴:属性涵义有部分重叠但非同义的词可互为“RT”。如“ships”和
“boats”、“休闲”与“娱乐”、“正报”与“依报”。
(2)不同范畴:两词虽分属不同的概念体系,但彼此间却有强烈的提示关系。如学
科及对象(林学和森林)、过程与工具(数据处理与计算机系统)、行为与结
果或受体(织布与布、监禁与囚犯)、概念与性质(毒物与毒性、知觉与敏锐)
、概念与来源(禅宗与拈花微笑)、原因与结果(业力与业报)、事物与对立
物(天龙八部中的龙与大鹏鸟)、概念与计量单位(电流强度与安培)、同原
异畴词(模型船与船)等。另外如“禅宗”与“菩提达摩”、“文殊菩萨”与
“寒山”、“六字大明咒”与“观音菩萨”亦可建立联想关系。
(五)编排与展示
索引典的基本展示有字顺、分类与图形三种。
1. 字顺:拼音语系依字母序或字序排列所有的主题词;表意文字如汉语,可用“四角
号码”、“注音符号”、“罗马拼音”或“其他拼音”排列,若首字同音可配合笔
划区分排列次序。词群的基本编排格式如下:
主题词
注释或定义(SN)
同义词(用:USE;代:UF)
广义词(BT)
狭义词(NT)
联想词(RT)
2. 分类:除分类表外,还配合引领到分类部分的字顺索引。在分类部分,每个描述词
都有一个分类代码,词群结构只有主题词、注释或定义、同义词及联想词,层级关
系则由分类码和缩行空格表示。
3. 图形:包括图形与字顺两部分,图形只有描述词,其他词间关系在字顺部分表示,
一般分为树形结构及箭头关系两种。
(六)测试与修正(注7)
1. 从最近出版的相关刊物上随机取样。
2. 列一双栏平行的标引工作单,一栏列由随机取样文献中取出之主题词,另一栏则是
由主题词转为索引典中最贴切的描述词。
3. 标引人员和编制人员根据2.的资料,评断索引典的详尽度及专指度,并依此修正。
除上述方法外,还要检测词群架构及词间关系。
(七)维护与更新
索引典除了显现知识概念结构外,并显示词汇之间层次及语意上的各种关系,而知识与语言都会随时间而有所改变,所以世上没有完美的索引典,而定期的维护更新是维持品质的不二法门。
标引及检索人员需记录词汇使用频率,利用作业表格记录新词汇或旧词的词间结构变动情形,然后定期讨论,依记录的资料增(删)词或修改词间关系。
三.结论
索引典不单单是帮助资讯储存与检索的工具,而且是某一学科的知识概念体系的呈现;因此索引典编制人员除了要有图书分类、索引典制作的知识外,还要具备专业学科、逻辑概念、认知心理及语言学的基本素养。
佛学经典浩瀚,编制人员虽不必是一方硕儒,但对于佛教的来源、历史、宗派、三藏经典要有所涉猎,更重要的是对佛学的知识架构与基本概念(如“佛”、“觉者”、“菩提心”、“般若”、“业”、“轮回”、“娑婆”、“净土”、“慈悲喜舍”、“空”……等)必须了然于心,不可有冯京当马凉之谬或燕书郢说的误解。
逻辑学研究思维的形式及其规律,“思维”是人脑运用概念以作判断和推理的工夫,而“概念”是人类反映事物本质属性的思维方式。研究概念的种类及其特征有助于我们清楚概念的内涵和外延,及准确地使用概念。有明确的概念才能消除主题词的重复;利用概念划分与概括过程中所形成的关系,可建立索引典的等级关系;两个具有交叉关系的概念其外延重合的部分可以形成一个新概念。
语言是将思维概念表达给旁人并藉以沟通的工具,若要达到纯真、至善、完美的运用化境,首先要了解语言的基本构成成分(字、词、语、语素)的定义与彼此关系。索引典以词为主,加上汉语是表意文字,不能由形态(如英文字尾为 -ly 表示副词)判断词类,因此必须熟悉如何利用词的内部结构(如单音词、复音词;单纯词、合成词、复合词;偏正式、并列式、主谓式、述宾式、述补式、重叠式…等)、语意内涵(如来源、本义、引申义)及语用功能(如形容词的重叠方式、不同词类之间的排列方式)来画分及运用词类。语言是生长的有机体,新词不断的产生,编制? H员必须以科学的思考方法作为了解文字意义的基础,而近代的认知科学指出感知与文化背景会影响人的思维方式,因此选主题词时要选中性意义,尽量不要用有明显隐喻、转喻与内心联想的词,且佛经的喻义甚多,编制人员更要有语言认知的训练,方能破文字障获得真义,并将之显现于外。
索引典制作者除了要有熟练的业务技能、精深的专业素养、渊博的知识涉猎、较高的语文能力及严谨的工作态度外,尚需有敏感(捕捉语言的脉动)、求真(寻其意义)、包容(纳异见而成其大),及尽信书不如无书(不要盲从权威)的心态。
【附注】
注1:〈索引典理论与实务〉,(主办单位:美国资讯科学学会台北分会、农业科学
资讯服务中心、国立中央图书馆,民83),页5。
注2:A. Kent & H. Lancour, Encyclopedia of Library and Information Science
vol. 30(1980), p.419。
注3:Dagobert Soergel, Indexing Languages and Thesauri: Construction and
Main- tenance, (Malville Publishing Co., Los Angeles, Calif., 1974), p.4。
注4:F. W. Lancaster, Vocabulary Control for Information Retrieval,
(Inform ation Resources Press,1972), p.27。
注5:George Lakoff, Women, Fire, and Dan- gerous Things What Categories
Reveal about the Mind, (The University of Chicago Press, 1990), p.14。
注6:UNESCO, UNISIST, Documentation - Gui- delines for the Establishment
and Development of Monolingual Thesaurui, ISO-2788, 1986, p.9。
注7:同注1,页56。
【参考书目】
1.〈索引典理论与实务〉,(主办单位:美国资讯科学学会台北分会、农业科学资讯
服务中心、国立中央图书馆,民83),192页。
2.〈汉语叙词表编制规则〉,(中华人民共和国国家标准 GB13190-91,1991),
15页。
3. 汤廷池,〈汉语词法入门(之一)汉语词语的分断〉,《人文及社会学会科教学
通讯》,6卷2期,页95-117。
4. 汤廷池,〈汉语的“字”、“词”、“语”与“语素”〉,《汉语词法句法三集》
,台北市:台湾学生书局,民81,1-57页。
5. 汤廷池,〈汉语的词类:画分的依据与功用〉,《汉语词法句法三集》,台北市:
台湾学生书局,民81,59-92页。
6. UNESCO, UNISIST, Documentation - Guide- lines for the Establishment and
Develop- ment of Monolingual Thesaurui, ISO-2788, 1986, 32pp.。
7. Dagobert Soergel, Indexing Languages and Thesauri: Construction and
Maintenance, Malville Publishing Co., Los Angeles, Calif., 1974, 632pp.
欢迎投稿:lianxiwo@fjdh.cn
2.佛教导航欢迎广大读者踊跃投稿,佛教导航将优先发布高质量的稿件,如果有必要,在不破坏关键事实和中心思想的前提下,佛教导航将会对原始稿件做适当润色和修饰,并主动联系作者确认修改稿后,才会正式发布。如果作者希望披露自己的联系方式和个人简单背景资料,佛教导航会尽量满足您的需求;
3.文章来源注明“佛教导航”的文章,为本站编辑组原创文章,其版权归佛教导航所有。欢迎非营利性电子刊物、网站转载,但须清楚注明来源“佛教导航”或作者“佛教导航”。