征和内容特征,在信息检索时,对信息的需求也必须使用与其相同的语言来表达。 这种用来描述文献特征和表达检索提问的,信息存储者和检索者共同采用、共同理解的语言就是信息检索语言。又称标引语言、索引语言、信息、检索语言等,是根据检索需要而编制的一种人工语言。
2.特点:检索语言是一种专门的人工语言,它表达的概念应具有唯一性,即一个词只表达一个概念,一个概念只用一个词表达,不能一词多义或多词一义,使概念表达模棱两可。正是由于检索语言具有这种性质,这就为检索标引、提问采用共同语言提供了可能性。而自然语言由于有多义词、同义词、近义词等,不宜用于文献检索。 二、检索语言的组成 :检索语言由词汇和语法组成:
词汇——登录在分类表、词表中的全部标识,如分类号、主题词、代码。 语法——指的是如何创造和运用标识来正确表达文献内容和信息需要,以有效地实现信息检索的一整套规则。 三. 检索语言分类
检索语言可以从不同的角度进行划分,文献的外表特征和内容特征都可以作为检索语言,关键在于概念上应具有唯一性。 1.从描述角度划分:(1)描述文献外表特征的检索语言:如以作者姓名作为标识的~。著者篇名和代码(2)描述文献内容特征的检索语言:~按其构成原理又可分为三大类: (1)分类法语言:a) 体系分类语言,b) 组配分类语言
(2)主题法语言:a) 标题词语言;b) 单元词语言;c) 叙词语言;d) 关键词语言
代码检索语言:一般只就事物的某一方面特征,用某种代码系统来加以标引和排列。例如以化合物分子式、合金成分标引的检索语言。 2.按其标识的组配方式划分:
(1)先组式检索语言:在检索前检索标识已经预先组配好的一种检索语言。检索时检索人员只能选用这些预先组配好的检索词去检索文献。标题词语言、分类法语言属于~。
(2)后组式检索语言:仅将所有检索词编制成表,不预先组配,检索文献时才按照组配规则临时组配。叙词语言属于~。 3.按检索词的规范程度划分:
(1)受控语言:检索词来自文献或用户提问并受到信息检索系统控制(词表等),又称为规范化语言。如体系分类语言,叙词语言,标题词语言。
(2)自然语言:检索词直接来自于文献或用户提问的语言。如关键词语言。 2.按其标识的组配方式划分:
(1)先组式检索语言:在检索前检索标识已经预先组配好的一种检索语言。检索时检索人员只能选用这些预先组配好的检索词去检索文献。标题词语言、分类法语言属于~。
(2)后组式检索语言:仅将所有检索词编制成表,不预先组配,检索文献时才按照组配规则临时组配。叙词语言属于~。 体系分类语言
1.定义: ~是一种直接体现知识门类的等级结构的标识系统。他根据一定的观点,以科学分类为基础,以文献内容的科学性质为对象,运用概念划分与概括的方法,按照知识门类的逻辑次序,进行层层划分,每划分一次,就产生许多类目,逐级划分,就产生许多不同级别的类目。所有不同级别的类目,层层隶属,形成一个严格有序直线型的知识门类的等级制体系。 每个类目都用分类符号作为标记,每个分类号都是表达特定知识概念的词汇,这些词汇就是~。 我国的几部图书分类法实际上就是~,分类表中每个分类号代表一个类目,因而分类号可以用作语言来表达概念。检索时,根据所需文献的主题概念,从分类表中找到相应的分类号后,就可以用他做检索语言,查找所需文献。
2.特点:(1)~体现了学科的系统性,便于从学科门类出发,进行族性检索,查全一门学科中各种事物的所有文献。
(2)体系分类法将概念逐级划分,具有等级结构,便于扩大和缩小检索范围。
(3)由于分类法不宜经常修订,类目不能随时改变,因此难以标引新兴学科的文献;此外,分类表中的类目不能无止境地细分,主题范围狭窄的文献,也可能找不到相应类目和分类号。 (4)体系分类法用分类号分类号。不熟悉分类法,转换时就可能发生误差,优点是不受作为检索标识,不能直接表达概念,检索时需要先将主题概念转换为文种限制。
(5)分类法按直线式序列设置类目,遇到跨学科的课题时,由于相关文献只能标引在一门学科的类目下,容易漏检。
(6)属于先组式检索语言,类目不能变动,不能按照课题需要组配检索。 标题词语言(Subject Heading) 定义:标题词是指用以描述文献主题内容的经过规范化处理并具有固定组配关系的名词性术语(包括词组和短语)。
以标题词为标识来存储和检索文献的信息标识系统称为标题词语言。~是最早出现的一种按主题来标引和检索文献的主题词语言,与体系分类语言同属先组式检索语言,但不用分类号而用词语作为文献标识。
2.结构:~的三大构成要素是主标题、副标题和说明语。
主标题:是表达文献核心内容的主题概念,一般由经过规范化的自然语言中的词、词组和短语来充当。
副标题:从某一特定方面对主标题进行说明、限定,由经过规范化的词、词组来充当。 说明语:是用来详细说明和限定主标题、副标题的内容与方面的词、词组或短语。它由未经规范的自然语言充当,不纳入词表正文,而是排在主、副标题之下。 叙词语言 1.有关定义:(1)叙词(Descriptor):是指具有组配功能并经过规范化处理的用以表示概念单元的名词或名词性词组。 (2)叙词语言:以叙词为基本成分,通过选取叙词及严格的同义规范(优选)、词义规范(词义限定)、词类规范及词形规范,为文献标引与检索而设计的人工性后组式语言。
(3)叙词法:建立在叙词语言及其性质的基础上的一种处理文献的方法,基本原理是通过概念组配(分析与综合)来表达主题,以提高标引的专指性和检索的灵活性。 叙词法与元词法区别:元词法只限于字面形式上的组配,叙词法主张概念组配。 2.叙词的组配原则:
叙词所用的词主要是名词和动名词,词序都采用自然序列,尽量采用单词作为叙词,利用单词的组配来表达复合概念。只有在单词组配会造成错误和混乱时才采用词组。词语的组配方式有两种:概念组配和字面组配。概念组配是合乎逻辑的组配,字面组配不一定合乎逻辑,导致误检。例: 概念组配有三种:
(1)概念相交:具有概念交叉关系的同级词组配后,形成一个新概念,这个新概念是组配前各概念的下位概念。“月掩恒星”标引为“月掩星:恒星”
(2)概念并列:具有并列关系的两个或多个同级词组配后形成各概念的上位概念。
(3)概念限定:将表示事物的叙词和描述他的方面词组配形成一个新概念,他能说明事物的某一方面。“各国统计资料”—“统计资料,各国”;“食品的化学分析”—食品—化学分析 3.叙词语言的特点:
(1)~是后组式检索语言,概念组配是其核心。(2)叙词表不是等级结构,便于增删、修订叙词。(3)直接使用叙词作为检索标识,不必转换,具有语言直接性。(4)有一套完整的参
照系统,可供扩建或缩检。(5)利用词族索引和范畴索引可以按学科分类进行族性检索。 (6)用叙词语言标引和检索机读数据库中的文献,是其应用的最主要方面。 与其他检索语言相比,叙词语言是较完善的检索语言。 关键词语言
1.定义:关键词(Keyword):是指直接从文献的题目、文摘或正文中抽出的对表达文献内容具有实质意义、能作为检索入口的、起关键性描述作用的词汇。
关键词语言:用关键词作索引款目的标识系统,是一种未经优选和规范化的自然语言。 2.特点:是自然语言,未经规范处理,不受词表控制,方便易掌握,可降低标引难度,节约人力。利用计算机自动标引文献,编制关键词索引非常迅速,可大大缩短检索刊物的报道时差。缺点:未经规范化,标引人员和检索人员用词不一致时,容易漏检,降低查全率。 单元词语言 1.定义:单元词(Uniterm):又称为元词,是从文献中抽取出来的、未经规范处理的、能表达文献主题的最小和最基本的词汇单位。~在概念上不能再分解。 单元词语言:通过单元词组配来表达文献主题的检索语言。 2.特点:优点:(1)采用单元词组配,表达概念的灵活性大,可使检索达到任意专指度。 (2)适用于各种载体的检索工具和检索系统,尤其适用于自动化检索系统。 缺点:(1)过分强调索引词的单元化,否定词组的作用。
(2)仅限于对词进行字面上的分解和组配,有些词在字面上无法单元化,容易造成组配错误,增加误检率。
单元词法自50年代创立后,逐渐演变为叙词法,但单元词法开创了后组式检索语言和组配检索法,成为大多数联机检索系统的基础。 第六节 信息检索程序与策略 一、检索程序
第一步:分析检索的主题。第二步:选择检索系统和数据库。第三步:选择检索方法
第四步:确定检索途径和检索词 第五步:构建检索表达式 第六步:检索并及时调整检索策略 第七步:输出检索结果 二、检索策略
定义——检索策略就是为了实现检索目标而制定的计划和方案,包括选择检索系统和数据库、检索途径的选择、编制检索表达式等。 制定检索策略应注意以下问题:
1先国内后国外。先利用国内检索工具或中文检索工具,这样可以较容易掌握课题概况,并可从中选出关键词、主题词,为进一步查找外文检索工具提供方便。
多选用几个同义词和近义词。由于语言的复杂性,作者使用的词语不尽一致,为避免漏检,2尽量多选几个同义词、近义词作检索词。 3利用上位词、下位词检索,提高查全率。
4尽量避免从字面出发选择检索词。检索时,尽量从内容出发选词,避免漏检。
5变换检索词的次序。在检索中使用检索词查不到所需文献时,应考虑倒置检索词的可能。 6利用参见系统,扩大检索范围。 7各种索引配合使用。
第七节 信息检索效果评价——描述检索效果的参数——
主要有:查全率、查准率、漏检率、误检率、相关性以及新颖率、检索速度等。 设a为被检出的相关信息,b为被检出的非相关信息,c为未检出的相关信息。
1、查全率 R= a / (a+c) * 100% 查全率是对所需信息被检出程度的量度。2、 查准率 P= a /
(a+b) * 100%
查准率是衡量检索系统拒绝非相关信息的能力。3、 漏检率 M= c / (a+c) * 100% =100%--R 漏检率是查全率的补数。4、误检率 N= b / (a+b) * 100%=100%--P 误检率是查准率的补数。5、相关性
是用户判断信息与信息需求之间关系的标准。
6、新颖率=能检出的最近单位时间内发表的文献量 / 最近单位时间内发表的文献总量 * 100%
7、检索速度=检索输出的文献量 / 检索所用时间
最理想的检索效果是M, N为0,即 R, P为100%,实际上这是不可能的。R, P之间存在着相反的相互依赖关系,提高查全率会降低查准率,反之亦然。
对于检索来说,漏检是影响检索质量的最主要因素,必须将漏检率降到最低;而误检会降低检索效率,也会影响检索质量,因此必须力争克服漏检(必要条件),同时尽量避免误检(充分条件)。第二章 计算机检索系统
4.数据库。 数据库是一系列信息记录的集合,是检索系统中的信息源。它存储在计算机的磁带、磁盘或光盘上,借助于数据库的管理软件技术和检索系统,数据库可以随时按不同的目的提供各种组合信息,满足检索者的需求。数据库是结构化的数据集合。是至少有一种文档组成的,能够满足某种特定目的或特定数据处理系统需要的数据集合。 二 、机检与手检的区别
1总体特征:手检靠手翻、眼看、大脑判断。机检靠编制检索策略、计算机查询和匹配。 2存储方式:书本式文献的传统存储方法是图书馆文献管理法,在手检体系中文献分类处于核心地位,手工检索的四大检索途径是分类、主题、号码、作者名检索。机读信息则以数据库的形式存储,数据库是至少由一种文档组成、能满足特定目的或特定数据处理系统需要的数据集合。信息被分类、编码、标引且以数据形式存入数据库后,计算机就能按电子数据方式进行处理并检索。
3检索点:手检检索点较少;机检检索点较多。计算机信息检索系统可以产生极为丰富的检索点,既可以用人工语言(受控语言),也可以用自然语言(非受控语言)检索,大大提高了检出率。
4. 检索速度:手检较慢;机检较快。计算机能存储大量的信息和数据,处理速度快,运算准确、可靠性高,检索所用的时间可以用分、秒计算。
5检索要求:手检需要掌握专业知识、外语知识、检索工具知识;机检需要掌握专业知识、外语知识、机检系统知识。
6查全查准率:计算机检索系统采用了逻辑运算和限制检索等功能,使各类检索词之间能够灵活组培,能满足多元检索的要求,查准率和查全率都远远超过手工检索。 7综合效率:手检较低;机检较高。 三 、计算机信息检索的原理 (一)基本原理
计算机信息检索是以计算机为基础的信息的存储与检索。
它是在人和计算机的共同作用下去完成信息存取操作,从 而迅速、准确地给用户提供符合特定需要的信息的一种方 法与过程。计算机信息检索系统的工作主要有两个方面:信息的存储与检索。1存储是指收集信息,然后进行筛选、分析、著录、标引,从各个方面描述信息的内容特征和形式特征,以形成可供检索的标识,在按照一定的方式输入到计算机中,建立相应的信息数据库。2检索是指将用户需要的信息变成检索提问标识,按照系统提供的检索途径,将检索提问标识与系统存储的信息标识进行比较,将满足检索提问条件的信息按用户要求编辑输出。
(二)计算机信息检索基本过程
计算机信息检索的基本过程是在用户输入的检索提问标识与存储在文档中的各种检索标识之间进行比较处理的过程。机检过程可分为以下四个步骤:
1.选择检索词编写检索提问式。 2.用户逻辑提问式同数据库相匹配。 3.输出中间结果。 4.检索效果评价。 (二)计算机检索系统的类型
1.联机信息检索系统。 ~是由一台主机带多个终端的信息检索系统。通过采用实时操作技术,用户可以使用终端设备直接与计算机对话,计算机对用户的提问能及时处理、即刻回答。用户还可以通过浏览有关信息,随时修改提问,直至得到满意的结果。
2.光盘信息检索系统。 光盘数据库从1985年问世以来便很快占领市场,并得到日益广泛的应用。
3. 网络化信息检索系统。 ~是指用户使用自己计算机通过电信系统与网络相联获取信息的一种检索方式。~与联机检索系统不同的是用户和服务器之间是同等关系而不是主从关系,同一个客户可以访问多个服务器,一个服务企业可以被多个客户访问。客户既是网络信息的检索者,也是网络信息的提供者。 三种检索系统的比较:
1使用联机检索——可直接利用国内外大量规范化的专业数据库进行迅速有效的检索,有较高的查全率和查准率,但联机费用较高,需要较高的检索技术。
2使用光盘信息检索——最大的好处是:光盘费用一次性投入,用户可以反复进行检索、筛选直至达到最佳检索效果为止,而不必担心检索时间过长,费用过高。
3使用网络化信息检索——信息资源丰富,可以得到最新的大量数据、动态及多媒体信息,可以得到很多免费信息,也可以通过注册的方式,进入多个专业联机数据库进行检索。但检索速度慢,查全率和查准率也比较低。 (三)计算机信息检索方式
计算机检索方式按用户界面与操作方式的不同可分为三类:命令式检索、菜单式检索和超文本式检索。
命令式检索 ~是使用一些特定的操作命令(包括指令)来实施检索。命令检索适用于有经验。的检索人员,各种命令的综合应用可以精确地表达检索提问 ,灵活地进行各种方式的检索命令,可以简捷、快速地得到比较理想的检索效果。一些大型的检索系统都使用命令检索方式。
菜单式检索
~是一种方便易掌握的检索方式,称为“easy-to-easy”检索。普通用户只要根据菜单的指引进行一步步进行项目选择就能完成检索。光盘数据库多采用菜单检索方式,但其操作步骤繁多,检索时间较长,检索功能、精度也不如命令检索。 超文本式检索
~向用户提供更加友好的人机交互界面,这种检索方式常用在多媒体电子出版物中。这类出版物不光采用超文本,而且常采用超媒体,提供文本和图形界面,Internet上的WWW就是典型例子。第二节 数据库及其种类
数据库是在计算机存储设备上按一定方式存储的相
互关联的数据集合。在此将数据库归纳为两大类:文献数据库和非文献数据库。 (一)文献数据库
文献数据库只存储有关主题领域各类文献资料的书目信息,为用户提供文献属性信息和来源指示。 1.种类
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库信息检索基础完整篇(2)在线全文阅读。
相关推荐: