网路搜索引擎混乱信息不对称理论你怎么看面试档案

客服精灵 竞价推广必备软件
增值电信业务经营许可证:苏B2-
编辑热线:6-808
A5创业网 版权所有
扫一扫关注最新创业资讯――――青山不墨千秋画,绿水无弦万古琴。
字号:大 中 小
如档案分类表、主题词表、计算机检索、搜索引擎、检索工具等。步骤、方法、原则之类的简答题。四角号码,15个字/15分。分类法和主题词的应用题。课件为主,教材为辅。考试时间:18周602考试。
一、基本术语
⒈正规文献:指公开出版的文献,如图书、期刊、报纸、政府出版物。政府出版物,又称官方出版物。由政府机构出版或编辑,并由其所指定的出版商出版的文献,如报告、公告、国家统计资料、地图、机关指南等。
⒉非正规文献:又称内部文献,限制流通的文献,国外也称“灰色信息”,指不公开出版,通过正规渠道难以获得的有重要价值的文献。如会议文献,学位论文,档案文献等。
⒊信息检索:是将信息按照一定方式存储起来后,用科学的方法,利用检索工具为用户检索、揭示和传递信息的过程。一般有信息整序和信息检索两部分构成。
⒋检索语言:它是依据一定的规则对自然语言进行规范,将其编织成表,专门用于各种较为规范的文献和数字化的文献信息存储和检索,并提供信息标引的语言系统。
⒌分类检索语言:将表示各种知识领域的类目按照知识分类原理进行系统排列并以数字、字母等符号作为标志的检索语言,也称分类法。分类检索语言的具体表现形式是分类表。
⒍主题词:表达文献主题概念的词叫主题词。我国图书情报界通常把主题词也成作“叙词”,广义的主题词有时也包括关键词。(是将自然语言中的名词术语经过规范化处理后直接作为文献标志的检索语言,因此又称“主题检索语言”)
⒎关键词:从文献题名、文摘和正文中抽出,不做规范化或只作少量规范化处理,具有实际意义的词语。
⒏主题法:它是将自然语言中的名词术语经过规范化后直接作为文献标志的检索语言(词汇),也称“主题检索语言”。(就是以自然语言词汇为基础,以规范化的主题词作为检索标志的文献标引与检索方法。)
⒐款目主题词:指列于标目位置的主题词,依照首字音序、音调,结合汉字字形笔画排列,首字相同者依第二字音序、调序、字形笔画排列,以此类推。非汉字字符起首的主题词,一律排在汉语拼音音序之前。
⒑范畴号:是款目主题词的范畴分类类目代号,标识在款目主题词的右侧。借助范畴号可以在范畴索引中查询与该主题词同属一类的有关主题词。
⒒词间关系:又称参照系统,是用来说明与款目主题词发生关系的一些词,其中包括等同关系、属分关系、相关关系等。
⒓范畴索引:亦称分类索引,即将全部主题词按范畴号分成若干大小类目排列编制而成,与住标间由“范畴号”加以联系。
⒔词族索引:也称族系索引,等级索引,它是将主表中具有分属关系,相关关系的正式主题词按其本质属性展开显示的一种词族关系。
⒕档案著录:是在编制档案检索工具时对档案内容和形式及各种特征加以分析、选择和记录的过程。
⒖档案标引:是在档案著录工作中对档案的内容和主题进行分析和选择,通过概念转换赋予其规范化的检索语言的过程。其中,赋予著录档案分类号的过程称为分类标引,赋予著录档案主题词的过程称为主题标引。
⒗查全率:衡量满足需求的全面程度,通过检出的有关问题档案数量与关于该问题在同一保存地点(或数据库中)的全部保存数量的百分比来计算。
⒘查准率:衡量满足需求的准确程度,通过检出的有关内容准确的档案数量衡量与关于该问题检出的全部档案数量的百分比来计算。
⒙电子文件著录:是对电子文件在形成过程中以及形成后所具有的各种特征的准确描述和记录。
⒚元数据:是描述电子文件内容、结构、背景信息机整个管理流程,又能够被计算机一网络系统自动辨别、分解、提取和分析归纳的数据。
⒛档案信息计算机检索:人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检出所需的信息,继而再由终端设备显示的过程。
21.档案信息:即档案中记载的内容,它是社会组织或个人在以往社会实践活动中直接形成的。具有清晰、明确含义、被固定在各种载体上的原始记录。
22.整序:指按照档案信息的来源、学科分类、主题词或其他方式对档案信息进行组织排序,形成检索工具或检索系统的过程。一般包括实体整序和内容整序。
23.检索:根据用户需要,利用检索工具或检索系统,从经过整序的信息集合中查出所需信息的过程,也是完成信息传递的过程。
24.物理和智能格式:这是电子文件不同于纸质文件的特殊著录项目。物理格式是指决定文件外观的相关内容,如字体、颜色、语种、插入符、数字签字、时间等;智能格式是指决定文件形成过程以及管理背景的相关内容,如文本类型、图例、图像、格式、文件各部分内容排列顺序、注释等
25.检索效率:是指在检索工程中,依据用户需求检出结果的全面性和准确性的程序,它是衡量档案检索系统以及每一个检索过程质量高低最基本指标,它通过“查全率”和“查准率”反映出来。
二、类型简述
⒈档案信息类型(P4)
①按档案信息形成时间:历史档案信息和现行档案信息。②按档案信息形成属性:公务档案信息和私人档案信息。③按档案信息发挥作用:行政管理档案信息、科技档案信息和专门档案信息。④按新中国成立前后时间:中华人民共和国成立后的档案、革命历史档案、旧政权档案。⑤按档案不同载体划分:纸质档案、缩微档案、视听档案、电子档案等。
⒉信息检索的类型
四种类型:事实性检索;专题性检索;导向性检索;综合性检索。
①事实性检索――包含数值数据检索和非数值数据检索。数值检索:具有数量性质,并且以数值形式表示的量化信息的检索。非数值数据检索:对事实、概念、思想等信息的检索。
②专题性检索――要求提供专题信息资料,根据特定的研究课题检索所需的文献。
③导向性检索――也称“指引性”检索,向用户指引信息检索的方向,如文献藏所有关专家,服务机构等,如档案馆指南。
④综合性检索――一般包括政策咨询和管理咨询。政策咨询:为国家和地区的战略性发展提供综合研究资料和系统设计方案。管理咨询:为有关部门或机构提供管理信息,协助制定工作方案,提高管理水平。
以上四中检索类型中,事实性检索和专题性检索是档案检索的主体。
⒊检索语言类型
不同的检索对象可以采用不同的检索语言,如检索文献实体和检索文献内容,有不同的检索语言。档案信息检索中主要有全宗检索语言、分类检索语言(分类法)和主题检索语言(主题法)专题信息检索、人物检索等。
不同档案检索语言的检索对象不同:全宗检索的主要对象是档案实体;分类法主要按照学科分类和逻辑联系进行档案信息检索;主题法主要针对档案信息的主题内容进行检索;人物检索以人名为检索入口。
⒋档案著录类型
可分为案卷级,即含一组案卷;和文件级,即含一组文件。
①案卷级的特点:以案卷为单位著录成条目,数量较少,工作量较小,但不能具体揭示每一份文件的内容和特征,检索效果较差。
②文件级的特点:一份文件著录一个条目,数量大,花费时间多,不易保管(手工)。但存储的信息丰富,能揭示每份文件或几份有关联的文件的内容和形式特征,具有较高的查全率和查准率,是今后计算机存储和检索的主要选择。
⒌检索工具的类型
①按体例分:目录、索引、指南、文摘、汇编等;②按组成形式分:书本式、卡片式;③按载体形式分:纸质载体、胶片缩微摄影、磁性载体(机读式);④按功能分:提供检索线索工具、提供档案全文工具;⑤按检索信息深度分:综合介绍型工具、内容查找型工具。
三、原则简述
⒈《中档法》编制原则
①分类法体系的建立,类目的设置和序列先后都力求做到具有思想性、科学性、逻辑性和实用性,充分反应我国档案的特点,适应档案利用的需要;
②分类法的体系和基本类目的设置,依照我国档案的形成方式,以不同历史时期的国家机构、社会组织从事社会实践活动的职能分工为基础,结合档案内容记述和反映事物属性关系,采取从总到分,从一般到具体的逻辑体系了(图书分类是按照学科属性)
③分类法能够包容各个历史时期、各项社会会动所形成的各类档案,力求保持基本类目的稳定性,既能适用于现有的档案分类需要,又能为今后档案种类的增加和内容的变化留有余地;
④分类法的类目名称和标志符号力求准确、规范、简明、易懂、好记,便于掌握和使用。
⒉《中国档案主题词表》选词原则和范围
⑴选词原则
①力求思想性、科学性和实用性的统一。&
②选用的主题词符合汉语的结构特点,词形简炼,概念明确,词义简单。
③选用的主题词能够反映综合性档案馆和机关档案室收藏档案内容的主题概念,在标引和检索中具有实用价值和一定的使用频率。
⑵选词范围
①时间范围:主要选取20世纪初以来各类档案中出现的词语。
②内容范围:主要选择反映党、政府机关各项管理工作内容的名词。包括:党政公文中经常涉及到的政治活动、科学研究、生产技术、经济建设等方面的名词术语,以及反映新事物概念的专用名词。也选取一些专有词或词组,如民族、宗教、知名人士、职务、节日节令、科学名称、文艺作品的泛称(如古典小说、沪剧、农民画等)
⒊电子文件著录的基本原则P70
(1)维护真实性原则
真实性是档案得以存在和受到保存的基本前提。电子文件的真实性是指文件内容、结构和背景信息经过传输、迁移等处理后,直至转化成电子档案时与形成时的原始状态应保持一致。对电子文件进行著录时,应充分保证每一个著录项所指向的内容都是文件内容真实反映。
(2)保持完整性原则
电子文件的完整性包括两方面含义:一是文件数量要齐全,即作为记录社会真实活动的,且具有有机联系的电子文件及其他形式的相关文件数量要齐全;二是每一份电子文件的内容、结构和背景信息等基本构成要素要完整,没有缺损。
(3)可读性原则P71
电子文件的可读性是指文件经过存储、传输、压缩、加密、媒体转换、迁移等处理后,能够以人可以识读、可以理解的方式输出,并保持其内容的真实性。
(4)坚持前端控制原则
前端控制是现代文件、档案管理理念的重要内容,它以文件生命周期理论为基础,把文件从形成到永久保存或销毁的不同阶段看做一个完整的过程。在这个过程中,文件的形成是前端,处理、鉴定、整理、编目等具体工作是中端,永久保存或销毁是末端。
四、步骤概述
⒈分类标引的步骤P56
⑴研读《中档法》&& 认真研读《中档法》是进行档案分类标引的第一步,所有分类的标引结果都应在《中档法》中找到相对应的类目,因此,标引人员在标引工作开始时, 首先应全面系统地研读《中档法》的编制说明、主表、附表,了解该法的编制目的、适用范围、分类原则,全面熟悉该法的体系结构、标识符号、类目注释的具体内容,辨清各类目上位类、同位类、下位类的关系,理解分类理论在实际应用中的具体体现,深入透彻掌握其使用方法。
⑵分析题名 文件和案卷的题名,是责任者或立卷人对档案内容的概括,在题名准确反映档案的中心内容的情况下,利用题名进行分类标引是最简单和最常用的方法。还应浏览正文,浏览正文就是通过分析题名不能确定档案的确切内容和类别时,应浏览文件、案卷的正文。重点阅读文头、文尾、段落题名,了解作者的撰写目的和意图,从而确定档案内容论述或涉及的主题。
⑶分析档案其他内容& 如立档单位的性质、职能和任务等,通过分析题名、浏览正文、参考文件版头和案卷封面。
⑷判定类别& 进行内容分析后,须确定对文件、案卷所论述的事物中,哪些内容应予以标引,能为利用者提供检索途径。然后根据内容性质,到《中档法》中查找其所属的类目。
⑸标引分类号 就是用《中档法》中的类号来表达档案内容的标引过程,也就是将判定的类别赋予分类标识。给予分类号,应根据文件、案卷内容的属性、内容多寡、起草意图、利用对象检索需求等特点,采用恰当的方式和方法,准确、一致、适度地标引出来。
⑹审校 审校是分类标引的最后一道程序,是确保标引质量的最后关口。审校内容包括检查验证档案的内容是否得到全面的分析,内容判定是否准确、恰当,辨类是否准确,同类档案是否归类一致,标引的类号是否充分、完整、准确,书写是否正确无误。审校程序分为自校、互校和总校。
⒉档案主题标引的程序和方法
1)阅读档案原件,了解主题内容;
2)分析主题,选定主题概念,主题类型可以有多主题和单主题;
3)主题归纳、选定需要解释和表达的主题;
4)查表选词,进行主题概念的转换;
5)校对审查,从思想性、专指性、规范性等方面所选主题词进行审查,保证标引质量。
⒊检索步骤(一般分为六个步骤)P86
①检索受理。接受用户提出的档案信息检索要求。
②分析待检档案信息。
1)分析待检档案类型:文献类、事实类、人物检索、机构检索、数据检索和非数据检索;2)分析待检课题的学科性质及相关知识;3)分析待检课题对检索人员的要求(专业性要求);4)分析待检标志,即那些标志可以作为检索的入口,待检档案已知什么,还需要了解什么,并确定它们之间的关系;
③提炼检索词。即选择检索词。如一般包括分类号、人物、时间、事实、地点、主题词等。可采用直接提取法和间接概括法:1)直接提取法。直接从待检档案信息中选取检索词,如主题词或关键词;2)间接概括法。选用一个能概括待检档案信息主题的词作为检索词。
④制定检索策略。即确定检索原则,确定检索顺序。
1)检索原则:尽可能利用各种检索工具,由简到繁、由易到难、由近到远、由少到多。
2)检索顺序:
利用检索工具顺序―四先四后:▲先查线索性的,后查资料性的;先查目录、索引类,再查内容概括类。检索工具如文摘、综述、年鉴等;▲先查专科性的,后查综合性的;▲先查常见的,后查罕见的;▲先查本地的,后查外地的。
直接检索文献原文―三先三后:▲先查概括的,后查专深的;▲先查现代的,后查历史的;▲先查国内的,后查国外的。
⑤实施检索。根据已确定的检索方案和检索顺序,以提炼出的检索词为目标,借助各种检索工具实行检索文献的过程
⑥对检索结果的处理。一般检索结果有两种:档案信息的线索或档案文献本身。P89
1)检索结果是线索时(非全文检索)
一般是利用目录、索引等检索工具完成的,应完成以下工作:准确登记档案线索的各项标志,一般包括:数据库名、目录名、索引名、全宗名、档案标题、责任者和数据库名等。
2)检出结果是文献本身(载体)时
一般是利用数据库、全文检索、档案汇编、资料性工具书等完成,应著录完成以下几项工作:档案出处(收藏者、档号)、内容摘要、摘录人、摘录时间、档案责任者(形成者)、数据库名和建库时间、主题词、分类号等。
&&& ⑦统计当案检索工作的效率指标
检索效率是指在检索工程中,依据用户需求检出结果的全面性和准确性的程序,它是衡量档案检索系统以及每一个检索过程质量高低最基本指标,它通过“查全率”和“查准率”反映出来。
⒋检索途径:利用档案信息检索项完成检索。
一般包括:责任者、全宗名、主题词、关键词、文件标题、摘要、形成时间、序号(发文号、登记号)、文种、目录、档号等。当利用档案数据库进行计算机检索时,以上所有各项统称“检索项”所有检索项都通过档案外形特征和档案内容特征显现出来:
⑴档案外形特征& 文件或案卷上记载的显而易见的标志和特点,一般包括:责任者(形成者、全宗名)、序号、收发机关、形成时间、密级、保管期限、档号等。其中,责任者途径和序号是常用的方法。
①责任者途径:责任者是指对文献内容负责的个人或团体:机构名、机构负责人名、编者、校点者、注释者、译者等。注意区分:一名多人、一人多名、笔名、室名等别称。主要检索工具:全总目录、机构目录、人名索引、机构名索引等。
②序号途径:根据档案文献的序号特征来查找信息的途径。
档案序号主要包括:期刊号、文件号(发文字号)、文件登记号、标准号等。常用检索工具:号码目录、号码索引。序号方法使用的检索号和检索对象是一一对应的,故多用于对档案实体的检索和查找。
⑵内容特征 依据档案信息所描述的内容,涉及的事物所属主题进行检索。
①题名途径:以文献的名称(全宗名、文件标题、文种)为线索查找档案信息。题名途径常用的检索工具有:全总目录、案卷目录、卷内文件目录等。
②分类语言途径:根据文献所属的学科体系来检索信息,从古至今都是常用的检索方法之一。常用检索工具:《档案分类表》。
&③主题语言途径:以表达文献主题的内容的主题词及其派生出的关键词为标志的检索信息的途径。主要检索工具:《中国档案主题词表》。
&④其他途径:时间途径、地区途径、文摘、资料汇编等。
五、检索工具
▲第一类:
1.全宗文件目录P96(最常用)
以全宗为对象,将全宗内全部文件(永久和长期)的内容和形式特征记录在卡片上,按照内容所反映的问题加以系统化而组织成的目录。一般多采用卡片式编制,它是档案馆,特别是机关档案室最常用的一种检索工具。
全宗文件目录设置的著录项一般有:全宗名、文件题名(标题)、责任者(作者)、文件编号、文件形成时间、附注、主题词、内容摘要、分类号、档号等。
2.全总目录P91
它是以全宗或全宗内的某一部分案卷为对象编制而成的一种检索工具,以案卷为检索单位。 一般设有:案卷号、案卷题名、起止时间、保管期限等。
3.卷内文件目录
以每一个案卷内的所有文件问对象编制而成的检索目录,据此可以查找到卷内的每一份文件。& 一般设置的检索项有:案卷名、卷内文件顺序号(件号)、文件标题、责任人、主题词或关键词、分类号、页号等。
4.重要文件目录P96
是一种揭示档案馆(室)中全宗内重要文件内容和成分的检索工具。一般设有:分类号、主题词、文件题名、责任者、文件形成时间、档号等。
5.分类目录P97
是依据《档案分类表》,将档案馆(室)中全部档案材料按照分类标识进行分门别类形成的特殊检索目录,是档案馆(室)的一种综合性、主导性检索工具,在档案检索体系中占有非常重要的地位。
主要特点是:超越了全宗的界限,系统性强,问题集中,便于按照时间问题检索信息,比较符合人们的检索习惯。
6.主题检索目录P97
依据《档案主题词表》,按照主题标识编排而成德一种检索工具,一般以卡片的形式编制。其主要特点是:
(1)问题集中:不受全宗、类别、知识门类、学科领域、分类体系的限制,把同一主题的档案材料集中,能向利用者提供某一主题的全部档案材料
(2)内容具体:将每份文件的内容用几个具体的主题词揭示出来,包括比较次要的内容揭示出来,存储的信息将较大,减少漏检率和误检率。
(3)编制灵活:主题卡片按字顺排列,可以随时对主题词进行增补、删除、改动,有利于计算机著录和检索。
(4)使用方便:以规范化的词或词组来揭示文件或案卷的主题,很容易查找。
常用的主题卡片的结构:《档案著录规则》中推荐的主题著录格式;“条目著录格式”(一份文件或一组案卷)如表6-6(P97);集中著录,将主题词相同的若干份文件或案卷著录在一张卡片上。
7.专题卡片目录P97
按照特定专题(问题),以一定次序编排而成的检索工具。特点:以专门题目为对象,把同一问题的文件条目组织在一起,可以是一个全宗内有关某一专题的档案材料,也可以不受全宗的限制,把全馆(室)有关某一专题的档案集中在一起,具有问题集中、内容全面、针对性强、材料系统、专深等优势。
一般著录项目有:专题名称、类(项、目)、文件题目(标题)、责任者、文件编号、时间、主题词、档号、附注等。
8.人名卡片目录P98
将档案馆(室)所藏档案材料中涉及到的人名及简要情况著录下来,按照人名进行查找的检索工具。著录项目:一般有两部分组成:⑴个人的自然情况:姓名、性别、出生年月、民族、籍贯、文化程度、简历等。⑵指引部分:材料出处的档号、备注等。常用人名检索目录体例:
1)综合性人名卡片目录:以档案馆(室)的若干全宗或全部档案为对象,按单份文件所涉及到的人名进行著录。
2)专题人名卡片目录:以馆(室)藏档案中涉及某一专题的有关人名进行著录。
9.联合目录P92
选定两个以上档案馆的全部或部分馆藏编制而成的目录。其作用:(1)将分散在各地的某种类型的档案材料著录下来,从目录上连成载体,实现资源共享;(2)有利于建立全国和地区性的档案目录中心,实现馆际协作和情报交流;(3)能进一步推动档案著录标准化,为实现档案检索自动化、网络化创造条件。
联合目录的种类:(1)从档案类型上分:明清档案、民国档案、革命历史档案等联合目录;(2)从内容上分:综合性、专题性联合目录;(3)从语种上分:中文、外文等;(4)从地域上分:全国性、地区性联合目录。
编制形式:(1)一馆为主,其余补充。先由收藏该类档案最多的馆编出一套目录,再分送到有关档案馆进行较对补充,最后由牵头的馆汇总。(2)各馆分编,一馆汇总。在统一著录格式和要求的前提下,各馆分编,再由一个馆汇总和较对补充。(3)各馆分编,集中较对。各馆分编,再由档案行政机关或与专业主管机关组织专门力量集中校对和汇总补充。
▲指南和索引式工具
⒈档案馆指南P99
以文章叙述的方式全面、概要地介绍档案馆保存档案情况的一种工具书。
▲档案馆指南的结构:(1)目录;(2)序言;(3)档案全宗介绍:这是指南的主体部分,也称“全宗指南”,一般分为逐个介绍和综合介绍;(4)馆藏资料概况:对馆藏档案有关的馆藏材料进行介绍(5)附录:一般包括检索工具分册、规章制度、其他辅助工具,如工具书等。
▲全宗介绍的主要内容:以文章叙述的形式介绍某以全宗档案内容和成分及其价值,一般包括:1)立档单位和全宗历史概况。一般包括:全宗名称、存在的时间、工作职责任务、案卷数量等;2)全宗档案内容和成分介绍。一般包括:文件作者(来源、种类)、制成材料、可靠程度、时间和价值等。
▲全宗介绍要分类排列:一般可根据历史时期、全宗性质、机关隶属关系、重要程度等特点安排。新中国时期形成的档案全宗一般采用以下方法排列:1)性质相同的全宗,按时间排列;2)有隶属关系的全宗,先将该类全宗集中,再按先上级后下级排列;3)要区别重要程度的全宗,党政首脑机关和综合性机关在前,一般机构在后;4)按全宗的性质分类别排列,如医院、学校、工厂等。
▲全宗介绍的作用:帮助利用者研究全宗历史;为查找全宗档案提供线索;有利于从全宗的角度研究某个专题;帮助档案工作者掌握全宗档案的构成情况。
⒉专题指南P99
按一定的题目,以文章叙述的形式,综合介绍档案馆中保存的有关该题目的一种工具书,又称“专题介绍”。编制方法和作用:一般以专题目录为基础介绍某一专题的综合情况,不受全宗的限制,便于利用者从全面的角度了解有关该专题档案的内容。一般由序言、档案材料内容介绍和附录三部分组成,在介绍中一般只列出档案材料涉及的全宗名称和类目,不指出每条材料的具体出处,因此检索功能不如专题卡片目录强。
⒊人名索引P100
列出档案中所涉及的人物并指明出处的检索工具。
▲编制方法:将档案内容中涉及的人名摘要出来,按照某种方法加以排列。结构组成:人名和档号。
▲形式:一般采用卡片形式,有简单和详细两种。(1)简单人名索引:人名(字、号、曾用名、别名、笔名、艺名、代号、绰号、尊号、谥号等)材料出处的档号;(2)详细人名索引:一般包括两部分。1)第一部分:人名(同上)、性别、出生年月、死亡日期、民族、职业、工作单位、籍贯、文化程度、职务、政治面貌、简历、档案内容提要等。2)第二部分:指引部分,包括材料出处的档号、备考等。
人名卡片一般按照姓氏笔画、四角号码、汉语拼音字母顺序等方法分类排列。
⒋文号索引P93-94
列出所藏档案的文号,并将文号与档号相对应,是按文号检索档案的检索工具。一般采用表格的编制形式,又称“文号档案对照表”。
作用:对于从文号角度提出的检索要求,只有利用文号索引才能查出。尤其对于发文较多的领导机关、专业主管机关和有关全宗,这种检索工具尤为重要。
编制方法:一般按年度、发文机关分别编制,即将同一年度、同一发文机关的文件编一张表,然后将所有的表装订成册。格式有:号码对应试和位置对应试。(具体样式详见P93-94)
六、检索方法
▲排检法含义:一种用人工检索语言编排检索工具的方法。编排与检索密不可分,只有进行科学的编排,才能完成检索。
▲排检法三大类:字顺法、类序法和自然顺序法。
(一)字顺法P101-106
字顺法是根据汉字的字形、字音等特征编排工具书条目的方法。根据汉字的形体构造归纳分类,再按照一定顺序编排条目的方法称为形序法;根据汉字字音顺序排检汉字的方法称为音序法。
1.1形序法(三种)
根据汉字的形体构造归纳分类,常用的形序法有三种:部首法、笔画笔形法、号码法。
根据汉字部首编排和检索汉字的方法,又称为“部首检字法”。部首检字法是一种常用的汉字查字法,广泛应用于工具书编纂、汉字信息处理及其他领域的汉字检索。
▲优点:通过部首将数量庞大的汉字相对集中,符合汉字的结构特点,便于集中查询。
▲缺点:如部首判断不准,笔画数不正确,检索就比较困难。
⑵笔画笔形法
根据汉字的笔画多少和笔形顺序排列和检索的方法,是笔画法和笔形法的结合。
▲笔画法:根据汉字笔画数多少编排和检索汉字的方法,由少到多排列。
▲笔形法:根据汉字的笔画形状(横、竖、撇、点、折)和书写顺序编排检索汉字的方法,又叫“笔顺法”。
▲笔画笔形法的编排顺序:①按照汉字笔画数从少到多排。②笔画数相同的字按起笔到末笔各笔形“横、竖、撇、点、折”顺序排列。③以上各项相同时,按照汉字在国家标准汉字编码字符集中的编码值从小到大排列。
▲难点:检索时要注意数准笔画数,搞清笔形和书写顺序。
⑶四角号码法
四角号码法的基本原理是将汉字的笔形分为10种,分别用。0一9这10个数字表示,每个字按左上、右上、左下、右下(4个号)四角笔形取码,再按号码大小排列汉字。
四角号码笔形代码口诀:
横一竖二三点捺,叉四插五方框六。七角八八九是小,点下一横变零头。&
四角号码编排顺序:
根据《中华人民共和国国家标准?文字条目通用排序规则》(GB/T13418―92)的规定,四角号码按照以下顺序编排:
(1)按四角号码大小排,由小到大。(2)四角号码相同者再按照附号排。(3)以上两项都相同者,再按照横笔数排,由少到多。(4)以上三项都相同者,再按照整字总笔画数排,由少到多。(5)以上几项都相同者,再按照起笔至末笔各笔笔形,按“横、竖、撇、点、折”次序排列。(6)以上各项都相同者,按汉字在国家标准汉字编码字符集中的编码值从小到大排列。
1.2音序法(三种)
利用汉字的发音进行排序的方法就叫做音序法。音序法包括三种:声韵法、注音字母法和拼音字母法。现在使用最多的是拼音字母法。
⑴声韵法& 古代按照平、上、去、人四声和韵部编排检索汉字的方法。常用工具书一般不采用声韵法进行编排,不懂古音的人可以先利用《词源》、《汉语大词典》等标注有古音的工具书,查出字的古音,再去查用声韵法编排的工具书。
⑵注音字母法
注音字母法是按照汉字注音字母顺序编排检索汉字的方法。注音字母又名“国音字母”,是中国第一套法定的汉字形式的拼音字母。
⑶拼音字母法&& 按照汉语拼音方案字母表的顺序编排检索汉字的方法。
将排检对象按照事物性质、学科体系或主题内容编排检索的方法。
⑴事物性质排列法
将文献按照同一类事物性质归类集中编排的方法。如古代的政书、类书,现代的手册、指南、年鉴等。这种方法便于集中性质相同或相近的文献资料,便于以类相聚,按类检索。但如对待检对象的划类不准确,检索时便会出现误差。
⑵学科体系排列法
学科体系排列法是按照文献的学科系统分类排列的方法,具体做法就是用等级列举的方法层层依次展开各学科的类目。在古代常用的图书分类法有六分法、四分法、五分法等,到了现代这些方法主要用于对古籍图书的分类,对现代图书的分类从20世纪50年代开始大都按照《中国图书馆分类法》的分类标准,而以学科体系排列档案的方法主要体现在以《中国档案主题词表》为标准的档案主题分类法中。
3.自然顺序法& 根据事物发生、发展的时间或事物所处的地理位置编排文献的方法。包括时序法和地序法两种。
⑴时序法:按照时间顺序编排档案文献的方法。如历史纪年表、大事年表、年谱等。这种排检方法线索清晰,检索方便,检索者只要依年月日顺序就可顺利查到所需资料。
⑵地序法:按照档案文献内容所涉及的地理位置或行政区划进行编排检索的方法。如地图集、地理沿革表、名胜词典、方志目录、旅游指南等。
七、档案信息计算机检索
㈠计算机检索档案信息的基本原理和前提条件
1.定义P73:人们在计算机或计算机检索网络的终端机上,使用特定的检索指令、检索词和检索策略,从计算机检索系统的数据库中检出所需的信息,继而再由终端设备显示的过程。
2.基本原理P180:检索人员将能表达其信息需求的检索式提交给检索系统,系统自动将检索式与系统中的信息对比,当信息特征标识及其逻辑组配关系与检索式相一致,即为检索的内容,其过程如图(P201)所示。
3.前提条件P200:档案信息必须进行计算机存储,即建立数据库。在此过程中,相应的系统对收集到的档案信息按内容进行概念分析和标引,赋予特征标志,并按特定编排方法进行编排,形成有序的、具有可检索性特征的档案数据库。
㈡档案信息计算机检索的前期准备工作P201
⒈审阅档案内容,确定输入内容,为计算机检索划出一定范围,符合以下条件的档案可以首先开展计算机检索工作:(1)保管基础条件较好且有一定数量积累的档案,如内容整理较为完备,案卷标题、文件标题等较为规范以及其他整理内容符合标准化要求的档案。& (2)具备了较为完备的手工检索工具的档案。& (3)具有重要历史价值的档案。& (4)具有重要文物价值和艺术价值的档案。& (5)使用频率较高的档案。& (6)前期管理条件较好的电子档案,等等。
⒉完成档案信息的著录工作:一般包括案卷级著录和文件级著录
⒊将相关档案信息输入计算机
①纸质档案信息的输入& 目前对纸质档案的著录主要采用两种方式,一是利用著录软件和原有手工检索工具,将各著录项和档案内容输入计算机;二是利用电子扫描技术直接对档案信息全文进行扫描后再登录各著录项,完成档案信息的计算机输入工作。
②电子档案& 对于前期形成条件较好的电子文件可以直接利用电子检索目录进行检索;对前期背景条件有欠缺的电子文件,在补足前期背景材料后可以进行计算机检索。
㈢档案信息计算机检索的主要方法
1.关键词或主题词法
此法是一种常用方法,一般人都能使用。但此方法检索到的信息范围较广,针对性不强。
2.布尔逻辑检索技术P195
是建立的最早的理论,也是检索技术中运用最广泛的检索技术。它通常对布尔逻辑运算符进行组配,形成检索式,用以表达用户的检索需求,并通过一定的算法和手段进行检索。但要求检索人员熟悉检索式的表达方法,专业性较强。布尔逻辑运算符有以下三种。
⑴AND:逻辑与&& 是一种交叉概念或限定关系的组配,可缩小检索范围,提高查准率。一般可使用“*”或“&”来表示。其检索式为:“A AND B”或“A*B”或“A&B”,表示检索结果应同时含有检索词A和B的文献信息。如“档案馆*数字化”或“档案馆AND数字化”。
⑵OR:逻辑或&& 是一种用于并列关系的组配,可以扩大检索范围提高查全率。一般可使用用“OR”或“+”表示。表示检索结果含有检索词A或者B,或同时有A和B的文献信息。检索式写作:“A OR B”或“A+B”,
⑶NOT:逻辑非& “逻辑非”用“NOT”或“一”表示,检索式写作“A NOT B”或“A―B”,是一种用于排除关系的组配,表示检索含有检索词A而不含检索词B的文献信息。
使用“逻辑非”可以排除不希望出现的概念,提高查准率。常用于主题概念去除某段年份的文献、某个语种或去除某种类型(会议、期刊)的文献等情况。
⑷布尔逻辑运算顺序&&&&&&&
当多个布尔逻辑运算符在一个检索式中出现时,它们的运算“级别”是不同的。大部分数据库是这样规定的:“一”优先级最高,“*”次之,“+”最低。在有括号的情况下,先执行括号内的逻辑运算;在多层括号时,先执行最内层括号中的运算。用这些逻辑运算符将检索词组配构成检索式,计算机将根据提问式与系统中的记录进行匹配,当两者相符时则命中,并自动输出该文献记录。(即NOT、AND、OR)。
3.邻接检索技术P197
利用一定的专门符号,来表示两个检索词在检索结果中出现的位置,避免了布尔逻辑检索中无法区分“逻辑与”链接起来的两个概念的关联程度。
邻接检索技术又称为“词位检索法”,共包括其中常用的方法。
⑴有间断无序邻接& 邻接符号nN,检索式为A(nN)B,表示它关联的两个概念A、B之间可以插入O―n个其他词汇,且两个概念前后顺序不定(顺序可以颠倒),其中,n代表可以插入的词的个数。当n=0时,检索式可直接写作:A(N)B。例如“档案馆(2N)数字化”表示在“档案馆”和“数字化”两个词中间(顺序可以颠倒)不含有其他词(n=O)或包含有1个词(n=1)或两个词(n=2)的所有组合都符合检索的标准。
⑵有间断有序邻接& 邻接符号nw,检索式为A(nw)B,表示它关联的两个概念A、B间可以插入o~n个其他词汇,但两个概念前后顺序固定,不可改变,其中n代表最多可以插入词的个数。当n=0时,检索式可以直接写作:A(W)B,它们之间除可以有空格或标点外,不能有其他检索词(包括单词、字母或代码)。
⑶同字段邻接& 邻接符号F,要求被连接的检索词出现在同一字段(Field)中,词序可变,字段类型可用后缀符限定。例如:“market?(F)information/DE,TI”说明“market?”和“information”两个词必须同时出现在叙词字段或题名字段中。
⑷同句邻接& 邻接符号S,表示被连接的检索词出现在同一子字段(Subfield)或同一自然句(Sentence)中,两个词之间可夹若干词,其先后顺序不受限制。
⑸同文邻接& 邻接符号C,它是Citation的缩写,表示所连接的两个词在一篇文献的记录中查找,只要这两个词同时出现在该记录中,词序不分先后,也不分字段,中间插入词的个数不限。
⑹同标引邻接& 邻接符号L,是Link的缩写,它要求所连接的两个检索词同时出现在标引词字段中,而且具有词表规定的等级关系。因此,这个运算符只使用于有正式词表,且表中词具有等级关系的数据库。
⑺同自然段邻接& 邻接符号P,是Paragraph的缩写,检索式为A(P)B,表示它所关联的两个概念必须在同一自然段中出现。
4.字段检索P197& 是一种对待检词在数据记录中出现的字段范围进行限定的检索方法字段是数据库记录中的基本单位,是数据库的基本著录款目。它包括两部分:一是基本字段,即反映文献内容特征的主要字段;二是辅助字段,即反映文献外部特征的次要字段。
字段检索式有两种:
基本字段限定检索词检索式。格式为:检索词/字段代码,如“档案信息/TI”(TI为题名字段代码),表示查找题名字段中含有“档案信息”的文献。
辅助字段时要用字段前缀检索式。即在字段代码放在检索次的前面,中间用“=”隔开,如“JN=WallStreet”(JN为期刊字段代码),表示查找发表在WallStreet期刊上的文献。
5.截词检索
所谓截词检索,就是指用给定的词干做检索词,检索与含有该词干的全部检索词相关的文献。它可以起到扩大检索范围、提高查全率、节省检索时问等作用,对西文文献尤为重要。
截词检索首先要对检索词进行截断,根据截断的位置不同,分为后截断、前截断、中截断、复合截断;根据截断的数量不同,分为有限截词(即一个截词符只代表一个字符)和无限截词(一个截词符可代表多个字符)。不同的系统所用的截词符也不同,常用的有“?”、“、”、“$”、“*”等。
⑴有限截断,允许截去有限个字符,截几个字符就加几个“?”,空一格后加一个“?”表示截词符。如:“stud????”可检出:study、studies、studied、studing,其词尾可有0―3个字母。
⑵无限截断,允许截去无限个字符,又称开放式截断。如:“Compute?”的检索结果包括compute、computers、computered、computering、computerization……
⑶后截断(右截断),是将截词符放在一个字符串的右方,满足截词符左方所有字符的记录都为命中记录。例如:“heal*”,则前4个字符为“heal”的所有词都满足条件,系统可检出含有“health”、“healthy”等词汇的文献。
⑷前截断(左截断),是将截词符放在一个字符串的左方,满足截词符右方所有字符的记录都为命中记录。如:“?graduate”可检出含有“postgraduate”、“undergraduate”等检索词的文献。
⑸中截断,是将截词符放在一个字符串的中间,满足截词符两侧所有字符的记录都为命中记录。这种方法对于解决英美不同拼法、不规则的单复数变化很有用。如:“m?n”可检出“man”、“men”等检索词的文献。
⑹复合截断,又称前后截断,是将前截断和后截断结合使用,即中问一致检索。如:“?migrat?”可检出含有“migrate”、“immigrate”、“emigrate”、“migrant”、“immigrant”、“emigrant”等检索词的文献。
八、联机检索系统
联机检索系统就是供用户或信息检索人员利用终端设备,经过通信线路(电话线、卫星通信线路、通信网络、信号转换设备等)与主机检索系统相连,运用特定的检索指令进行人机对话,以获取所需信息的系统。
联机检索系统的构成&
一个完整的联机检索系统通常包括检索终端、通信网络和联机检索中心三个部分。
使用联机检索需注意:
①合理选择数据库:根据数据库收录的范围及特点、数据库的标引和词表特征、数据库的收录时间及更新周期、检索费用等决定。
②准确选择检索词:将提问的的主题概念转变成为能与系统相匹配的检索词,一般从所选数据库的叙词表中(一般在数据库中附有)或其他主题词表中选择检索词。
③合理构造表达式:利用已选定的逻辑运算符、位置符等,将选择好的词组配起来。
九、常用网络检索工具
(一)网络搜索引擎分类
搜索引擎按搜索方式不同,可分为:目录式搜索引擎、机器人搜索引擎和元搜索引擎等。
(1)目录式搜索引擎
一般可称为网路目录、分类式搜索引擎、主题指南等。它是将收集的网络信息按某种分类法进行加工整理,建立以分类查询和分类导航为主的搜索引擎,以人工方式或半自动化方式收集信息,由专业人员对信息进行分析后形成信息摘要,并将信息置于事先确定的分类框中。信息大多面向网站,提供目录浏览和直接检索服务。
(2)机器人搜索引擎
由一个称为蜘蛛的机器人程序以某种策略自动在互联网中搜索和发现信息,由索引器为收集到的信息建立索引,检索器根据用户的查询检索索引库,并将查询结果返回用户。服务方式:面向网页的全文检索服务。
(3)元搜索引擎
这类搜索引擎没有自己的数据,而是将用户的查询请求同时向多个搜索引擎提交,将返回的结果进行重复排除,重新排序等处理后,作为自己的结果返回给用户。代表:webcrawler(网页爬行者)、信息超市。
(二)常用的搜索引擎举例
▲目录式搜索引擎代表:
1.Yahoo(P290)
Yahoo是世界上最著名的目录索引,是搜索引擎的开山鼻祖之一。使用注意事项有:
(1)雅虎只支持“逻辑与(AND)和逻辑非(NOT)”,不支持“逻辑或(OR)。
(2)检索式中可以使用引号,使检索结果中用户输入的关键词始终是一个完整的词组不被分开。
创立于1998年,是中国首家分类查询搜索引擎。它采用人工分类技术对搜集的地点进行分类,并在目录下建立目录树体系,形成独具特色的分层目录系统。目前搜狐已从中国首家大型分类查询搜索引擎,发展成为用户喜爱的综合门户网站,有分类检索和关键词检索两种检索途径。说明:
△搜狐中文检索系统支持布尔逻辑检索,用户可以通过布尔逻辑关系构造逻辑关系,构造逻辑检索式实现精确检索。
△搜狐支持的运算符号有:―、&、/、()、空格。
△使用“&和空格”:指定输入的检索词必须在检索结果中,即逻辑与的关系。如用户一次输入多个检索词,则系统默认为逻辑与检索。
△使用“―”:限定某个检索词必须不出现在检索结果中。
△使用“/”:表示“/”两边的查询串中至少有一个出现在检索结果中。
使用“()”:表示括号内的表达式是一个完整单元。
▲机器人搜索引擎
1.Google(谷歌)
谷歌成立于1997年,已发展成为目前规模最大的搜索引擎,并向Yahoo等其它目录索引和搜索引擎提供后台网页查询服务。目前,谷歌每天处理的搜索请求次数已达几亿次,而这一数字还在不断的增加。 谷歌数据库存有30亿个web文件,属于全文搜索引擎。
谷歌允许以多种语言进行搜索,提供了多大30余种语言选择,包括英语、主要欧洲语言、日语、中文简繁字、韩语等。同时还可以在40多个国别专属引擎中进行选择。说明:
△谷歌支持布尔逻辑检索,用“AND”表示逻辑与关系,但在查询时不需加入“AND”,因为谷歌会在关键词之间自动添加“AND”。
△谷歌提供符号检索,用户全部查询条件的网页。如果想逐步缩小范围,只需键入更多的关键词。
△谷歌支持“―”功能,用以有目的的删除某些无关的网页,但减号之前必须留一空格。
△需要注意的是:谷歌不支持“OR”搜索,所以,谷歌无法接受如“包含词语A,或者包含词语B”的网页。
2.百度――baidu
百度公司于1999年成立于美国硅谷,创建者是李彦宏和徐勇。2000年1月,百度公司在中国成立全资子公司――百度网络技术(北京)有限公司百度起名源于“众里寻他千百度”和突破“事做到九十九就是做到头”的西方说法,百度就是要力争做到一百度,做到最好的极致。说明:
⑴百度搜索,支持任意的关键词检索。⑵输入的查询内容可以是词语、多个词语或一句话。⑶百度搜索引擎严谨认真,要求一字不差。⑷百度支持布尔逻辑检索,支持通配符的使用,但在使用“与”时不需要使用“AND”或“+”这样的通配符,只需在输入的多个检索词间用空格隔开。(5)搜索不区分大小写字母,并提供繁简查询和转换。(6)百度设有一些高级检索功能,可以更直观的在检索框中输入检索范围限定,包括时间、地区、关键词、位置等,所有限定一次到位。
搜狗公司推出的全新独立域名的专业搜索网站,以计算机与用户在互动的提示下进行搜索问主要特征。
互动式搜索:在搜索过程中,当用户输入一个检索词时,搜索引擎根据检索要求,迅速智能化展开多组相关主题提示,通过给予多个主题的检索提示,逐层缩小检索范围,引导用户快速准确的定位自己所关注的内容,帮助公民快速找到相关搜索结果和所需信息。这种互动的方法可大幅度提高检索相关度。说明:
(1)有分类检索和关键词检索两种途径。
(2)支持布尔逻辑检索,默认逻辑与的关系,即在检索几个先关的概念时,不需要在关键词之间加“AND”或“+”,只需要在关键词之间输入空格即可。
(3)直通车检索:在输入框中输入要检索的关键词,点击“直通车”,默认结果为搜狗搜索结果。如果检索者还想在其他搜索引擎中查询一个关键词,不必重新打开新的窗口,只要点击直通车列出的其他搜索引擎,即可在同一视窗中得到想要的结果。
十、《中国档案分类法》介绍(P22)
(一)编制原则(见前文)
(二)体系结构
1.宏观结构
三部分构成:编制说明、分类表、附录,其中《分类表》是最主要的部分。
(1)编制说明:包括编制的目的、原则、体系结构、标记制度、适用范围以及使用分类法应注意的问题等;
(2)分类表:在同一编制原则和标记制度的前提下,按照不同的历史时期,分别编制了四个表:《中华人民共和国档案分类表》(1949年以后),《新民主主义档案分类表》(年),《民国档案分类表》(年),《清代档案分类表》(1911年以前)。以上每一个分类表都由主表和辅助表组成。
①主表:也称为详表或类表,是档案分类法的主体,是分类体系的具体体现。它根据类目之间的关系,将众多类目按照一定的原则编排成一个有层次,逐级开展的一览表。主表根据我国政治生活、社会生活的实际和档案分类序列的实践需要,共设置了十九个基本大类。
主表由类号、类名、注释三部分组成。详见P25解释
②辅助表:又称附表、复分表,是对主表类目进行复分的依据。编制主表时,其中有许多类目的进一步细分都是采用相同的标准,而分出来的类目也大致相同,为了节省篇幅和帮助记忆,于是把这些相同或相似的类目集中起来,配以号码编织成表,附于主表后。
(3)附录:附录包括编委会名单,综合编审组名单以及审定委员会的审定意见和后记。后记全面介绍了《中档法》的编制过程,以帮助人们更好的使用《中档法》。
2.微观结构
⑴简介:以《中华人民共和国档案分类法》(主表)为例:它将中华人民共和国成立以来的档案信息按照职能分工该原则区分为大小门类,编织成为一个有层次的逐级展开的类目表。它共设3个基本部类,19个基本大类。
⑵构成:3个基本部类:政治部类;文化部类;经济部类。政治部类包含A-F六个基本大类;文化部类包含G-H两个个基本大类;经济部类包含J-U十一个基本大类。详见P25。
⑶对主表分类结构的说明
①基本部类:是类目标中最概括、最本质的区分,但它不用于类分档案信息(不是具体的分类标准),因此在表中并未明确表示出来。
②基本大类:是在基本部类的基础上扩展起来的。基本大类适用于类分档案信息(具体分类的标准),因此在表中按照政治、文化、经济三大部类的设置,并依据相互之间的关系,排列起来构成分类表的主体。
3.《中档法》类目的标记符号的使用及类目的设置(P27)
(1)标记符的使用
《中档法》的标记符采用汉语拼音和阿拉伯数字相结合的混合号码制。四个分类表的基本大类用拼音字母标出,并以字母的顺序反映大类的序列。
除用拼音字母标出19个大类外,对于一些二级类,因为范围广泛,内容繁多,为了适应分类的需要,采用双字母制,在双字母之后用阿拉伯数字表示下属类的划分并按照顺序编写。
(2)为了使号码(第三级)适应类目设置需要,在号码配置上采用了两种灵活的方法。
①第一种:当同位类目超过10个,并在16个以内,采用八分制,即同一级类目的号码从1编到8后用91、92直到98;
②第二种:当同位类目超过16个时,为避免号码冗长,采用双位制表示各同位类,即用两个数字表示一个位,如11、12直到19,再21、22直到29,以此类推,可以容纳80多个同位类。
(3)关于交叉关系的处理(P28)
①对于中国共产党各级组织所形成的档案,其内容属于综合性的和党内事务的,归入党务类;凡内容记述各项专门业务的则归入有关的专类。如《中共中央关于教育体制改革的决定》,应归入文化类,而不应归入党务类。
②对各项专业活动所形成的有交叉关系的档案,则可根据内容所占比重或重要程度划分归类范围,或采用互相参见的办法处理。
③对有交叉关系的档案还可采用部分集中设类,部分分散设类的办法,如对交叉关系明确的档案可集中设类,对交叉关系不明确的可以分散设类。
(4)复分表的使用方法(P27)
&①复分表适用于任何一级类目。
②复分表的重要标记:复分符号“一”,使用时,将所用的复分号用复分符号接在主表分类号码以后。如:“农业条例”的号码是MA一13,该号码表明:“MA”是主表中“农业”的类号,“一13”是复分表中“条例”的类号,两种类号在一起表明“农业条例”这条文献的分类编号。
&③在主表中如已列有专类者,便不再使用复分表进行复分。
&④如具有复分表中两种以上特征的文献,一般只能选择其中一种主要特征进行复分。如:“关于召开全国冶金劳模会议给国务院的报告”,其编号应是NG一292(N:工业第一级基本大类,NG:工业第二级基本大类冶金工业,一:综合复分号,292:综合复分表的“英模会议”类),而不是Np一292―34(一34:综合复分表的“报告”类)。
(5)《分类法》中常用的辅助符号(P29)
十一、《中国档案主题词表》的结构和使用(P30)
1.简介:《中国档案主题词表》是中国档案主题标引与检索标准化的工具书,是国家标准《档案著录规则》配套项目,由国家档案局主持编辑,88年12月档案出版社出版试行本。
2.用途:它是由表达档案内容主题的自然语言中,优先选出的语义相近、族性相关的科学术语组成的规范化词典。在档案标引和检索过程中,它是用以将档案标引人员及用户的自然语言转换为统一的主题词检索语言的一种属于控制工具。它主要供档案馆、档案室及文书处理部门标引和检索档案、文件、资料之用。
3.主题:一组具有共性事物的总称,用以表达文献所论述和研究的具体对象和问题,即文献的中心内容。[中华人民共和国国家标准《文献主题标引规则》(GB3860-83)]
4.主题词:表达文献主题概念的词叫主题词。我国图书情报界通常把主题词也成作“叙词”,广义的主题词有时也包括关键词。
5.关键词:从文献题名、文摘和正文中抽出,不做规范化或只作少量规范化处理,具有实际意义的词语。
6.主题法:它是将自然语言中的名词术语经过规范化后直接作为文献标志的检索语言(词汇),也称“主题检索语言”。
主题法的优点:
(1)直观性:用自然语言中的名词术语经过规范化处理后直接成为文献标志。
(2)适用性:按字母顺序排列,便于掌握和使用。
(3)检索效率较高:按文献主题检索文献,解决了文献内容有联系但载体分离的矛盾。
(4)有参照系统:在文献概念之间,建立了多种参照系统,用于显示各主题概念之间的关系。
(5)使用灵活:可以不参考学科体系,也不考虑分类号码,直接通过主题词进行检索。
(一)《中国档案主题词表》 的结构
1.组成:该表由前言、说明、主表、范畴索引、词族索引组成。
2.前言:介绍编制目的、过程、适用范围及收词数量。
3.说明:阐述选词原则、范围、结构体例及使用的一般方法等。
4.主表:亦称字顺表,是主题词表的正文部分。
5.选词原则:
⑴力求思想性、科学性和实用性的统一。&
⑵选用的主题词符合汉语的结构特点,词形简炼,概念明确,词义简单。
⑶选用的主题词能够反映综合性档案馆和机关档案室收藏档案内容的主题概念,在标引和检索中具有实用价值和一定的使用频率。
6.选词范围
⑴时间范围:主要选取20世纪初以来各类档案中出现的词语。
⑵内容范围:主要选择反映党、政府机关各项管理工作内容的名词。包括:党政公文中经常涉及到的政治活动、科学研究、生产技术、经济建设等方面的名词术语,以及反映新事物概念的专用名词。也选取一些专有词或词组,如民族、宗教、知名人士、职务、节日节令、科学名称、文艺作品的泛称(如古典小说、沪剧、农民画等)
(二)《中国档案主题词表》 的使用(P32)
共收录主题词27288条,其中正式主题词22759条,非正式主题词4529条,各词条之间按照词条款目排列,组成一定的款目结构
⑴非正式主题词――是主题词的同义词(近义词),用来指引或查找正式主题词。
⑵词条款目――按汉语拼音顺序并结合汉字字形排列。
⑶款目结构――包括款目主题词、汉语拼音、范畴号(分类表中产生的分类的双字母号)、词间关系(多种关系组成)、注释等。具体示例参考书上P32-33
①款目主题词P32:款目主题词,指列于标目位置的主题词,依照首字音序、音调,结合汉字字形笔画排列,首字相同者依第二字音序、调序、字形笔画排列,以此类推。非汉字字符起首的主题词,一律排在汉语拼音音序之前。
②范畴号P32:范畴号,是款目主题词的范畴分类类目代号,标识在款目主题词的右侧。借助范畴号可以在范畴索引中查询与该主题词同属一类的有关主题词。
③词间关系P33:词间关系,又称参照系统,是用来说明与款目主题词发生关系的一些词,其中包括等同关系、属分关系、相关关系等。词间关系用Y、D、F、S、Z、C分别表示用、代、分、属、族、参六个项目。每一条款目主题词的词问关系项目不等。当款目主题词是非正式主题词时,仅设“Y”(用)项,即仅列出其正式主题词。
1)等同关系。是指两个或两个以上概念相同或相近的主题词之间的关系,在这些词中选定一个比较科学并常用的词作正式主题词,其余的作非正式主题词。正式主题词和非正式主题词分别用符号“Y”(用)、“D”(代)来表示。
2)属分关系。是指概念上具有隶属关系的一系列主题词之间的关系。下位词即分概念,上位词即属概念,最上位词即族概念。属分关系的词全部排在款目主题词的下面,一般按照“分一属一族”关系排列。即分概念(下位词)排在最前面,用“F”(分)表示;属概念排中间,用“S”(属)表示;族概念(最上位词,也是族首词)排在最下面,用“Z”(族)表示,并注以“※”符号。
3)相关关系。是指主题词之间不存在等同关系和属分关系,但在标引或检索时可以互相参考的一种关系。在主表中用“C”表示。对于不同历史时期所表述的相同或相近概念的词目也视为相关关系。
2.《范畴索引》的结构和使用
范畴索引,亦称分类索引,即将全部主题词按范畴号分成若干大小类目排列编制而成,与住标间由“范畴号”加以联系。
⑴对《范畴索引》的说明P36
①《范畴号索引》是参照《中档法》主表的类目并结合主题词词目的属性设置的。
②一般情况下,一个主题词划归一个类目。
③范畴索引中的词目,如果是非正式主题词的,一律用“Y”指向与之相应的正式主题词,是族首词的,一律以“*”号。
④当一个主题词按其属性应划归两个或两个以上类目时,即在有关类目中重复出现,如“国际运河”一词,在PC(水路)和EB(国际组织与事物)两类中出现。
这种将有双重属性的词在范畴索引的不同类目中时出现的做法,有助于标引人员和检索人员在不同类目中均可查到有关词目,不致因词目的单现排列而造成某些内容的不完整。
3.《词族索引》的结构和使用(P35)
《词族索引》也称族系索引,等级索引,它是将主表中具有分属关系,相关关系的正式主题词按其本质属性展开显示的一种词族关系。
《词族索引》的结构P35:词族索引主要表示主题词的整体与部分的属分关系,将族首词以及隶属于该族首词的下位主题词概念按照等级排列组成索引。族首词为一级,其下每置一个点(?)为二级,每置两个点(??)为三级,每置三个点(???)为四级,以此类推。
对《词族索引》的说明(略)P35
4.注释P33
注释,是对主题词所作的简要说明。包括限定注释和含义注释两种。
⑴限定注释。用于指明主题词的使用范围(时间或空间),用圆括号注于该主题词之后,是该主题词的组成部分。
& 如:古田会议(1929)& 革委会(文革)& 旺季(商业)& 庐山会议(1970)
⑵含义注释。用于说明该主题词的特定内容,用圆括号注于该主题词之下,不作为主题词的组成部分。
& 如:农业八字宪法&(土、肥、水、种、密、保、管、工)& 三北地区(东北、华北、西北)& 五爱教育 (爱祖国、爱人民、爱劳动、爱科学、爱护公物)
5.附表P37
附表包括《人名表》、《机构名表》。主表与附表收录的主题词加在一起构成主题词总数。
6.首字笔画检字表
&&& 《首字笔划检字表》包括词目首字笔画检字表、机构首字笔画检字表和人名姓氏笔划检字表,均按款目主题词的首字笔画顺序排列而成,字后注有该字在主表或机构名表和人名表中最先出现的页码。
7.附录 《中国档案主题词表》最后附有《首字笔画检字表》、《档案著录规则》、《中
国历史纪年表》、《韵目代日表》、《干支次序表》和《化学元素周期表》。
十二、其他知识点
⒈电子文件著录与电子档案著录的关系P69
电子档案著录是对电子文件著录的延续和补充。
电子文件著录是对电子文件在形成过程中以及形成后所具有的各种特征的准确描述和记录。电子文件在完成其现实作用后也要像一般纸质文件转化为档案。与纸质文件管理所不同的是电子文件强调全程控制和前端控制,这一特征在电子档案著录时表现的尤为明显,即属于电子档案著录的很多著录项在电子文件阶段就已完成,电子档案著录实际上是对电子文件著录的补充和完善。因此,必须重视电子文件阶段的著录才能保证电子档案著录的质量。
⒉档案计算机著录基本要求P69
(1)人员方面
要求参加著录的人员不仅要熟练掌握档案传统著录方法,熟悉《中档法》和《中国档案主题词表》的使用规则,还应该具备熟练运用计算机技术的能力,熟悉计算机著录系统的功能和使用方法。
(2)档案管理基本条件要求
档案信息计算机著录的信息来源是已经归档保存的档案或原来编制的手工检索工具,按照计算机技术的一般要求和档案著录规则的要求,著录所采用的各种符号和词汇应该尽可能规范,因此作为著录信息来源的档案信息也应该符合一定的要求,比如在拟制案卷标题和文件标题时应尽可能采用规范的词汇或用语。总之,在开展档案接收、整理、鉴定等基础工作时就应将档案著录的要求考虑在内,为顺利开展计算机著录打下良好基础。
(3)技术方面的准备
技术的准备应该包括两方面内容,一方面是著录技术标准的准备,应该严格按照《中档法》、《中国档案主题词表》以及《档案著录规则》和《国际档案著录(通则)》EISAD(G)]等有关标准进行著录;另一方面是计算机技术方面的准备,尽可能选择编制完备、功能齐全、使用方便、成本较低且符合本档案馆或本部门档案特点的计算机软件进行计算机著录。
⒊主题概念的转换P62
对已归纳的主题概念需要按照主题标引的规则,对照《中国档案主题词表》选出最准确的具有专指性的主题词,注意选用最准确的词进行标引,一般不得擅用上位词或下位词。
常用方法:
(1)直接转换 & 即直接从档案原文或标题中提炼出相应的主题词。在档案标题拟定比较完整的情况下通过标题拟定主题词是最常用的方法,如《关于利用农闲加紧做好农田基本建设的意见》,根据主题词表对主题词的规范可以直接提炼出“农田基本建设”一词;当档案标题没有准确概括档案内容或标题只揭示了档案的部分内容时,就必须通过阅读全文来确定主题词。
(2)分解转换& 即根据档案内容和标题将一个主题分解为几个主题以方便主题词的标引。一是对一些内容比较集中的主题进行分解,如《关于加强出版发行业市场管理的通知》,可以分解为“出版发行”、“报刊发行”、“图书出版发行”几个主题;二是档案内容中的主题在主题词表中没有直接对应的主题词,可以将该类主题分解到几个与之有关的主题中标出主题词,如《关于青少年犯罪问题的报告》,根据主题词表可以提炼出“青少年犯罪”和“刑事犯罪”,其中,“刑事犯罪”这个主题词在标题中虽然没有出现,但文章的内容涉及了这一主题,因此将它作为主题词之一是合理的。
(3)组配转换& 即根据档案内容和标题将内容比较分散的主题或主题词表中没有的主题,通过主题词组配的方式进行重新组合以达到表现某种特定含义主题的方法,如《第三季度熊猫牌电视机市场调查报告》中,“第三季度”和“熊猫牌”都不是主题词表中规范的主题词,但“电视机”、“商品”、“市场”、“调查报告”却是主题词表中规范的主题词,所以可以标引的主题词应该有“熊猫牌商品+电视机”、“市场”、“调查报告”,其中“熊猫牌商品+电视机”就是组配的主题词。
⒋加强分类标引的组织工作
①熟悉档案业务,熟悉馆藏人员;②熟悉《分类法》规则的人员;③人员相对稳定,认识相对统一;④建立分类标引工作流程和规章制度;⑤充分听取意见,指导检索;⑥注意档案内容的变化,适时补充类目。
⒌档案信息的特点(P3)
①原始记录性:& 档案信息是人们在社会活动中直接形成的原始记录,所以“原始记录性”是档案信息区别于其他信息的本质特性之一。
&&& ②广泛性:信息广泛存在于人类社会和物质世界的各个领域。无论是从档案的定义开始还是从现实生活中档案信息的实际情况看,档案信息的广泛性都表现得非常明确和直观。信息广泛性特点通过档案信息反映得最为全面和具体。
③可识别性:人们不仅可以通过自己的感官识别信息,也可以通过各种检测手段来感知信息、接受信息,从而达到识别信息的目的。也是信息之所以能够被利用的基本条件之一
④可存储性和可传递性:信息总是可以通过各种载体加以存储。与可存储性相伴的是存储载体的可转换性,档案信息可以从一种载体形式转换为另一种载体形式,这种特性使得档案信息数字化处理和计算机检索成为可能。信息的可存储性使信息的传递成为可能,存储信息一方面是为了保存信息,另一个更为重要的目的是为了传递信息。
⑤共享性:共享性是信息的重要特征之一。档案信息作为人类社会中一种特殊信息在一定条件下是能够被人们所共享的。
⑴①必须在信息源和信息用户之间建立多种传递渠道。②必须有一套检索者和用户都懂的语言用于传递信息。③在信息传递过程中,尽可能减少中间环节,减少信息的失真。④尽可能使用简便、快捷的方法,保证信息检索的时效。
⑵①利用信息管理者熟悉的组织方式与内容结构的优势,满足利用者对各种信息的需求。②为利用者节约检索时间,提高检索效率。③通过检索提高信息管理标准化、规范化、科学化水平。
备注说明:
《精简版》是带有个人主观色彩的资料,源于《档案信息检索》讲堂录(完整版)和老师所划重点。&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& ――整理人:胡康林
&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&&& (修改于&)
function open_phone(e) {
var context = document.title.replace(/%/g, '%');
var url = document.location.
open("/ishare.do?m=t&u=" + encodeURIComponent(url) + "&t=" + encodeURIComponent(context) + "&sid=70cd6ed4a0");
!觉得精彩就顶一下,顶的多了,文章将出现在更重要的位置上。
大 名:&&[]&&[注册成为和讯用户]
(不填写则显示为匿名者)
(您的网址,可以不填)
请根据下图中的字符输入验证码:
(您的评论将有可能审核后才能发表)
已成功添加“”到
请不要超过6个字

我要回帖

更多关于 信息不对称 的文章

 

随机推荐