-
信息检索 编辑
信息检索(Information Retrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(Information Search)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储与检索。一般情况下,信息检索指的就是广义的信息检索。
中文名:信息检索
外文名:Information Retrieval
匹配:信息检索是一个匹配的过程
信息检索过程:包括信息存储和检索两个方面
发展时间:19世纪下半叶
文献信息检索
由信息检索原理可知,信息的存储是实现信息检索的基础。这里要存储的信息不仅包括原始文档数据,还包括图片、视频和音频等,首先要将这些原始信息进行计算机语言的转换,并将其存储在数据库中,否则无法进行机器识别。待用户根据意图输入查询请求后,检索系统根据用户的查询请求在数据库中搜索与查询相关的信息,通过一定的匹配机制计算出信息的相似度大小,并按从大到小的顺序将信息转换输出。
文献检索
数据检索
事实检索
以上三种信息检索类型的主要区别在于:数据检索和事实检索是要检索出包含在文献中的信息本身,而文献检索则检索出包含所需要信息的文献即可。
(二)按存储的载体和实现查找的技术手段为标准划分:
手工检索
机械检索
计算机检索
其中发展比较迅速的计算机检索是“网络信息检索”,
计算机信息检索概述
(三)按检索途径划分:
直接检索
间接检索
组织存贮,将全部记录按文件、数据库等形式组成有序的信息集合。
用户提问处理和检索输出。关键部分是信息提问与信息集合的匹配和选择,即对给定提问与集合中的记录进行相似性比较,根据一定的匹配标准选出有关信息。它按对象分为文献检索、数据检索和事实检索;按设备分为手工检索、机械检索和计算机检索。由一定的设备和信息集合构成的服务设施称为信息检索系统,如穿孔卡片系统、联机检索系统、光盘检索系统、多媒体检索系统等。信息检索最初应用于图书馆和科技信息机构,后来逐渐扩大到其他领域,并与各种管理信息系统结合在一起。与信息检索有关的理论、技术和服务构成了一个相对独立的知识领域,是信息学的一个重要分支,并与计算机应用技术相互交叉。
虚拟图书馆与网上信息检索
主要指文本挖掘技术的发展,目的是帮助人们更好的发现、组织、表示信息,提取知识,满足信息检索的高层次需要。知识挖掘包括摘要、分类(聚类)和相似性检索等方面。
自动摘要就是利用计算机自动地从原始文献中提取文摘。在信息检索中,自动摘要有助于用户快速评价检索结果的相关程度,在信息服务中,自动摘要有助于多种形式的内容分发,如发往PDA、手机等。相似性检索技术基于文档内容特征检索与其相似或相关的文档,是实现用户个性化相关反馈的基础,也可用于去重分析。自动分类可基于统计或规则,经过机器学习形成预定义分类树,再根据文档的内容特征将其归类;自动聚类则是根据文档内容的相关程度进行分组归并。自动分类(聚类)在信息组织、导航方面非常有用。
异构信息整合检索和全息检索
在信息检索分布化和网络化的趋势下,信息检索系统的开放性和集成性要求越来越高,需要能够检索和整合不同来源和结构的信息,这是异构信息检索技术发展的基点,包括支持各种格式化文件,如TEXT、HTML、XML、RTF、MS Office、PDF、PS2/PS、MARC、ISO2709等处理和检索;支持多语种信息的检索;支持结构化数据、半结构化数据及非结构化数据的统一处理;和关系数据库检索的无缝集成以及其他开放检索接口的集成等。所谓“全息检索”的概念就是支持一切格式和方式的检索,从实践来讲,发展到异构信息整合检索的层面,基于自然语言理解的人机交互以及多媒体信息检索整合等方面尚有待取得进一步突破。
另外,从工程实践角度,综合采用内存和外部存储的多级缓存、分布式群集和负载均衡技术也是信息检索技术发展的重要方面。
随着互联网的普及和电子商务的发展,企业和个人可获取、需处理的信息量呈爆发式增长,而且其中绝大部分都是非结构化和半结构化数据。内容管理的重要性日益凸现,而信息检索作为内容管理的核心支撑技术,随着内容管理的发展和普及,亦将应用到各个领域,成为人们日常工作生活的密切伙伴。
美国普林斯顿大学物理系一个年轻大学生名叫约瀚·菲利普,在图书馆里借阅有关公开资料,仅用四个月时间,就画出一张制造原子弹的设计图。他设计的原子弹,体积小(棒球大小)、重量轻(7.5公斤)、威力大(相当广岛原子弹3/4的威力),造价低(当时仅需两千美元),致使一些国家(法国、巴基斯坦等)纷纷致函美国大使馆,争相购买他的设计拷贝。
二十世纪七十年代,美国核专家泰勒收到一份题为《制造核弹的方法》的报告,他被报告精湛的技术设计所吸引,惊叹地说:“至今我看到的报告中,它是最详细、最全面的一份。”但使他更为惊异的是,这份报告竟出于哈佛大学经济专业的青年学生之手,而这个四百多页的技术报
信息检索系统的体系结构
2 .信息检索是科学研究的向导
美国在实施“阿波罗登月计划”中,对阿波罗飞船的燃料箱进行压力实验时,发现甲醇会引起钛应力腐蚀,为此付出了数百万美元来研究解决这一问题,事后查明,早在十多年前,就有人研究出来了,方法非常简单,只需在甲醇中加入2%的水即可,检索这篇文献的时间是10多分钟。在科研开发领域里,重复劳动在世界各国都不同程度地存在。据统计,美国每年由于重复研究所造成的损失,约占全年研究经费的38%,达20亿美元之巨。日本有关化学化工方面的研究课题与国外重复的,大学占40%、民间占47%、国家研究机构占40%,平均重复率在40%以上;中国的重复率则更高。
3.信息检索是终身教育的基础
学校培养学生的目标是学生的智能:包括自学能力、研究能力、思维能力、表达能力和组织管理能力。
UNESCO提出,教育已扩大到一个人的整个一生,认为唯有全面的终身教育才能够培养完善的人,可以防止知识老化,不断更新知识,适应当代信息社会发展的需求。
所谓信息意识,是人们利用信息系统获取所需信息的内在动因,具体表现为对信息的敏感性、选择能力和消化吸收能力,从而判断该信息是否能为自己或某一团体所利用,是否能解决现实生活实践中某一特定问题等一系列的思维过程。信息意识含有信息认知、信息情感和信息行为倾向三个层面。
信息素养(素质)(Information Literacy)一词最早是由美国信息产业协会主席Paul Zurkowski在1974年给美国政府的报告中提出来的。他认为:信息素质是人们在工作中运用信息、学习信息技术、利用信息解决问题的能力。
2.信息检索的基础----信息源
信息源定义:在联合国教科文组织出版的《文献术语中》,将信息源定义为:个人为满足其信息需要而获得信息的来源,称为信息源。
信息源类型:
按照表现方式划分:口语信息源、体语信息源、实物信息源和文献信息源。
按照数字化记录形式划分:书目信息源、普通图书信息源、工具书信息源、报纸、期刊信息源、特种文献信息源、数字图书馆信息源、搜索引擎信息源。
按文献载体分----印刷型、缩微型、机读型、声像型
按文献内容和加工程度分--一次信息、二次信息、三次信息
按出版形式分----图书、报刊、研究报告、会议信息、专利信 息、统计数据、政府出版物、档案、学位论文、标准信息(它们被认为是十大信息源,其中后8种被称为特种文献。教育信息资源主要分布在教育类图书、专业期刊、学位论文等不同类型的出版物中)
3.信息检索的核心----信息获取能力
1.了解各种信息来源
2.掌握检索语言
3. 熟练使用检索工具
4.能对检索效果进行判断和评价
判断检索效果的两个指标:
查全率=被检出相关信息量/相关信息总量(%)
查准率=被检出相关信息量/被检出信息总量(%)
4.信息检索的关键:信息利用
社会进步的过程就是一个知识不断的生产—流通—再生产的过程。
为了全面、有效地利用现有知识和信息,在学习、科学研究和生
简单的信息检索搜索
获取学术信息的最终目的是通过对所得信息的整理、分析、归纳和总结,根据自己学习、研究过程中的思考和思路,将各种信息进行重组,创造出新的知识和信息,从而达到信息激活和增值的目的。
相关书籍
2.追溯法是利用已有文献所附的参考文献不断追踪查找的方法,在没有检索工具或检索工具不全时,此法可获得针对性很强的资料,查准率较高,查全率较差。
3.分段法是追溯法和普通法的综合,它将两种方法分期、分段交替使用,直至查到所需资料为止。
(二)选择检索工具
提供线索的指示型检索工具(二次文献):书目、馆藏目录、索引、文摘、工具书指南;
提供具体信息的参考工具(三次文献):词典、引语工具书、百科全书、类书、政书、传记资料、手册、机构名录、地理资料、统计资料、年鉴、表谱图册、政府文献。
(三)检索工具的使用
(四)获取原文
(五)对检索结果的分析
(六)更改检索策略
1、本站所有文本、信息、视频文件等,仅代表本站观点或作者本人观点,请网友谨慎参考使用。
2、本站信息均为作者提供和网友推荐收集整理而来,仅供学习和研究使用。
3、对任何由于使用本站内容而引起的诉讼、纠纷,本站不承担任何责任。
4、如有侵犯你版权的,请来信(邮箱:baike52199@gmail.com)指出,核实后,本站将立即删除。