信息检索论文【最新8篇】
信息检索论文 篇一
【关键词】信息检索 研究进展 可视化
引 言
迈入信息社会,网络已成为人们生活中不可或缺的一部分,而信息检索理所当然地成为人们融入网络的一个重要途径。在互联网迅速发展的同时,信息检索的研究也取得了较大的成绩,信息检索的理论和实践对推动互联网的发展有着重要的作用。为进一步了解我国信息检索的研究状况,本文对2007 -2011年这5年间的相关研究进行统计分析。
数据来源
笔者在CSSCI数据库中以“信息检索”为关键词,时间设定为2007-2011年,检索共得到398篇文献,以这些文献为基础,利用文献题录统计与可视化工具来分析信息检索研究的进展情况。
研究方法
作为现今多学科中一种常见的信息或数据可视化形式,科学知识图谱是通过对某学科领域在特定时间段内发表的学术论文或者专著的作者、题名、关键词、作者机构等信息用可视化的图谱形象地展示学科的核心框架、前沿领域和其他有关的信息,也可运用多元分析手段得出某学科领域在特定时期内形成的以作者、文献、期刊、机构等为节点的图谱[1]。由于科学知识图谱能够直观地展现学科知识结构,自20世纪80年代创制以来得到广泛的传播和深入的发展,出现了较多的知识图谱分析工具。本文选取了Citespace、Netdraw和SATI这三种代表性工具来统计文献信息和绘制科学知识图表,通过对检索到的信息检索研究相关文献信息进行统计和可视化展现,更清晰地展示这5年间信息检索的研究概况。
研究状况分析
4.1文献总量与年度分布
在这398篇文献中,研究论文有359篇,综述23篇,评论8篇,报告4篇;涉及的学科有管理学、语言学、艺术学、经济学、社会学、教育学等,其中图书馆、情报与文献学是最多的,共352篇;在年度分布中,2007年113篇、2008年100篇、2009年73篇、2010年61篇、2011年51篇,如图1所示:
从图1中可以看出,有关信息检索的研究文献在2007-2011年是逐年递减的,其中下降幅度最大的是2009年。笔者用同样的检索关建词在CSSCI数据库中查看往年的文献数量,发现我国信息检索的研究是经历了一个又冷到热再组建到冷的发展,有关文献的高峰期是在2004-2005年,之后由热逐渐转冷的过程由图1可以清晰看到。
4.2 文献的期刊分布
这398篇文献分布在32种期刊上,平均每种期刊载文量是12.44篇,其中发表1篇的有10种,发表2篇的有3种,发表3篇的有2种,发表4篇以上的有17种,如表1所示:
这17种期刊都是图书情报类期刊,共发表文献376篇,占所检索出的文献总量的94.47%。这项统计也进一步说明了图书情报类的期刊是信息检索研究文献发表的主要阵地。其中发文篇数在50篇以上的有《情报理论与实践》、《情报杂志》、《图书情报工作》。
4.3 作者与机构的分布
笔者对这398篇文献的作者进行了统计,共有581人,发表3篇以上文献的作者有38人。表2列出了2007-2011年间发表文献最多的前19位学者,也就是发文总数在4篇及以上的作者及其所在的机构。需要说明的是,表中的数字可能不是每一个学者的全部发文量,因为笔者检索文献时设置了关键词和CSSCI来源期刊等条件。
从表3可以看出,武汉大学以5年发文29篇、平均每年发文5.8篇高居榜首,其次是南京大学、中国科学技术信息研究所、中山大学、北京大学等机构,从高产机构的分布来看,信息检索研究的主力军还是来自高等院校。
4.4 高被引作者的分布
为更好地显示信息检索领域作者的学术影响力,笔者从作者的被引视角来进行分析。经统计,在2007-2011年间发表的398篇文献中,引用文献共4 291篇次,篇均引文数为10.78篇次。在统计过程中剔除了无效引文和署名为机构或课题组的引文,最后统计出了作者被引数, 2007-2011年被引数在5次及以上的作者,共20人,如表4所示:
从表4中可以看出,被引次数最高的是G.Salton,其次是赖茂生、T.Saracevic、N.J.Belkin、P.Ingwersen、周宁等学者,排除国外学者,国内被引次数排在前列是有赖茂生、周宁、成颖、张晓林、吴丹、马费成、李景、黄名选、孙茂松、曹树金等学者。图2显示的是高被引作者按中心度分布的可视图,中心度越大,在图中表示的圆圈越大,其在信息检索领域的影响也越大,其与被引次数作者的分布基本一致,更形象地表示了被引作者的影响力。
4.5 核心研究主题的分析
为更好地分析和展示近几年信息检索领域的研究主题和研究进展,笔者对这398篇文献的关键词作了统计分析。统计发现共有861个关键词(无关键词的文献不在统计范畴),而共现次数越多的主题词就越能成为近几年的研究热点。出现频次在5次及以上的关键词,如表5所示:
图3是对共现次数高的关键词进行了可视化的结果,可以更清晰地表示主题词的分布特征。从表5和图3可以看出,排除 “信息检索”这一关键词之后, 2007-2011年间关键词共现较高的有:本体、跨语言信息检索、查询扩展、网络信息检索、数字图书馆、信息检索系统、搜索引擎、向量空间模型、关联规则、检索模型、信息可视化、语义网、信息查询、智能信息检索、Web 2.0等,这些高频主题词无疑构成了近几年信息检索领域的研究热点,其中跨语言信息检索、网络信息检索、查询扩展、信息检索模型与系统、语义网等是最受研究者关注的。
信息检索研究当前存在的问题
5.1 信息组织特别是网络信息组织标准化、规范化研究滞后
网络发展迅速,网络信息和更新非常快,而且网络的开放性使得任何单位或个人都可以在网上随意信息,但信息者不会依据一定的标准或规范去组织他们的信息,而这些呈指数增长却又无序的网络信息增加了信息检索的复杂度。要提高信息检索的效率, 必须从源头上来解决相关问题, 实行网络信息组织标准化、规范化[2]。这方面的问题在信息检索领域还有待解决。
5.2 检索技术和工具的适应性研究滞后
当前我国对于检索技术和工具的研究大多是集中在一般说明和比较分析方面, 很少有较具体的改进方案的提出和实现,可以说我国信息检索的技术性研究较薄弱。而且从现在的信息种类来看,人们不仅是要检索文本和数据信息,而且更多地会关注图形图像、视频、音频等多媒体信息,所以要使人们在越来越发达的信息时代获得所需信息, 就必须致力于解决新的技术和新工具的研究问题[3]。
5.3 检索工具评价较模糊,检索语言有待改进
高性能的检索工具会大大提高检索效率, 能为信息检索者节省不少时间, 但面对较多的检索工具时, 检索者往往不知道如何选择, 因此需要一套较完善的检索工具评价指标作为选择的依据[4]。另外,并非所有的检索者都能懂检索语言, 他们更倾向于使用自然语言,而目前的检索结果往往无法满足真正的需求,所以应致力于方便易用的检索语言开发研究, 最终能使检索者用简易的检索语言来达到检索目标。
5.4 文献研究内容冗余、创新性低
笔者所检索到的398篇关于信息检索的文献,有不少是内容交叉、重复率高、可用性差的,使研究成果的质量降低,另有较大一部分仅仅是引进说明或分析比较国外的信息检索成果,与国外信息检索领域的研究深度差距仍较大。
信息检索未来发展趋势
6.1 个性化发展,对用户体验的关注越来越显著
信息的冗余、雷同乃至信息爆炸等问题时刻困扰着人们,而信息检索研究的目的就是要从纷繁复杂的信息中寻找出符合需求的信息,并且不同群体或用户个体对信息的需求欲望愈来愈强烈,这就促使了信息检索要向符合个性化服务的方向发展[5],更注重用户的检索体验,针对不同用户的不同需求来处理检索的相关问题。
6.2 智能化发展
智能检索是基于自然语言的检索形式,通过对知识库的推理和搜索,把现代人工智能的技术与方法引入信息检索系统,使后者具有一定程度的智能特征,其目的是使信息检索系统理解文件包含的信息内容和用户的信息需要,在对内容的分析理解、内容表达、知识学习、推理机制、决策等基础上实现检索的智能化,得到用户能直接加以利用的知识或信息[6-7]。随着计算机智能技术和网络技术的发展,信息检索的智能化发展是必然趋势。
6.3 融合趋势更加突出
信息检索不仅仅在计算机学科、图书情报学领域作用突出,在医药、生物、农业等领域也逐渐应用较多,现阶段更有与金融商务、电子商务、网络技术等学科融合紧密,成为了不可或缺的重要应用工具。在经济全球化的发展进程中,信息是发展的支持要素,而且信息检索会更融入全球化的发展中,与其他更多的学科和领域相融发展。
6.4 专题信息、多媒体信息等新的信息检索发展显著
专题化信息检索是基于某一信息领域或某一特定用户领域的检索,针对特定的用户群或领域,在标引的过程中可以构建专业词库,大大提高标引的深度和专指度;网络上多媒体信息越来越多,根据用户自身体验,在图像、视频、音频的多媒体基础上进行新技术的信息检索。专题和多媒体信息检索同样也是个性化信息检索发展的重要部分。
6.5 多语言、全球化信息检索发展稳步前进
由于互联网是一个巨大的数字资源库,包含不同语言信息,随着信息查询用户素质的不断提高,对全球信息了解的需要越来越强烈,针对这种需求,在网络版叙词表的基础上,利用新的智能检索技术,实现不同语种间的有效转换,可以使用户检索不同语言的同类信息。这种多语言、全球化信息检索也会是今后发展的一大趋势。
结语
信息检索是一门技术性和实践性很强的学科[[8],在网络信息化时代,我们更应认识到现阶段信息检索领域存在的问题,加强理论研究,大胆实践创新,顺应发展潮流,信息检索领域的研究才能得到真正地长足地提升。
[参考文献]
[ ] 侯剑华。工商管理学科演进与前沿热点的可视化分析[D].大连:大连理工大学,2009.
[2] 谈大军,陈晓转。1998-2003年我国网络信息检索研究论文的定量分析与研究[J].现代情报,2004(12):66-69.
[3] 常春。网络信息检索存在的问题及发展方向[J].情报杂志,2003(11):93-94.
[4] 韩圣龙。网络信息检索工具评价指标[J].情报学报,2001,20(4):471-477.
[5] 黄如花,张春蕾。网络信息检索的发展趋势[J].图书情报知识,2002(4):49-50.
[6] 毕维峰,刘剑锋。网络环境下数字图书馆信息检索发展趋势[J].现代情报,2007(6):89-90.
[7] 刘宏伟。现代信息检索在网络环境下的发展趋势[J].现代情报,2006(10):67-68.
信息检索相关论文 篇二
〔关键词〕信息检索用户交互认知分析相关反馈
〔分类号〕G252.7
User Interaction Behaviors and Effect Factors in Information Retrieval Process
Pei Lei
Information Research Center, Wuhan University, Wuhan430072
〔Abstract〕Focused on the interactions between users and system, this paper elabrates the general methods of user interactions research form aspects of behaviors discover, cognition and relevant feedback. Then, it analyzes the main effect factors of user interaction behaviors in information retrieval process, such as users' literature, retrieval tools' functions and socio-culture background. At last, it gives some advices on promoting the functions of retrieval tools.
〔Keywords〕information retrievaluser interactioncognition analysisrelevant feedback
国外大量研究表明,用户的差异性逐渐在网络检索行为中得到重视,网络检索系统逐渐从异质化的资源整合扩展到异质化的用户需求整合。在信息检索研究中,也开始从用户交互角度考虑网络信息资源检索机制和机器学习功能,开发针对特定用户组的检索系统和个性化的信息导航。但是,目前国内这类交互研究主要集中在算法和技术改进层面,而信息行为分析层面的文献并不多见。另一方面,正如唐宇萍所言[1],“用户认知对情报检索具有战略性的研究意义”。因而,本文主要从情报学理论和信息行为层面讨论信息检索过程中的用户交互过程和改进策略,以期引得国内同仁的关注与探讨。
1用户交互行为及其研究现状
用户交互研究是通过研究用户与检索系统对信息需求的生成、表达、传递、处理和反馈的全过程来改良检索系统的检索效率,或者建立面向用户的网络检索工具的研究方法。从理论背景来看,用户交互研究整合了用户认知研究、系统学习理论、社会信息学和信息检索,通过用户信息检索的心理需求,用户需求表达,人机交互(HCI)中的沟通、学习与反馈,跨语言和跨文化环境的社会影响,提高检索系统的信息识别和匹配来提高检索效率的研究机制。从研究方法上看,用户交互研究的出发点是用户特征,以用户为中心开展的面向用户需求的适应性系统改良,形成对检索过程的反复匹配和精炼。
目前,用户交互研究主要集中在用户检索交互行为、用户认知、系统学习与反馈等几个方面,逐渐形成了基于统计的用户需求调查研究方法、基于用户认知的知识概念映射方法、基于系统相关反馈的智能学习以及推理方法等典型的研究方法。通过中国期刊网的文献调研,发现我国在上述领域已经形成了一定的研究规模(如表1所示)。但是,交互检索和用户行为研究还并不多见,而且用户检索行为也并没有从用户需求、情报认知和相关反馈研究领域独立成专门研究。相对而言,国外在20世纪90年代已经开始系统研究用户交互行为,Wilson用户交流通用模型、Ingwersen用户交互检索过程模型、Saracevic交互检索层次模型以及Belkin对用户交互过程的认知解释都是这一研究领域的标志性成果。
2 用户交互行为的研究方法
2.1用户调查统计研究方法
用户调查统计研究最常用的方法是通过网络检索实践中用户与系统交互数据的大样本定量分析方法。比如Amanda Spink和Bernard J. Jansen在《网络搜索:网络公共检索》中通过众多搜索引擎的检索数据统计分析来研究用户的检索行为特征,进而对用户公共网络检索行为特点进行综合研究[2]。
还有一类是对小样本的持续研究,通过对固定样本的跟踪研究来发掘用户的检索行为特征和习惯。比如Cothey对英国的206个大学生进行了10个月的网络信息查寻行为的研究[3],对URLs的事务日志分析5 431个用户信息搜寻的行为,为网络信息资源的建设和规划提出定量化的决策依据。此外,还有Schacter等1998年对儿童群体的检索特征和过程研究[4]等。
2.2用户认知研究方法
20世纪70年代后,一批研究者提出把认知研究作为用户研究的理论基础,并逐渐将情报认知理论引入信息检索研究。1992年,P. Ingwersen专门分析了用户认知特征和用户认知分析方法,并提出了基于用户认知交互的查询模型[5]。该模型指出,用户的信息目标揭示、检索结果类型设定、信息理解推理和用户支持设计是认知检索的四个关键因素,通过领域分析、认知任务分析、生命周期测试和实验测试等方法可以完成“用户认知概念与系统检索指令的概念桥接”。而Belkin的ASK理论提出信息检索的任务是尝试描述、理解和解决知识的非常状态,并在1995年建立了一个信息查寻模型关注信息查寻过程中的检索行为[6],该模型认为认知交互过程主要包括交互的目标(学习――选择)、检索方式(识别――详述)、资源类型(信息――元信息)三个方面。Saracevic的用户交互检索模型[7]可看作是一个“层次化的模型”,它包含三个层次:界面、认知与状态。其中,认知层次上,用户和系统的输出发生交互,通过这种交互,用户获得与其问题状态相关的文本信息。
此外,Dervin的意义建构理论提出构建以概念为基础的系统开发模型,Kuhlthwu、Ellis和Wilson对非确定性和问题解决理论的研究等也将用户思维行为与信息检索过程结合形成基于用户认知的信息检索过程。国内还有一些学者关注认知中介知识结构[8]和认知主体的相关性研究[9]。
2.3系统相关反馈研究方法
相关反馈的目标是从用户与查询系统的实际交互过程中进行学习、发现并捕捉用户的实际查询意图,并以此修正系统的查询策略,从而得到与用户实际需求尽可能相吻合的查询结果。目前,关于系统相关反馈的研究:一是对系统相关性的揭示;二是对系统反馈机制的研究。有些学者还采用匹配、相似度、系统相关反馈、主题性等术语描述系统相关,但在反馈机理上主要还是通过机器对检索对象相关性的识别来改进检索效果。迄今为止,主要的相关反馈方法包括词汇选择相似性相关研究、语法结构相似性相关研究、词频相关和概率模型相关研究等。
词汇选择相似性相关研究是解释用户或者标引者与系统之间的词汇选择相似性,但是标引者主题词选择存在相当的不一致性,不同标引者对同一对象的标引存在很大差异,使得纯粹词汇的相似难以反映内容相似度。而在语法结构相似性相关揭示中,目前还缺乏强大的能够支撑语法分析的语义和语用知识库,尤其还涉及跨语言及跨文化的协调。相对而言,基于词频和概率的相关性研究能够具有多维、动态、可测度和反馈控制的特点,具有相当广泛的应用,也是当前大多数相关反馈技术的理论基础。
在应用层面,基于相关反馈的各种检索技术采用最多的是向量模型,即将文本或者图像都表示成特征空间中的向量形式,从向量模型的角度出发,开发检索模式。典型的相关反馈技术算法模型包括MARS系统中实现的查询向量转移算法,CBIR模型权重调整算法,SVM的相关反馈算法以及基于贝叶斯的反馈算法等。
由于相关反馈可以实时地修改系统的查询策略,为检索系统增加了自适应功能,提高了检索效率。但是,相关反馈在控制信息搜集方面主要还是关注文本或信息本身的内容揭示来改进检索,文本内容与用户需求表达之间的匹配关注程度仍然不高,也是ACM SIGIR 2006提出的今后算法改进的重点突破领域。
3信息检索过程中用户交互行为影响因素
信息检索过程中的用户交互行为主要包括用户需求表达和系统反馈两个过程,两者相互作用,通过系统对用户需求的反馈,能够改进和提高用户对检索认知及检索需求表达的准确性。因此,用户交互行为涉及用户的信息认知和表达能力、系统功能、用户社会文化背景等相关因素。
3.省略、Alta Vista和Ask Jeeves等搜索引擎1997年到2003年的查询数据[2],在网络公共查询中,大约2/3的用户习惯一次检索到位,超过6/7的用户不会使用两次以上的查询检索,平均检索查询次数是1.6次;只有大约8%的用户接受或者利用模糊检索来获取信息,使用布尔代数和专业查询的用户大约占总用户数量的1/18,但检索语言错误非常多。
在用户检索行为研究中,尤其在非搜索引擎的浏览查找中,记忆、操作印象和检索路径存储都是影响信息检索效果的因素。有学者指出[10],用户经验一是指用户自身的网络使用经验,二是包括检索系统对用户访问路径的记录和对用户访问习惯的学习。因此,网络信息检索用户交互一方面应该提高用户的基本信息素质;另一方面应该通过揭示和披露用户信息素质,在系统层面建立与用户素质相适应的使用与导航体系,优先考虑用户的适应程度。
3.2检索系统功能
检索交互的本质是人和机器的相互学习,人对机器的学习体现在用户的信息素质上,而机器对人的学习则反映在检索系统的设计上。纵观检索系统学习机制的设计,主要有两大类:一类是行为识别,通过对特定用户的检索行为特征进行归纳,设计个性化的检索系统,缩减用户的检索步骤;另一类是逻辑推理,利用检索信息内容的关联,提供用户检索决策支持,提供推理机(专家智能)和Push服务。
在行为识别中,检索系统认知理论吸纳了心理学家对信息处理过程和学习认知行为的基本理论,提出在认知语境之外主要提供三种行为揭示机制:①认知结构理论,用户在基本认知过程和结构中是一致的,如果系统能够揭示出认知特征,借助知识推理,反映认知过程,也就是人工智能过程;②用户认知测试,要么通过问卷或标准问题组反映用户的信息认知特征,要么通过用户定制,让用户自我表述认知特征,进而设计不同风格、领域和粒度的信息资源;③知识兴趣群体(COPs),通过兴趣社区的模式,以关联、推荐、志同道合者交流反映用户认知特征。
逻辑推理更多是系统工程,提高智能模拟和推理的准确率是人机交互的关键。目前,逻辑推理不仅关注推理规则的设计,而且还逐渐整合语境、资源特征、社会环境因素,将界面风格、整合信息粒度、用户认知能力进行统一考察。
总之,对检索系统用户交互的关注,使网络信息检索系统在资源展示的内容与形式、界面设计、检索式编制、资源粒度、网站构建、系统对检索词的处理都得到不同程度的关注与改进。
3.3社会文化背景
信息检索作为知识过程,涉及认知和内容匹配,社会文化背景的差异必然会影响用户在语言、检索过程和资源选取上的差异。社会文化背景对信息检索交互的影响主要在于信息检索的社会化趋势。而信息检索的社会化主要有两层解读:
信息检索需求的社会性。检索需求来源于生活和工作的社会环境,识别用户信息检索需求依托用户社会环境,社会环境和检索过程交互进行。
信息检索过程的社会性。检索过程社会性是指除用户的知识领域、检索技能和检索经验外的常识能力、操作习惯、思维特征及文化背景对检索过程的影响,主要表现为社会暗示、协作行为、环境适应和跨语言协调。其中,信息检索专家对社会协作行为和跨语言检索最为关注。社会协作检索从检索入口词对数据库的信息映射检索流程,向信息映射和人际关系关联相结合,从检索信息内容向检索信息专家转变。在跨语言检索研究中,对翻译机制和语义消歧方法研究较多,成立了文本检索会议(TREC)、跨语言评价论坛(CLEF)、日本国家科学信息系统信息检索系统测试集会议(NTCIR)、美国计算机协会信息检索特殊兴趣小组会议等组织和研究中心。
4用户交互研究对检索工具的影响
信息检索的用户交互技术是改良信息系统功能和效果的重要手段,因而也是国内外信息机构和企业所关注的热点问题。2006年,ACM SIGIR会议主题就是互动搜索分析,围绕搜索引擎模型、翻译技术、点击和浏览行为模式,构建“为预测网络搜索结果偏好而了解用户的互动模型”和“通过一体化用户的行为模式来改进网络搜索的优先次序,提高检索命中率的检索模型”[11]。
在检索理论和模型研究中,面向用户/任务的检索理论、用户需求搜集策略、用户认知能力的可视化和资源展示的可视化、基于用户的信息检索系统构建、用户查询反馈控制、基于用户的文本过滤等问题也逐渐成为信息检索工具研究的热点和难点。
参考文献:
[1]唐宇萍。用户认知观视野中的情报检索。情报理论与探索,2004(5):458-461.
[2]Spink A, Jansen J. Web search: public searching of the web.[2006-12-20].sis.pitt.edu/~aspink/DIY%20spink.doc.
[3]Cothey V. A longitudinal study of world wide web users' information searching behavior. Journal of the American Society for Information Science and Technology, 2002,53(2):67-78.
[4]Schacter J, Cung K W K, Dorr A. Children's Internet searching on complex problems: Performance and process analyses. Journal of the American Society for Information Science, 1998,49(9):840-849.
[5]Ingwersen P. Information retrieval interaction:1992.[2006-12-10]. db.dk/pi/iri/.
[6]Belkin N J. Cases, scripts, and information seeking strategies: on the design of interactive information retrieval systems. Expert System with Application, 1995(9):379-395.
[7]Saracevic T. Digital library evaluation: Toward an evolution of concepts. Library Trends, 2000,49(3):350-369.
信息检索论文 篇三
【关键词】可视化;本体;期刊论文检索
“一幅图胜过一千句话”,信息可视化以满足信息检索用户日益增长的多样化、个性化检索需求为目的,帮助用户揭示信息背后隐藏的信息关联及规律,提高检索效率。本文使用文献[1]构建的数字参考咨询领域的本体及数据关系进行可视化研究,将信息可视化应用到期刊论文语义检索中,一方面实现了基于领域本体图的可视化导航,方便用户了解领域概念及概念之间的关系;另一方面将检索结果转换成图形,将期刊元素如作者、引用与被引用等多维关系转换成二维关系,显示在一个二维空间中,帮助用户理解检索结果、把握检索方向,以提高信息检索的效率和性能。
1.信息可视化的国内外研究动态
1.1 信息可视化在国外的研究
信息可视化研究被国际上列为热点研究课题是在20世纪90年代中期,以两个系列的国际研讨会为重要标志。一个是从1995年开始,每年10月在美国召开的IEEE Symposium on Information Visualization,除了定期召开会议外,还出版了一系列会议论文集,在业界产生了较为广泛的影响。与此同时,从1997年开始,IEEE每年7月在英国伦敦召开信息可视化国际研讨会(IEEE International Conference on Information Visualization),并同样出版了一系列会议论文集。欧美的这两个系列的国际学术研究会已形成了一种气候,它不断将理论研究与实际应用推向新的高度。欧美国家的可视化研究已经取得了一批具有领先地位的成果,在理论研究方面比较注重可视化模型方法,在应用领域不仅出现了一批原型系统,而且部分系统早已投入使用。
笔者以主题为“论文信息可视化”进行了EBSCO数据库外文检索,在EBSCO中查找的的数据库有:Academic Source Premier、Bu-
siness Source Premier、ERIC、Library、Information Science & Technology Abstracts、Teacher Reference Center。检索范围为1985-2010,检索式为“Title=(visualization)AND Abstract=(literature research+papers research)”,检索结果为34篇,剔除重复的1篇,共33篇相关文献,检索结果统计分析如表1-1。
EBSCO数据库中相关文献的检索结果显示,最早的关于论文信息可视化的外文文献是1991年Cort,Louise Allison撰写的“Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan (Book)”此篇为一书评[2]。1992年后的5年中只有1篇相关文献。1997-2010年累计发表相关文献31篇,这表明新世纪以来国外对可视化在文献检索中的研究日益重视。笔者在研读以上文献时发现,国外在信息可视化的研究方面的论文主要集中可视化在医学中的应用、可视化工具在文献关系揭示中的研究、可视化检索模型研究、个人信息搜索并可视化显示等,说明可视化为文献检索提供可视的直观的效果,同时文献检索也促进了可视化技术的不断发展。
1.2 信息可视化在国内的研究
我国最初几年关于信息可视化的研究中大量的文献主要是对信息检索可视化概念的介绍,以及地理、空间、数据库、文献和多媒体等方面的可视化技术的介绍。现在己经有越来越多的学者关注面向网络及大规模信息资源的检索可视化技术、各个具体领域的可视化、各种算法的改进等具体问题。针对可视化技术在文献研究领域中的应用主要有:胡志刚、侯海燕撰文对科学技术期刊群中的17种期刊进行了聚类和社会网络分析,可视化地显示了各个期刊之间的亲疏关系和关联特点,其可视化对象是期刊及其期刊之间的关系,其研究对象是期刊论文[3]。鲍杨、朱庆华在论文中以CSSCI数据库收录的全部情报学领域的论文(1998—2007年)为数据源,运用社会网络分析方法,建立了较为完整的情报学研究领域引文网络、共引网络及作者合著网络。同时他们还选取其中的重要节点,用Pajek进行了可视化,体现了近10年来我国情报学研究领域的主要作者和论文[4]。张学福教授在信息检索可视化领域的研究成果颇多,他不仅介绍了信息检索可视化的基本问题,即信息检索模型、信息内容描述、可视化映射技术、可视化显示技术、全局映射与局部映射、实时可视化和人工参与的可视化等。而且从功能特点等角度介绍了几种代表性的可视化开发工具:OpenGL、Open Inventor、IDL和VTK等,以便用户根据其特点选择相应的开发工具来开发可视化信息检索的应用软件[5][6]。张学福教授带领的研究生有三篇相关的硕士论文:《基于引文的信息检索可视化系统研究》一文基于信息检索可视化技术及引文理论,研究并构建了具有个性化特色的集检索、可视化及统计分析功能于一体的基于引文的信息检索可视化系统[7];《基于摘要信息的中文信息检索可视化系统研究与实现》分析比较国内外典型的信息检索可视化系统,并将基于词共现的概念空间方法与信息检索可视化技术相结合实时生成概念空间图,实现了检索过程和检索结果的可视化,设计并实现了集成信息检索、情报分析和服务功能的基于摘要信息的中文信息检索可视化系统,并对系统进行测试与评估[8]。
可视化的检索平台在国内的研究有人立方[9],谷歌挑歌[10]等。人立方关系搜索是微软亚洲研究院正式的一款新型社会化搜索引擎,它能够从中文网页中自动的抽取出人名、机构名、地名以及中文短语等,根据搜索的关键词和与其相关的人名之间的关联度强弱自动的计算每一个人名与关键词直接的距离、数据大小以及具体的摆放位置等等,并通过一条有标明人际关系的细线连接他们。谷歌挑歌相比其他音乐搜索引擎来说,谷歌挑歌采用的是一种相对模糊的搜索模式。该系统不是根据歌名或歌手名来搜索,而是调节节奏从舒缓到强烈、声调从低沉到高亢、音色从丰富到单纯这三个滚轮,依次在音乐库中挑选出符合条件的歌曲。虽说是相对模糊的搜索模式,但对寻找某一类型的歌曲还是很有帮助的。
从整体上看,我国在该领域的研究与应用还处于起步阶段,与国外先进技术有较大差距,研究呈现出零星、分散的特征,没有形成规模。主要研究单位有武汉大学信息资源研究中心,中科院国家科学图书馆,中科院软件所及部分大学的图书情报院系和计算机学院等。
2.基于领域本体的可视化导航检索机制的设计与实现
基于领域本体的可视化导航检索首先确定可视化对象,这里的对象包括基于领域本体的领域概念集合和文献及其属性两类。其次,构建可视化空间。即降低高维向量空间的维数,构建低维可视化空间,这是可视检索的关键,不同的可视化检索工具构建可视化空间的方法不同,一般来说,构建可视化空间应主要考虑两个因素:一是以其信息可视化的方法为基础,二是以其自身文献信息系统的结构为基础。本文基于领域本体概念的可视化导航按照双曲树[12]的表现方式,将层次关系显示在一个双曲平面上,然后将双曲平面映射到显示区域。而期刊论文语义检索结果由于受人类认知能力的限制,我们只能感知到一维、二维和三维的物理对象,所以我们的可视化空间只能是二维或三维,显示维数不同,接口的空间表达能力也就不同。本系统为了能清晰地表现节点文献的属性,将四维关系降为二维显示,方便用户理解和使用。
2.1 基于领域本体概念的可视化导航
目前出现很多检索系统采用了无定型关键词的询问系统,只要输入检索词,平台就会询问希望用到的代名词、相似词及下位词等,以便用户拓展查询。而基于本体的可视化检索系统用可视化的方式显示检索词的语义关系,一方面体现可视化的优点,以直观的可视的形式为初入本检索领域的用户介绍该领域的具体内容及研究热点等问题;另一方面,避免了用户筛选词的过程,本系统根据领域本体库中概念间的语义关系,直接检索,将最全、最准确的结果反馈给用户。基于本体的导航机制通过揭示信息对象间的语义关联,能够准确、深入地表征信息的内容,是一种高层次的内容导航方法。本系统采用Flash工具,以本体概念为节点,实现了可视化的导航。执行代码如下:
2.2 基于本体的期刊论文检索结果可视化
期刊论文的检索结果可视化是基于用户需求的智能导航,其目的是通过期刊论文间的关系指导用户检索所需文献,即随着用户浏览意图的不同,提供不同的信息,实现动态导航。因此,用户使用过程中,用户点击不同的属性按钮实体,将根据实体类别生成不同的检索结果。这种导航是根据不同的中心节点内容动态生成。例如点击甲文献,则以甲文献为中心节点,以同著者文献、相关文献、参考文献、被引文献为四个属性按钮实体,点击任何相关文献按钮实体,则生成相关的文献,如果选择相关文献中的文献乙,则以乙文献为中心节点,并动态生成乙的属性按钮实体和相关文献。可视化的显示通过Flash调用JS方法,对数据库元数据进行检索,录入XML中,然后调用显示。具体代码如下:
期刊论文检索结果可视化导航,将中心节点文献的四维属性降为二维关系显示在页面。如果属性有值则显示节点球体,同时显示节点文献题名;如果属性值为零则不显示。随着鼠标在属性节点的点击转换中心节点。其实现代码如下:
3.基于本体的期刊论文可视化检索系统介绍
3.1 领域本体的可视化
基于本体的期刊论文可视化检索系统以数字参考咨询领域的期刊论文为例,在用户只知道数字参考咨询这个大类,而对下位类领域知识不了解,却需要认识该领域知识的用户提供帮助,即给初入数字参考咨询领域的用户指引方向;同时也为身在参考咨询领域的人员理顺知识结构,指导期刊论文的语义检索。用户只要点击导航列表中的数字参考咨询,主页面中将显示本文中构建的本体图,此图实现双曲几何的可视化,将层次关系显示在一个双曲平面上,然后将双曲平面映射到显示区域。点击图中的概念节点,系统将以该节点为检索词列出相关的文献。可视化导航图如图3-1。
3.2 可视化导航列表
点击本体概念的可视化导航中任意节点,系统就会以该节点为输入词将语义检索结果以列表图的形式返回到用户桌面。以下以点击参考咨询2.0为例,其实现效果如图3-2。
3.3 检索结果的可视化导航
以可视化导航列表为基础,点击任意一篇文献题名,系统将以该篇文献为中心节点,以参考文献、同著者文献、被引文献和相关文献四个属性值为四个检索方向,实现文献在可视化状态下的连续导航。将中心节点的四维关系将为二维关系显示。图3-3为点击期刊论文《虚拟参考咨询2.0全景扫描》,可视化导航以该文献题名为中心节点,以参考文献、同著者文献、被引文献和相关文献四个属性关系展开显示。
点击被引文献,《虚拟参考咨询2.0全景扫描》这篇期刊论文的被引文献将以被引文献按钮为中心散发开来。其效果如图3-4。
点击参考文献则以参考文献按钮为中心展开该篇文献的参考文献题名,其效果如图3-5。
点击同著者按钮则以同著者文献按钮为中心展开该篇文献的同著者文献。如图3-6所示。
由于本系统数据量只有1362条,所以检索结果有可能是1条记录或没有相关记录,这种情况可以随着数据量录入的加大逐渐得到改善。
点击相关文献则以相关文献按钮为中心展开《虚拟参考咨询2.0全景扫描》的相关文献题名,其效果如图3-7所示。
以上都是针对《虚拟参考咨询2.0全景扫描》的相关可视化导航,而相关属性按钮展开的文献节点同样在鼠标的点击下变为中心节点。如图3-8,点击相关文献《基于知识管理框架的合作数字参考咨询服务》,则中心节点就会变为《基于知识管理框架的合作数字参考咨询服务》文献题名,同时显示与之对应的该篇文献的相关文献。点击其他文献也是同样的道理。
只要系统中存有相关数据,则就有记录显示,如果没有相关数据,则不显示。同时,为了用户返回方便,系统提供了后退按钮,使用户操作起来来回自由且方便。
4.总结与展望
信息语义检索及可视化导航是一个较新的研究方向,随着信息检索技术及信息可视化技术的发展而发展起来,同时随着网络信息资源激增,以及用户信息需求的进一步提高而获得了更大的发展空间,将日益显示其优势。而在实际检索环境中,信息语义检索及可视化显示并没有得到广泛应用。本文针对传统期刊论文检索系统可视化效果差的不足,实现了对数字参考咨询领域期刊论文基于本体语义图的可视化导航检索系统的开发。提供了基于本体的可视化导航,方便用户对领域知识一目了然,同时能指导用户检索,让检索变得轻松自如。
然而,目前系统的可视化不能以线条的长短或球体的大小来指导记录的权重或重要性,需要进一步改进。在动态效果等方面也需要进一步完善。
参考文献
[1]张学梅。基于本体的期刊论文检索系统研究。图书馆学研究(理论版),2011(12):66-71.
[2]Cort,Louise Allison.Word in Flower:The Visualization of Classical Literature in Seventeenth-Century Japan[J].Journal of Asian Studies,1991(2):171-173.
[3]胡志刚,侯海燕。科学技术学期刊群的可视化分析[J]大连理工大学学报(社会科学版),2009(2):119-123.
[4]鲍杨,朱庆华。近10年我国情报学研究领域主要作者和论文的可视化分析——基于社会网络分析方法的探讨[J]情报理论与实践,2009(4):9-13.
[5]张学福。信息检索可视化基本问题研究[J].中国图书馆学报,2006(3):37-40
[6]张学福。信息检索可视化开发工具[J].现代情报,2005 (11):38-41.
[7]孙巍。基于引文的信息检索可视化系统研究[D].黑龙江大学信息管理学院,2007:1-73.
[8]陈颖。基于摘要信息的中文信息检索可视化系统研究与实现[D].黑龙江大学信息管理学院,2007(2):1-56.
信息检索论文 篇四
关键词:信息检索 信息分析 信息提炼 立体印刷
中图分类号:TM63 文献标识码:A 文章编号:1674-098X(2016)09(c)-0100-02
在新的生活环境下,每个人都需要从各种各样的信息源中收集、提炼有用信息,为正确决策提供参考。一方面,人们可以利用网络方便、自由、快捷的、查询信息;但另一个方面,由于网络环境的开放性,信息更新的快速性,使得信息资源出现分散、异构、无序的特性,极不利于人们有效开发和利用这些资源。面对信息急剧增长、技术不断更新的新局面,需要我们对信息检索技术进行深入的研究,从而提高网络信息资源的利用率,尤其是科研工作者必须增强获取、选择和利用信息的能力。
1 信息检索概述
信息检索是将信息按一定的方式组织起来,并根据信息用户提交的查询条件检索出相关文档的过程和技术。信息检索涉及数据库技术、图书和情罂蒲А⑷斯ぶ悄堋⒆匀挥镅源理、机器学习等众多知识和学科领域[1]。信息检索作为一门学科,主要研究信息的获取、表示、存储、组织和访问。
1.1 信息检索的意义
信息检索是对信息进行集中表示、存储、组织加工、统一管理,使用户更容易得到所需要的信息,进而对信息进行加工,根据分析得出新的思路和方法,实现信息激活和增值。有效的信息检索可以节省科技人员的时间,提高工作效率;帮助人们进行知识更新;继承和借鉴前人劳动成果,促进科技的快速发展;协助管理者做出正确的决策。
1.2 信息检索的四要素
信息检索包含四个要素:信息意识、信息源、信息获取能力、信息利用[2]。信息意识是信息检索的前提,指人们借助信息系统获取所需信息所做出的能动反映,使人们对信息的敏感程度、选择和运用信息能力;信息源是信息检索的基础,如专著、期刊、报告、学位论文、会议记录、专利、标准、统计数据、政府出版物、档案文献信息等;信息获取能力是信息检索的核心,是指人们对信息的了解、查找、整理加工;信息利用是信息检索的关键,即对信息进行有效的加工和利用。
1.3 检索语言及方法
检索语言是为沟通文献标引与文献检索而编制的人工语言,是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。检索语言主要包含分类、主题、代码和自然四类语言[3]。分类语言是指用各种分类号来进行检索的标识,按学科性质进行系统排列,包括主题、科学、图书和专利分类语言;主题语言是直接以表达文献主题的词语作为检索标识,包括关键词、标题词、单元次和叙词语言等;代码语言是指将事物的某一方面特征用代码系统来标引和排列的检索语言,例如,分子式索引系统;自然语言是指未经规范化处理的检索语言。
信息检索包括手工和计算机检索,常用的检索方法有拉网法、引文法、顺查、逆差和抽查法、排除、限定和合取法。检索途径归为两大类:一类是用信息的外部特征,如责任者、题名、某种序号、机构名等作为检索标识;另一类是用描述信息内容的分类号、关键词、主题词等作为检索标识。通常直接输入检索字段直接点击搜索,但需要精确查找目标文献时,要利用高级检索方式设置一些查询条件,如查询范围、时间、方式(模糊和精确)、字段逻辑关系的编辑等。
2 信息检索流程
信息检索过程可分为以下步骤:课题的确定――选择合适的数据库――初步拟定检索式检索――调整检索策略(考虑准确性)――命中结果分析――批量下载――信息分析。下面以立体印刷技术的相关资料的搜集为例介绍信息检索过程。
2.1 检索工具选择
对于日常信息的搜索,通常采用百度、谷歌等网站,但对于专业文献的检索则需要专门的数据库,每个数据库都有自己的特点。
(1)馆藏书目查询:书目是将图书、期刊按一定规则收录,并有序编排的检索工具。通常包含题名、责任者、主题词、分类号、索取号、ISBN/ISSN号、出版社等字段,输入检索词即可检索,大多数高校图书馆都有自己的馆藏书目数据库,检索、下载。
(2)中国学术期刊全文数据库:目前世界上最大且连续动态更新的数据库,内容覆盖工程技术、自然科学、农业、哲在新的生活环境下,每个人都需要从各种各样的信息源中收集、提炼有用信息,为正确决策提供参考。一方面,人们可以利用网络方便、自由、快捷的、查询信息;但另一个方面,由于网络环境的开放性,信息更新的快速性,使得信息资源出现分散、异构、无序的特性,极不利于人们有效开发和利用这些资源。面对信息急剧增长、技术不断更新的新局面,需要我们对信息检索技术进行深入的研究,从而提高网络信息资源的利用率,尤其是科研工作者必须增强获取、选择和利用信息的能力。
1 信息检索概述
信息检索是将信息按一定的方式组织起来,并根据信息用户提交的查询条件检索出相关文档的过程和技术。信息检索涉及数据库技术、图书和情报科学、人工智能、自然语言处理、机器学习等众多知识和学科领域[1]。信息检索作为一门学科,主要研究信息的获取、表示、存储、组织和访问。
1.1 信息检索的意义
信息检索是对信息进行集中表示、存储、组织加工、统一管理,使用户更容易得到所需要的信息,进而对信息进行加工,根据分析得出新的思路和方法,实现信息激活和增值。有效的信息检索可以节省科技人员的时间,提高工作效率;帮助人们进行知识更新;继承和借鉴前人劳动成果,促进科技的快速发展;协助管理者做出正确的决策。
1.2 信息检索的四要素
信息检索包含四个要素:信息意识、信息源、信息获取能力、信息利用[2]。信息意识是信息检索的前提,指人们借助信息系统获取所需信息所做出的能动反映,使人们对信息的敏感程度、选择和运用信息能力;信息源是信息检索的基础,如专著、期刊、报告、学位论文、会议记录、专利、标准、统计数据、政府出版物、档案文献信息等;信息获取能力是信息检索的核心,是指人们对信息的了解、查找、整理加工;信息利用是信息检索的关键,即对信息进行有效的加工和利用。
1.3 检索语言及方法
检索语言是为沟通文献标引与文献检索而编制的人工语言,是连接信息存储和检索两个过程中标引人员与检索人员双方思路的渠道。检索语言主要包含分类、主题、代码和自然四类语言[3]。分类语言是指用各种分类号来进行检索的标识,按学科性质进行系统排列,包括主题、科学、图书和专利分类语言;主题语言是直接以表达文献主题的词语作为检索标识,包括关键词、标题词、单元次和叙词语言等;代码语言是指将事物的某一方面特征用代码系统来标引和排列的检索语言,例如,分子式索引系统;自然语言是指未经规范化处理的检索语言。
信息检索包括手工和计算机检索,常用的检索方法有拉网法、引文法、顺查、逆差和抽查法、排除、限定和合取法。检索途径归为两大类:一类是用信息的外部特征,如责任者、题名、某种序号、机构名等作为检索标识;另一类是用描述信息内容的分类号、关键词、主题词等作为检索标识。通常直接输入检索字段直接点击搜索,但需要精确查找目标文献时,要利用高级检索方式设置一些查询条件,如查询范围、时间、方式(模糊和精确)、字段逻辑关系的编辑等。
2 信息检索流程
信息检索过程可分为以下步骤:课题的确定――选择合适的数据库――初步拟定检索式检索――调整检索策略(考虑准确性)――命中结果分析――批量下载――信息分析。下面以立体印刷技术的相关资料的搜集为例介绍信息检索过程。
2.1 检索工具选择
对于日常信息的搜索,通常采用百度、谷歌等网站,但对于专业文献的检索则需要专门的数据库,每个数据库都有自己的特点。
(1)馆藏书目查询:书目是将图书、期刊按一定规则收录,并有序编排的检索工具。通常包含题名、责任者、主题词、分类号、索取号、ISBN/ISSN号、出版社等字段,输入检索词即可检索,大多数高校图书馆都有自己的馆藏书目数据库,检索、下载。
(2)中国学术期刊全文数据库:目前世界上最大且连续动态更新的数据库,内容覆盖工程技术、自然科学、农业、哲学、医学、人文社会科学等各个领域。可进行高级、专业、跨库检索以及期刊Ш健
(3)中国优秀博硕士论文数据库:目前国内相关资源最完备、连续动态更新的高质量学位论文数据库,包含理工、农业、医药、文史哲、法律、教育与社会科学、电子与信息科学、经济以及专题文献等。
(4)外文文摘数据库:既包含单学科数据库,如CA(化学)、PA(石油)、Georef、Medline等,又包含多学科综合数据库,如Dialog、EI、CSA、SCI、IEEE/IET、Spinger等。对于国际化的今天,外文检索已成为每个考研人员必备的技能。
(5)其他数据库:Google学术中文和外文搜索、万方、维普、知网、专利检索系统以及标准文献检索数据库等。数据库文件普遍采用CAJ和PDF格式,须下载专门的浏览器来阅读。
2.2 检索词确定
确定中文检索词:设置与论文名字相关的检索词进行检索,如,立体印刷、3D印刷、立体图像、立体印刷品;确定英文检索词:stereoscopic printing、3D printing、stereoscopic image printing、auto-stereoscopic image
2.3 检索过程及结果分析
利用以上介绍的检索方式以及各个数据库的特点,选用中国知网、Google学术、硕博士论文数据库、EI和专利网,结合设定的检索词进行文献检索,该文例子主要围绕图书、期刊、硕博士论文和专利来搜索。为了便于对文献的管理、引文编排,论文写作采用EndNote插件建立分类文献库。在搜索文献时注意尽可能将时间设定在近5年内,学位论文搜索优先,这样对研究对象的背景、现状首先有大概的了解;其次进行大量其它文献的检索,可以参考论文后的参考文献、某个领域的专家或数据库连接到的相似文献等来扩展检索。无论对于中文还是外文的搜索,不能盲目下载,必须注意文章摘要与目标对象是否有关,否则会加大有用文章筛选的工作量。
检索到的文章由于存在相似性,一定要做好分类,方便快速查找。总的来看立体印刷技术相关文献主要涉及人眼视觉理论、光栅成像、立体图像制作、光栅材料及使用、立体印刷产品质量评价和市场分析、立体印刷工艺研究以及相关设备制造等。通过以上文章的搜索我们可以对立体印刷有大致的了解,对于写综述性的论文可以按照以上点来设置章节标题,如果要进行某一点的深入研究,需要认真研读,将文章的各个点吃透,或进一步查阅相关资料。总之,文献检索不能盲目,初步检索分析后,再次具有针对性性的进行检索。
3 结语
该文围绕信息检索技术展开讨论,首先,简单的介绍了信息检索的含义、目的、意义、检索要素和方法等,让大家对此有直观的认识。其次,结合立体印刷技术综述报告的例子,详细的阐述了文献的查找渠道、提炼、分析和总结过程,对以后工作和学习中有效的进行信息检索具有一定的参考价值。
参考文献
[1] 刘双魁。信息检索与利用[M].上海:东南大学出版社,2010:8.
[2] 祁延莉。信息检索概论[M].北京:北京大学出版社,2013:7.
信息检索论文 篇五
>> 文献的网络信息检索简述 试析高校文献检索课的网络检索教学 基于大学生信息素养教育的文献检索课教学改革 基于元认知理论的文献信息检索教学改革 网络环境下高职学生的文献检索教学 基于建构主义的文献检索课教学方法探讨 基于教学模块的文献检索改革与实践 基于本体的专业文献检索 基于P2P技术的网络信息检索探讨 网络信息检索的工具 基于网络资源利用的化学化工文献检索 基于本体的无线网络文献检索研究 基于向量空间模型的信息检索技术的探讨 基于信息素养教育的高校文献检索课改革 基于仲景学子培养的医学文献信息检索课程设置研究 基于信息素养教育的高职院校文献检索课思考 关联理论视域下的文献信息检索相关性的探讨 《网络信息检索方法》教学设计的优化 探析网络背景下的信息检索教学设计 利用网络进行文献检索课教学的实践与探究 常见问题解答 当前所在位置:).网站参考国内外学习支持系统结构的先进理念、建立了以下体系,为信息检索学习搭建学习情景。教学网站的资源包括:
(1)教学管理:将教学设计包括教学计划、课程内容、考试要求等,贯穿于学期准备、学习目的、学习内容、学习任务、学习媒体和学习评估等要素的设计中。
(2)网上课堂:采用PowerPoint,Authorware,Flash视频等软件制作动画演示,结合文本、动态展示教学内容的教案和教材。这些电子教材突出了以学习者为中心的理念,辅以多维环境技术和分析技术、心理支持技术和交互技术、元数据技术,在检索技术、数据库应用、信息调研等各个教学方面,为学生提供上网、互动、开放、自习方式的学习环境。网上课堂除了在软件制作上突出新颖性、多媒体性,更重要的是加强内容的新颖性,及时更新有关数据库、网站变化的教案,不断跟踪实用、适用数据库的应用,积累教案。复旦大学文献检索教学网站上,已经有文理医三个专业的教案及数据库、网站教学近30种。电子教案、实习指导出版了三个专业近20版(每月更新)。并且在广域网上开放,无须账号密码即可使用。
(3)学习策略指南:学生带着科研课题进入课程学习,学习支持系统必须进行策略学习指导,以正确引导学生构建自身知识体系。
指南围绕课题,从关键词确立到规范检索句法提问式的构造,从数据库检索到专业重要网站的选择和利用,从核心期刊的确立到权威著者的引文分析,从科研论文、综述文献的应用和引用分析研究到撰写,将信息检索学习与信息素养能力培养目标密切配合。
在校园网现有全文数据库的资源中,学生不仅从全面系统的数据库入手,系统的获取学术信息,在学习策略的指引下,进一步在internet大环境下,深入各专业数据库和专业协会、网站等进行信息分析研究。将检出的信息融入知识体系,与科研课题相结合,开展更为全面专业的信息调研。
2.信息资源环境
Internet校园网数据库平台和数字图书馆的发展,是开展网络信息检索与利用课程建构主义学习支持的基础情景。
图书馆馆藏目录体系从个体馆藏到联合目录和全国高等教育文献保障系统。核心期刊确认体系如JCR(美国科学引文数据库期刊引用报告)、中文核心期刊要目总览等。
全文数据库如中国期刊网,万方数据库等中西文全文电子期刊。网络数据平台如Web.of.know.ledge,从关键词到文摘到全文及引文检索,从期刊、学位论文到专利文献会议文献,从生物医学到人文理工的一站式多学科权威学术信息的提供。多元信息数据体系从专业新闻稿,学术期刊专家评估信息到全文,从原始文献到三次信息检索,专业网络信息如中国知识工程基础设施网,中国高等教育保障体系Calis等。
特种文献如生物信息学数据库NCBI.EBI.CIB的序列报告,蛋白质结构预测……;专利文献如美国专利和商标局,中国专利信息网;标准数据库如中国工程技术标准信息网,各国标准网站;学位论文PQDD,中国学位论文数据库等。
这些资源都构成了信息检索乃至信息素养能力培养的庞大网络信息资源知识体系,为信息检索提供了丰富的资源前景,
3.信息检索教师与平台设计人员密切配合,根据信息教育的特点,以WEB为基础,信息检索与利用远程教育教学为管理系统,采用B/S、C/S混合体架构结合的体系,建立远程教育平台。自愿参加远程教育的同学,在登记注册后,可以在广域网上自由使用网站资源、网上递交作业、进行网上咨询和交流。在图书馆资源丰富的馆藏、电子资源、完善的文献保障系统的大环境下,为学生构筑信息检索的互动学习网络支架,
在广域网教学网站支持下,学生不受时空的约束,自由的选用任何时间和地点,自主选择感兴趣的话题,自行决定学习方式和时间,通过学习支持系统提供的信息资源环境、远程教育平台、教学网站资源库的学习情景,获取知识,建立和构造自己的知识体系,培养自己的信息素养能力,并且通过信息化教学辅导体系反馈给教师。教师在学习支持系统中,能够保证学生在任何时间内自由使用检索实习机房和实地指导。实习机房维护由文检课教师自己兼任,定期进行网络通畅保障工作包括软件更新、硬件调配等,保证实习基地的设施完备和正常运行。
[参考文献]
[1]杨木容。对文献检索课网上教学的探讨[J].图书馆杂志 2005(7)
[2]李晓玲。符礼平。王宇芳等。信息检索网上学习支持系统[J]. 图书馆杂志(12)
信息检索相关论文 篇六
【摘要题】实践研究
【【关键词】网络/社科信息资源/检索策略
随着全球信息化的不断深入,网上社科信息资源日益丰富。但由于网上信息资源高度分散、数字信息的易拷贝等特点导致信息重复率高,无序性更为突出。所的社科信息没有统一的管理和规范,加之现有的检索工具智能化程度较低,导致信息查询困难,大大影响了网上社科信息资源的利用效率。了解目前网上社科信息资源的分布情况,加快和扩大网上信息资源开发利用的进度和规模,利用信息网络共享社科信息资源,弥补目前普遍面临的信息资源短缺的问题,已经迫在眉睫。
1网络社科信息资源的分布
1.1网上电子期刊资源
网上电子期刊具有时效性强、内容丰富、检索途径多样等优势,利用率非常高。网上电子期刊包括与印刷版同时发行和仅在网上发行的两种,其主要来源渠道有:
(1)出版商和文摘索引服务商提供的期刊检索服务。目前,国际上大多数主要的期刊出版商都建立了全文数字化期刊数据库,并通过因特网提供服务。如美国学术出版社(AcademicPrees)的IDEAL(InternationalDigitalElectronicAccessLibrary)系统(http://),德国Spring-Verlag出版公司的Link系统(http://www.link.springer.de)等。有的文摘索引服务商则将自己的产品上网,提供包括期刊订购、检索、全文传递等服务。如美国威尔逊公司(Wilson)的WilsonFulltext(http://)。
(2)网络数据库信息服务商提供的服务。存储在网络服务器上的网络数据库品种多、质量高,大多由信息服务商或大型图书情报机构创建维护,如世界上最早和最大的国际联机检索系统Dialog,美国联机计算机图书馆中心OCLC,中国期刊网等。访问的形式主要有授权直接访问或访问镜像站上的数据库两种。中国期刊网的题录数据库免费供用户检索,可为用户提供6000多种刊物的题录信息。有的数据库服务商不定期地提供某些数据库的免费试用服务。
(3)文献情报部门或学术性机构提供的服务。文献情报部门或学术性机构依托自己或协作单位的馆藏,通过自己的网站提供期刊或其他类型文献的网上检索服务,用户在有的网站检索二次文献信息的同时,还可以订购原始文献,原文可通过E-mail、传真、浏览、下载和联机打印等方式获取。如美国科技信息研究所的科学网(webofscience,http://)提供世界三大引文索引SCI、SSCI、A&HCI)的检索。
(4)网络版期刊提供的服务。许多期刊正在网上建立自己的网站,便于读者上网检索或提供免费的电子邮件现刊目录服务。如《中国远程教育》免费为广大读者提供全文阅读、期刊订阅及检索服务;《世界华人名人录》网络版提供网络版的题录和全文;中国经济展望网提供《宏观经济观察》、《宏观经济论坛》等多种网络版期刊的题录和全文,等等。
1.2网上图书信息
网上提供的图书信息主要包括书目信息和电子图书。
(1)出版商提供的书目信息。国内外许多出版社都设有自己的网站,通过因特网其出版物的目录、最新图书内容简介、价格等信息。如高等教育出版社提供新书推荐、教材目录以及书目查询服务等;AcademicPress提供其出版物的目录、最新图书内容简介、价格等信息,带有一定的销售宣传性质。
(2)图书馆、文献情报中心提供的联机图书馆馆藏目录。目前全球至少有15000个大型图书馆的联机目录24小时对外开放。读者通过OPAC可以查询到大量的书目信息,确定某本书是否在馆,能否通过馆际互借加以利用等。有些联机目录不但提供书目及摘要,还提供其他信息资源,用户可以通过相应的URL地址访问世界各个国家和地区的各种图书馆。
(3)数字图书馆提供的电子图书。数字图书馆是数字化生存时代的重要文化基础设施。用户只需通过鼠标和键盘,记载人类文明成果的图书资料就会方便地进入人们的生活。如超星数字图书馆可为读者提供35万册的PDG格式的数字图书。其会员可随时阅览到最新图书。国内可供读者阅读图书的还有中国数字图书馆、书生之家数字图书馆等。
(4)研究机构提供的电子图书。以香港中文大学中国文化研究所的“古文献资料库中心”和中国台湾的“瀚典”为代表。两网站除部分内容需付费使用外,绝大部分内容可免费在线浏览。
(5)个人或团体网站提供的电子图书。大多数文学类网站属于此类,有的以收藏为主,有的以链接为主。虽然侧重点有所不同,但大多是中外文学名著和眼下一些比较红火的图书,也包括一些网友自己的习作和文摘,一般为全部免费提供给读者阅读。
1.3网上报纸资源
网上电子报纸时效性强、传播范围广,提供大量时事、专题、经济、政治、法律法规等方面的信息,正逐渐成为新的重要的社科信息源。据不完全统计,自1995年10月《中国贸易报》率先在网上开办电子版以来,到1999年6月,国内已有273家报纸上网提供阅览。以《人民日报》网络版为例,它从每天凌晨0时30分到5时,将每天出版的《人民日报》、《市场报》等17种报刊的全部文字和图片上网,还分为“中国”、“国际”、“财经”等9个频道,每天滚动国内外新闻1500条,并就新闻热点制作专题。网站还设置了对报刊和频道新闻均有效的信息检索功能,读者很方便就能查到相关资料。
1.4网上学位论文资源
(1)利用全国性的学位论文数据库提供的信息。许多国家已将学位论文数字化列为重要的项目计划,其中较具规模与成效的,例如:ETDDigitalLibraryNetworkedDigitalLibraryofThesesandDissertations(NDLTD)网络博硕士论文数字化图书馆计划。它是一个国际论文资源的电子图书馆计划。通过整合性检索可检索19个单位的论文;另外更列出
许多大学及研究机构博硕士论文的网址。CALIS高校学位论文(文摘)数据库,是中国高等教育文献保障系统的一个子项目,建库的目的是通过对分散在各大学中各类学科的学位文献信息的收集、整理、建库、上网,使原始的论文信息获得升值,为国内外希望获取高校学术信息的用户提供方便的查询途径,起到推动高校教学、科研交流和促进发展的作用。高校学位论文数据库收录包括北京大学、清华大学等全国著名大学在内的83个CALIS成员馆的硕士、博士学位论文,截止到2002年5月21日,已有97所学校申请加入学位论文数据库建库工作,学位论文数据库上网数据已达到约9.7万条。
(2)利用商业出版机构或信息中介者提供的信息。目前已有商业出版机构取得授权,通过正式的出版渠道出版学位论文;有些则是委托商接受论文订购。如1983年成立的UMI公司,是美国学术界首屈一指的出版公司,出版物包括自1861年美国的第一本论文到目前所出版的150多万本美加地区博硕士论文,1997年以后出版的已经有PDF形式的论文,可直接使用信用卡订购下载。通过Amazon网络书店订购学位论文,前25页可免费浏览。
(3)利用联机检索系统中的学位论文数据库。一些知名的联机检索系统中都包含大量的与学位论文有关的数据库。如Dialog系统、QuestelQrbit系统、STNFizKar/sruhe系统。我国的“中国优秀博硕士学位论文全文数据库”由教育部主管、清华大学主办,是中国知识基础工程(CNKl)继《中国学术期刊全文数据库》等超大型数据库建成后,又一项大规模开发利用我国知识信息资源的重大信息化工程。按照CNKI信息采集范围规定的信息源,它已收录全国有博士招生点的280多家院校的1800多个博士点和3000多个硕士点2000年以来的博硕士学位论文5万多本。并按科学的体系进行了编辑。到2002年底,加入这一数据库的博硕士培养单位将达到80%以上,2002年6月2日的《光明日报》称该数据库是目前世界上惟一最科学、最全面的中文全文博硕士学位论文检索数据库。
(4)学术教育单位自建的学位论文数据库。有些大学或资料中心在原有图书馆馆藏目录查询系统之外建立本校的博硕士论文查询系统,部分学校除提供书目及摘要外,另有全文下载功能。如:MITThesesOnline麻省理工学院,收录经选择后的博硕士论文,提供论文扫描后之全文。可线上订购全文,包括:纸本、PDF档及微缩片三种形式。《上海交通大学学位论文数据库》,提供多种途径包括摘要和全文的检索能力,可以查到上海交通大学历年的博硕士论文书目资料及摘要,博士论文的全文下载仅限授权用户。
1.5网上政府信息
政府信息是政府活动的原始记录和产物,它的发展与政府机构本身的扩充及其职能的强化有着不可分割的联系;其文献地位和使用价值也随着综合国力的增强和在国际事务中所发挥的作用,而不断上升和升值。网络政府信息的多少,已被视为一个国家民主程度的表征之一。
在网络发达的美国,据1997年中期统计,美国联邦政府的4300个网站和215个电脑公报牌已将政府的42个部门机构拴链为一体,在2000年末已将政府3/4的议事录(transaction)电子化。通过网络,可以查找美国的总统文献,如:国情咨文、经济咨文等;可以通过美国GPOAccess主页、美国国务院网站或美国国务院外交事务网等查找美国国务院的文献资料;还可通过美国商业部的国情普查局、劳动统计局、经济分析局等查找美国的统计资料。
1999年1月22日,中国电信和国家经贸委经济信息中心联合40多家部委信息主管部门在北京召开了“政府上网工程”启动大会,要求1999年底60%以上的部委和政府部门在163、169网上建立正式网站,到2000年底则要实现80%以上部委和政府部门建立网站。据2002年7月22日中国互联网络信息中心(CNNIC)第10次中国互联网络发展状况统计报告,全国各级政府部门申请域名的已达5864个,“政府上网”已经成为现实。
1.6电子论坛和电子会议
因特网上设有USENET及Listserv电子论坛,也称新闻讨论小组。USENET及Listserv都是由成千上万个专题讨论小组构成。每个小组是由某一主题参与的文章所构成。USENET与Listserv类似,但是,前者范围更广泛,几乎无所不包,一般不需订购便可参与;而后者较为严肃,而且更趋学术性,通常还需订购方可参与。因特网上用户通过E-mail均可自由参与电子论坛的活动,从中可以获得用任何其他手段都难获得的第一手重要专题信息与资料。因此,它是研究人员及时了解跟踪学科动态与前沿的最有效途径之一,可消除印刷出版物时间滞后的缺点。电子论坛的另一特点是举办国际电子会议。例如,利用Listserv,一些学术团体与组织已成功举办了多次专业性的国际学术会议。参加这些会议,能了解本专业的最新研究发展动态,获取完整的会议论文与资料。
1.7网络数据库
存储在网络服务器上的文献信息数据库称为网络数据库,多由信息服务商或大型图书情报机构创建维护,品种多,质量高,但基本上都是需要付费才能使用。访问网络数据库的形式主要有直接访问和访问镜像上的数据库两种。目前在网络上运行的著名数据库,如:Dialog系统已拥有600多个集文献信息库、数据信息库、事实信息库和全文信息库于一体的大型专业数据库系统;OCLCFirstsearch数据库,能为用户提供包括ArticleFirst、ContentsFirst、ERIC、FastDoc、GPO等14个基础数据库。
1.8网上其他社科信息
网络上还有大量的会议信息、政策法规、标准文献、产品样本目录、组织机构、通讯讨论组等。这些资源的实用性也很强。
2网络社科信息资源的检索
2.1直接进入网站或数据库进行检索
通过这种途径进行检索,要求检索者对网络信息资源分布有所了解,进行检索前,首先要分析所检课题的信息类型,然后找到可能包含其内容的相应网站的相应系统。比如,要了解某一新课题相关论著,首先确定需要检索书目,可以利用国家图书馆的书目检索系统进行检索,也可进入高校图书馆书目信息查询系统进行检索。如果要了解课题目前国内外研究最新进展,首先确定可以检索期刊目次,外文的可以进入清华的科技新刊报导检索,中文的可以检索CNKI的期刊专题题录数据库。
2.2利用搜索引擎进行检索
搜索引擎俗称“网络门户”,是搜集网络信息资源最方便的入手工具。据统计,至少85%的网上用户使用搜索引擎来查找信息。目前在因特网上已有数千个搜索引擎,中文搜索引擎也有100多种。利用搜索引擎可以搜索所有在网上的资源而不必预先知道资源所在的地址。搜索引擎通常有两种检索方式:一种是分类目录导航,一种是输入检索词进行匹配检索。前一种是以Yahoo!为代表的人工分类式搜索引擎,根据检索主题所属类别,逐级展开分类目录,查找分类匹配信息。分类式搜索引擎虽具有分类清晰、准确的优点,但却存在人工成本高、收集内容有限、难于更新的不足。后一种是以AlatVista为代表的基于Robot的搜索引擎,它提供对关键词、主题词或自然语言的查询,由程序自动搜索。用户只要在搜索框中输入检索式或表达式,搜索引擎就会返回一组指向相关站点的超链接。由于是机器人程序自动搜索,可方便地收集更多的网站并及时更新、发现及删除已不存在的站点,从而大大提高用户查询结果的数量。这两种类型搜索引擎的工作原理各不相同,检索效果也各有差异,应合理选用。
2.3利用专业信息资源导航系统获取信息资源
搜索引擎虽然是整合互联网信息资源,并使之有序化的重要手段。但是据NEC研究院的最新研究,网上信息缺乏有效整合标准和手段,搜索引擎只能覆盖网上不到1/4的信息,而发表在《自然》杂志的研究称,没有一个搜索引擎可以覆盖网上信息内容达16%以上,并且随着站点越来越多,这个比例还会下降。因此通过通用搜索引擎查找信息具有一定的局限性,因为通用搜索引擎的信息覆盖面广,面向大众的信息居多,要查询业务性较强的主题,查准率较低。为了使网上的信息资源充分发挥作用,许多国家的信息工作者把分散在网上的某一或某些主题信息通过多个搜索引擎的协同搜索,选择有较高利用价值的信息资源URL,经过专业人员的加工、总结、归类,以目录的形式组织起来,按学科门类进行分类,使用户能按类目浏览,方便地获得某一主题的相关信息。通常先按照学科设立一级类目,在一级学科类目下设二级学科栏目,二级学科类目下可以按照信息资源类型设三级类目(如果本学科的信息资源较少,可以不再按信息资源类型设三级类目,使二级类目直接对应于具体的信息资源,这样更简洁明了),三级类目对应的就是具体的信息资源的网址。从而形成了一系列的网上专业资源指南和WWW虚拟图书馆,把读者和网上信息资源连接起来,可以节省用户网上漫游的时间。如:知识管理虚拟图书馆(http:///km/)、语言类虚拟图书馆(http:///)等。
3基于网络的社科信息资源检索策略
网上社科信息资源内容丰富、种类繁多、更新频繁,通过各种专业搜索引擎和专业信息资源导航系统查找是最主要的途径。但是,任何一个研究人员都必须关注、浏览本专业相关的国际学会、协会、研究所的网上主页,同时加以取舍和鉴别,最终从网上获得有价值的信息,这才是网络信息检索的主旨所在。同时,网上的信息检索系统有着各自不同的服务功用,用户在检索时,如果选用不恰当,会事倍功半,因此在实际检索中应针对不同的检索要求,加强检索策略的规划,其中包括检索标识的确定、检索人口的选择、检索词间的逻辑关系以及检索提问的表达等。正确而完善的检索策略可优化检索结果,反之会造成检索的失误或失败。
3.1确定检索项
(1)分析检索课题,明确检索要求。分析检索课题,是为了弄清楚检索课题要达到的目的和意图,弄清楚课题学科属性、专业范围及相关内容,以便正确选用数据库、检索词和逻辑运算符,确定检索标识,达到良好的检索效果。
(2)选择适当的语词,确定检索项。规范词和自由词是检索常用的语词。规范词是规范化的语词,是受控词汇,它取自主题词表(叙词表)。自由语词是自然状态的语词,属于非受控词汇。检索时,应遵循优先使用规范词,根据实际情况恰当使用自由词的原则。
(3)检索项之间进行逻辑组配,编制检索表达式。不管是数据库还是网上的搜索引擎,几乎都具有逻辑组配检索功能。由于已确定的检索项表达的主题概念间存在逻辑关系,可以通过使用布尔逻辑算符和位置算符对检索项进行组配,编制成检索表达式。常用的布尔逻辑算符有“逻辑与”(and)、“逻辑或”(or)和“逻辑非”(not);常用的位置算符有“near”、“with”、“field”等算符。
3.2选择检索工具
(1)科研选题和科研进行中,由于要检索比较专业的、学术性较强的文献信息,如正式发表的期刊论文、会议记录等,应选择网上数据库检索系统,以保证检索结果的全面性和权威性。
(2)网上商务信息数据库的比重逐年增加,如中文的万方数据资源系统和美国的Dialog公司均提供许多很有特色的商务信息数据库,用户如要检索比较准确和系统的商务信息(包括政策与法规、市场、金融、商品等),也可以选择网上数据库信息检索系统,登录其网站,进入有关数据库进行有偿信息检索。
(3)检索时效性较强的信息,如新闻报道、最新商务信息等,可以选择网上搜索引擎。搜索引擎具有信息传递速度快且免费检索的特点,但对于学术性强,比较专深的课题,用搜索引擎检索效果不理想。
(4)针对具体的检索课题,可根据实际情况选用不同类型的信息资源灵活地配合使用,取长补短,即以专业性或综合性数据库检索为主,适当辅以网页搜索的检索方法,以达到最佳检索效果。实际操作中,用户最常用的就是这种综合运用的方法。
【参考文献】
1黄如花。网上电子期刊的利用。图书情报工作,2001(12)
2陈光祚,夏立新,我国网络图书现状分析与发展对策研究。中国图书馆学报,2002(2)
3李家清。开发利用网络信息资源的对策研究。图书情报知识,2001(1)
4司莉。因特网上的图书馆虚拟文库建设。图书情报知识1999(1)
信息检索论文范文 篇七
[摘要]:因特网上的信息资源,是指以数字形式记录,以多媒体形式表达,存贮在网络计算机磁介质、光介质及各类通信介质上的信息集合。对网络信息资源及其检索进行必要的研究,有助于人们快速准确地获取网上有用信息,推动社会信息化与信息社会化的双向发展。因此本文阐述了网络环境下的信息资源检索策略及其应用。
[关键词]:网络环境,信息检索,信息过滤,文本挖掘
一、引言
21世纪是一个高度信息化的社会,信息就是生产力,在各个行业信息化发展的同时,人们对信息检索的完备、准确、快捷会有更严格的要求和期望。作为文献信息中心的图书馆也迎来了一个全新的信息环境,丰富的网络信息资源为图书馆的信息服务提供了广泛的资源基础,使网络环境下的信息资源检索策略发生了重大的变化。
二、网络信息的特点
(一)数量巨大而庞杂。Internet是一个基于TCP/IP协议连接世界各国数以百万计算机网络的通讯网,是一个集各种信息资源为一体的信息资源网。政府、机构、企业、个人等都可以在网上信息,因此它己成为无所不包的庞杂信息源,并具有跨地区、分布广、多语种、高度资源共享的特点。
(二)内容范围广泛。网上的信息源几乎涵盖了人类知识的全部领域,既有人文科学、社会科学、自然科学、工程技术信息,也有大量生活服务、娱乐消遣等方面的信息。
(三)信息类型丰富。其主要形式有网络出版,包括电子期刊、网上图书、电子工具书等;各种动态信息主要包括新闻、广告、股市行情、天气、交通、会议等;还有大量的书目数据库、联机数据库、软件资源以及个人主页、电子邮件等。这些信息都是数字式、多媒体,既有文本的信息,也有大量的图形、图像、音频、视频信息。
(四)动态性强。网上信息具有高度动态性,各种信息处在不断生产、更新淘汰的状态,同时连接在一起的各网络、网站、网页都时时刻刻在变化。网络信息还具有交互式特点,如BBS、聊天、游戏等。
(五)信息组织特殊、控制性差。因特网上信息的组织以超文本技术链接,构成立体网状文献链,把不同国家地区、不同服务器、各种网页、各类不同文献的相关信息都通过节点链接起来,使得检索相关文献、相关信息非常方便,加强了信息间的关联度,形成了一个网状结构。
(六)有序与无序,集中与分散并存。互联网上的信息没有统一控制,虽然从局部来说某个网站、某个数据库是有控制的、相对集中的、有序和规范的,但总的来说互联网的信息没有统一的控制,信息质量良荞不齐,信息也处于分散、无序、不规范的状态之中。
三、网络环境下的信息资源检索策略及其应用
科学技术的日新月异和用户需求的不断提高促使网络检索工具相应发展,网络环境下的信息资源检索策略及其应用可以分为以下几个方面:
(一)信息过滤技术及其应用
Internet开放式的环境,为人们检索和利用信息提供了极大的方便,但同时,网络环境也为人们及时准确地检索到所需信息带来了麻烦。信息过滤技术就是在这样的背景下开始受到人们的重视,它的目的就是让搜索引擎具有更多的“智力”,让搜索引擎能够更加深入、更加细致地参与到用户的整个检索过程中,从关键词的选择、检索范围的确定到检索结果的精炼,帮助用户在浩如烟海的信息中找到和需求真正相关的资料。
在用户的检索过程中,信息过滤可以通过多种途径实现。第一,关键词的选择。当用户要检索不太熟悉的领域时,系统可以通过提供机读类词表的方法方便用户选词,也可以通过后控词表等方法自动扩大或缩小(通常是通过近义词表扩大)检索范围,提高查全率和查准率;第二,利用过滤模型。过滤模型是目前Internet上信息过滤主要方法,它是通过设计过滤软件并附加到网络信息检索的程序中以增加过滤功能。这主要表现在两个方面,一方面,搜索程序在进行信息搜索时可通过过滤功能过滤掉一些认为价值不大或没有价值的信息;另一方面,用户也可根据自己的需求选择服务项目与内容,通过过滤机制快速找到所需的信息资源。其方法是根据需求设置过滤条件,如不希望获取的网址、某类主题的内容、某种类型或范围的信息等,程序在运行时一旦触发条件,则可将有关信息删除或拒之门外,而其他信息仍可输入。
(二)文本挖掘技术及其运用
文本挖掘是知识管理研究领域的新兴分支之一,为文本信息的整理、分析、挖掘提供了有效的手段。传统的信息检索或信息访问,主要根据用户提供的查询条件从文档数据库中检索出相关的文档信息。为了提高信息访问的准确性,检索系统增加了相关处理,如文档分类、自动文摘、主题词自动抽取等方法,使用户能够方便查找到所需信息。在文本挖掘处理中,大多采用神经网络模型描述文本及文档数据库各概念之间,以及概念和文档之间、文档与文档之间的相互关系在信息检索中,无须分析文档中概念之间的相互关系,只要依据用户的查询,返回相关文档集合。但是,文本挖掘不仅能够区分不同的概念,还能够分析不同概念结点之间的相互关联关系。
1、文本内容挖掘在检索中的应用。文本内容挖掘是指从文档内容及其描述中获取知识的过程,由于用传统的信息检索技术对文本文档的处理不够深入,因此,可以利用文本内容挖掘技术来对网络信息检索中的文本文档处理部分进行进一步的完善。
2、文本结构挖掘在网络信息检索中的应用。文本的信息组织方式采用了一种非平面结构,一般来说文本的信息组织方式是根据内容来进行组织的。但是由于文本的这些结构信息比较难以处理,所以搜索引擎一般不处理这些信息,而是将文本页面作为平面机构的文本进行处理。但是,在文本结构挖掘中,通过对文本文档组织结构的挖掘,搜索引擎可以进一步扩展搜索引擎的检索能力,改善检索效果。
3、文本行为挖掘在网络信息检索中的应用。文本行为挖掘是一种通过挖掘总结出用户的检索行为的模式。用户的检索行为一直是信息检索中重要的研究内容,通过文本行为挖掘,不仅可以发现多数用户潜在共同的行为模式,而且还可以发现单个用户的个性化行为,对这些模式进行研究,可以更好地对搜索引擎的检索效果进行反馈,以便进一步改进搜索策略,提高检索效果。
(三)全文检索技术及其运用
我国对全文检索技术的研究已经有一段时间了,也取得了一定的成果。主要集中在汉字全文检索、超文本全文检索、网络环境下的全文检索技术等方面。全文检索作为一种发展迅速的检索技术,近年来已得到广泛的关注并走向市场。有学者提出的“汉字全文检索系统的关键技术与实现”,在对中西文全文检索系统进行分析比较的基础上,提出了一种新的索引建立方式,并在此基础上,实现了支持模糊提问的全文检索。同时独立设计了自己的数据结构和算法,以及利用VisualC++在Windows环境下加以实现。全文检索技术的运用包括:1、检索主题要求对全文检索效果的影响:通过适当扩大检索范围或多字段联组检索来改善检索主题专指度过高;缩小检索主题范围,提高查找专指度,采取适当的检索策略,来限制检索主题范围太宽;提高检索主题要求的明确性;2、组配检索式对全文检索效果的影响,导致在确定检索词时,不仅仅要考虑到各检索词本身的切题与匹配。在这方面虽然取得一些成绩,但是国内的全文检索软件全是商品化的,其技术都不公开,导致低水平重复;汉语本身有难度,国内目前还没有公开的词库及可用的自然语言理解模块,重复研究的现象比较严重。
(四)自然语言处理技术及其运用
自然语言处理(naturallanguageprocessing,简称NLP)是语言信息处理的一个重要分支。所谓自然语言处理就是计算机对自然语言的形、音、义等信息的理解及词、句子、篇章的输入、输出、存储和识别等多方面的加工。尤其侧重于研究计算机对于句子、篇章的处理。
自然语言处理在网络信息检索中的应用方式主要有以下几种:
1、自动标引
由计算机实现文献标引,分为抽词标引和赋词标引两种类型,前者是从文献中自动抽出能表征文献主题的词作为标引词,而后者则在此基础上引入预先编制的词表来规范自动抽取出的词,不过这种词表从其生成来看与规范语言词表本质上是不同的,自动标引的目的是赋予文献自然语言标引词,以使检索时直接用自然语言词进行匹配查找。
2、自动文摘
利用计算机来完成文献文摘的编制。其一般过程为:(1)原始文献的录入,使之转化为机读形式;(2)确定每个单词和句子的“意义”与权值的测量标准;(3)通过计算每个单词和句子的权值来分析输入计算机内的文献,选出一组最能代表文献主题内容的句子;(4)排列和打印句子,形成文摘。
3、文本检索
文本是文献题名或文摘、文献的正文。文本检索就是不对文献进行标引,而是以自然语言表达检索课题。它需要借助计算机的自动匹配功能直接在篇名、文摘、正文中查找。文本检索要掌握字符串匹配、截词检索、位置逻辑检索等技术。
四、结论
总的说来,变化是因特网发展的永恒主题,也是网络信息检索的发展主题。随着因特网技术的发展,网络信息检索将不断的改进和完善,越来越满足人们的网络信息的获取需求。
[参考文献]:
1黎小妮网络信息资源检索研究图书馆学刊2006(5)
2王平网络环境下信息资源及信息检索遵义科技2006(3)
3陈剑网络信息资源检索存在的问题及解决对策情报资料工作2005(5)
信息检索论文 篇八
【关键词】文献检索;教学内容;教学创新
Literature retrieval teaching content innovation in the Internet Age - Shandong Institute of Light Industry Document Retrieval Teaching
Lu Ming,Han Li
【Abstract】The teaching of document retrieval course content on the prevalence of stale of content, newer slow, setting is unreasonable wait for a problem, document retrieval course in our college according to these problems, in the teaching focus adjustment, teaching content, teaching theory, supplementary teaching subject, combined with updated to distinguish specialized course, combining the construction of subject librarians and other aspects of a series of innovative attempt. The hope can give the document retrieval course reform brings some inspirations
【Key words】Document retrieval course;Content of courses;Teaching innovation
文献检索课是教授学生用科学的工具和方法,在浩如烟海的信息中获取所需文献或信息的课程,是培养学生信息素养的重要手段。随着网络时代的来临,网络环境的普及,文献检索课的教学内容和实践平台都发生了重大变化,网络已经成为文献信息检索的第一选择, 因此,文献检索课的教学内容必须及时加以变革、删减和补充完善,建立起一套适合计算机网络检索,真正起到指导检索实践作用的检索理论,才能满足培养学生信息素养的需要。
下面以山东轻工业学院(以下称我校)的文献检索课教学为例,探讨文献检索课教学内容的现状和我校文检课的一些创新和尝试。
1. 我校文献检索课的现状:
1.1教学内容严重压缩。相对于一些把文献检索课列为选修课的院校相比,我校相对要重视很多,十年前已经把文献检索课程设立为公共必修课。全校13个学院的学生都要完成一个学期的文检课。但是,近些年因为学校扩招,专业课增加,文献检索课教师不足,实习场地不够,文献检索课的教学课时不断被压缩,已从原来的每学期36课时减少至16课时,因此教学内容也一再被压缩和调整。
1.2理论课和实习课比例不合理。图书馆的计算机终端只有100来个,每学期要承担4000多学生实习,实习硬件严重不足,因此十六课时中,理论课和实践课比例为10:6,甚至有的学院比例为12:4,对于一门以应用性、实践性为主的,培养学生获取信息能力的课程来说,是极为不合理的。学生根本得不到足够的实践机会。
1.3课程设置时间不合理。我校的文献检索课全部放在大三下学期或大四上学期,这明显的不合理。这个时期是学生考研、考公务员、找工作的高峰期,学生的缺课率明显上升。而且许多关于图书馆的利用、信息检索的基础教育、网络资源利用、考试题库利用等知识,这时教授为时已晚。
1.4文献检索教材更新慢,跟不上时展。就已出版的文献检索教材来看,与时俱进的精品聊聊无几。一些教材大篇幅介绍文献检索的发展史、地位和各种检索工具书的沿革、编制方法、主题收录范围等,而计算机检索、有关日常生活信息检索、网络信息检索工具、网络信息学科导航、免费网络资源等内容不多,也不深入。即使是介绍,也是蜻蜓点水一般泛泛而谈,互相抄袭、黏贴的内容很多。有些检索工具的检索体系早已发生变化,但教材中没有及时改变、补充和反映。还有些教材多次再版后、内容、数据、没有任何更新和订正。例如我们采用的一种大连理工大学出版社的《经济信息检索与利用》在十年前是非常优秀的一种经济管理专业的文献检索教材。但是自2001年出版以来,虽多次再版,但内容无任何变化,数据库检索界面早已改变,统计数据早已过时,甚至一些门户网站早已被兼并或淘汰。与现实的严重脱节使我们不得不忍痛割爱,但是却一直找不到更好的有专业针对性的新教材。
2. 针对文检课现状,在文检课教学内容上,我们做了很多调 整和改革尝试,具体如下:
2.1大胆压缩教学内容中的基础理论和基础知识篇幅。
将2-3课时的基础理论和手工检索工具知识压缩到1课时。对于信息源、检索原理、信息著录和标引、检索工具的形成、检索工具的评价等理论性的知识,作为一般性的了解。把重点放到计算机检索、网络检索的内容上,建立以机检为主,手检为辅的课程新体系,为计算机检索和上机实践腾出时间。
针对实习硬件的严重不足,我们积极寻求各个院系的帮助,把部分实习课放在院系的电子阅览室进行。作为答谢,不定期到各系为师生进行图书馆的利用、数据库的使用等免费讲座,与院系互惠双赢。经过我们的反复实践和争取,现在绝大多数学院的文检课的理论和实践课比例已经达到1:1。
2.2检索理论与时俱进,不断更新内容。
大部分教材其内容体系主要包括检索理论和各类型文献检索工具使用两部分,理论体系目的就是为了指导检索实践。随着检索实践的不断变化,检索理论也要加以变革、删减和补充完善,从而建立起一套适合计算机网络检索,便于学生理解和接受,能够真正起到指导检索实践作用的检索理论。
例如,讲解联机检索时,DOS界面的检索我们已经放弃,改用介绍采用鼠标结合键盘的操作方式,面对的用户界面是视窗式的友好交互界面;讲解计算机对比运算和方法时,不用再死记AND、NOT、OR、W(W)、N(N)等算符,大部分检索工具都有非常简单和友好的检索对话框和替代方式。系统也会将用户的鼠标、键盘输入操作自动转化成检索表达式;讲解检索方法的理论部分也尝试去掉顺查、逆查、抽查等在计算机检索中不需用户费心考虑的方法,而重点强调回溯法(或者称“引证法”)的使用。
2.3剔旧增新,不断更新和补充网络信息检索的教学内容。
随着网络检索的普及,不稳定的内容越来越多,更新速度越来越快,比如网络信息搜索、下载、传输以及联机检索等的界面和功能变化,文献信息检索领域的新成果、新动向,搜索引擎、网站或数据库的推陈出新或搜索功能的变化,还有很多全新的搜索工具,实用软件、电子出版物不断推出等等,这就要求文检课教师与时俱进,随时剔除陈旧过时的内容,增补新颖实用的新内容。例如在介绍搜索工具时,也不拘泥于教材的内容,而是根据学生的搜索习惯,为学生介绍和推荐优秀的搜索引擎,学生常用的百度和google,我们就重点介绍百度百科、百度知道、google学术搜索、人性化首页、手气不错等等特色产品,对百度和google进行速度、网页、新闻、网页排名等进行对比,更进一步促进学生对网络学术资源的检索和利用兴趣,不仅仅满足与简单搜索功能。对学生不常用但是很优秀的搜索引擎,我们也会选择性的为学生介绍,例如维基百科、yahoo、Piledog、ixquick和一些实用小软件等等,以备学生随时使用。
再如,随着网络工具书的迅猛发展,我们把利用辞书、百科全书、年鉴等“手工工具书检索实习”改成“网络工具书检索实习”,向学生介绍在线辞书、百科、年鉴、专利、CNKI概念元等众多数据库、软件,更快速、全面、有效的完成信息的搜索。
为了学生更好的利用图书馆购买的电子资源,我们单独利用一个课时介绍图书馆购买的电子图书、电子期刊、专利数据库、法律法规库、网络考试数据库等电子资源,并且趁热打铁,紧跟两次实践课专门进行图书馆电子资源的实习。
2.4针对开课过晚,调整不同年级教学重点。
大三下学期开课的学生已经有一定的专业知识,计算机和英语水平也有了一定的基础,给他们上课时,重点放在网络搜索引擎、各类考试数据库、网络免费信息资源检索、图书馆购买的数据库使用方法和技巧上,虽然许多同学会网络搜索,但怎样从众多纷繁复杂的信息中找到自己需要的信息,还是需要老师的教授和指导的。
针对毕业班的学生,除大三学生学习的内容外,重点增加了如何围绕毕业设计或毕业论文课题去进行全面的检索,比如毕业论文的写作,开题报告的撰写,原始文献的索取。还增加了大学生创业及就业等学生比较关心的信息资源的内容。
针对没有开设文检课的大一大二及大三上学期的同学,每个学期之初组织“怎样利用图书馆”讲座。不定期到各学院组织数据库使用讲座,并将基础的信息检索课件挂到图书馆网站,提供学生自学机会。通过QQ,留言板等途径及时为学生解疑答惑。
2.5与专业课相结合,采用专业信息检索教材。根据专业特点选择教学内容。
大多数高校文献检索课程是单独设置的,很少与专业课的学习相结合,无论什么专业都采用同一本教材。很多教材中的检索工具和信息资源介绍,都不一定是该专业的学生用得到的。而与专业相关的信息资源,教材又不一定涉及。我们在教学中,尽量选择针对具体专业的文献检索教材,在教学过程中做到分科教学,针对学生专业的特点进行有针对性的授课, 如《科技文献检索与利用》,《经济信息检索与利用》,《轻工信息检索与利用》等。书中具体的检索实例都属于本专业范畴,授课内容不会与学生的专业学习相脱节, 无论是课堂教学还是上机实习都明显突出其专业特色,容易激发学生的专业信息需求欲望。
对于无法找到合适的专业教材的,就大胆改造教材内容,增加相关专业的信息资源、检索工具内容,删减本专业涉及较少的内容。教师的课件案例、上机作业内容也和专业知识牢牢挂钩。例如作为经管学院的文检课,我们删除了《化学文摘》《工程索引》的内容,增加了国研网数据库、大型经融证券网站、经济法律法规信息、专利数据库等内容,提高学生学习兴趣,增强实用性。
2.6把学科馆员建设和文检课教学相结合。
我校担文献检索课教学的教师基本上都是图书馆的教师,大部分
是图书情报的专业人员,文献检索知识丰富,但专业性受局限。这几年,我们结合学科馆员建设,什么学科的学科馆员就担任什么专业的文献检索课教师,除了为院系教师提供检索、查新服务,更能对学生分析、利用本专业文献信息方面进行有效的指导。
结束语:随着信息时代的到来,文献检索课对学生的信息素养的培养应该发挥越来越大的作用,文献检索课的改革和创新势在必行又任重道远,作为文献检索课教师,我们会一直为培养学生的信息素养努力探索和创新。
参考文献
[1]焦俊梅。 对高校文献检索课教学的调查分析与评述[J],科技情报开发与经济,2011,21(9):66~68.
[2]秦殿启。网络泛化与文献检索课教学创新[J],现代情报,2009,29(3):197~200.
[3]温敬朋。文献检索课理论教学内容革新探讨[J],温敬朋,2010,23(6):79~80.
[4]郭利伟。网络环境下高校文献检索课教学内容探讨——以西安科技大学为例[J],科技情报开发与经济,2011,21(6):25~27.
[5]王灿荣。信息素养与文献检索课教学内容改革[J],中华医学图书情报杂志,2011,20(7):76~78.
[6]冯立嵩。关于文检课实践教学内容设置的思考[J],科技情报开发与经济,2012,22(9):44~45.
[7]黄江娓。浅析文献检索课教学内容和形式的改革——以景德镇高等专科学校为例 [J],景德镇高专学报,2011,26(4):47~48.
它山之石可以攻玉,以上就是众鼎号为大家整理的8篇《信息检索论文》,能够帮助到您,是众鼎号最开心的事情。