信息检索评测实验报告
信息检索课程结业报告
姓学
信息检索与web搜索
应用背景及概念信息检索是指信息按一定的方式组织起来,并根据信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集 也就是我们常说的信息查寻。合中找出所需要的信息的过程, 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆的工具和用户服务项目。随着1946年世界上第一台电子计算机问世,计算机技术逐步走进信息检索领域,并与信息检索理论紧密结合起来;脱机批量情报检索系统、联机实时情报检索系统。
信息检索有广义和狭义的之分。广义的信息检索全称为“信息存储与检索”,是指将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。狭义的信息检索为“信息存储与检索”的后半部分,通常称为“信息查找”或“信息搜索”,是指从信息集合中找出用户所需要的有关信息的过程。狭义的信息检索包括3个方面的含义:了解用户的信息需求、信息检索的技术或方法、满足信息用户
的需求。
搜索引擎(SearchEngine,简称SE)是实现如下功能的一个系统:收集、整理和组织信息并为用户提供查询服务。面向WEB的SE是其中最典型的代表。三大特点:事先下载,事先组织,实时检索。
垂直搜索引擎:垂直搜索引擎为XX年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求,在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
Web 检索的历史:
19 年,伯纳斯·李在日内瓦欧洲离子物理研究所开发计算机远程控制时首次提出了Web概念,并在1990年圣诞节前推出了第一个浏览器。接下来的几年中,他设计出HTTP、URL和HTML的规范,使网络能够为普通大众所应用。
TedNelson在1965年提出了超文本的概念.超文本传输协议(HTTP,HyperTextTransferProtocol)是互联网上应用最为广泛的一种网络传输协议,超文本标注语言。
1993,早期的(来自:写论文网:信息检索评测实验报告 )webrobots(spiders)用于收 集 URL:Wanderer、ALIWEB(Archie-LikeIndexoftheWEB)、
WWWWorm(indexedURL’sandtitlesforregexsearch)。
1994,Stanford 博士生DavidFiloandJerryYang开发手工划分主题层次的雅虎网站。
1994 年初,WebCrawler是互联网上第一个支持搜索文件全部文字的全文搜索引擎,在它之前,用户只能通过URL和摘要搜索,摘要一般来自人工评论或程
序自动取正文的前100个字。
Lycos是搜索引擎史上又一个重要的进步。除了相关性排序外,Lycos还提供了前缀匹配和字符相近,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其它搜索引擎的数据量。
DEC 的AltaVista是一个迟到者,1995年12月才登场亮相.AltaVista是第一个支持自然语言搜索的搜索引擎,AltaVista是第一个实现高级搜索语法的搜索引擎在北京中关村创立了百度公司
XX 年8月发布搜索引擎Beta版。
XX年10月22日正式发布Baidu搜索引擎。Baidu虽然只提供中文搜索,但目前收录中文网页超过9000万,可能是最大的的中文数据库。
Web搜索引擎系统组成:
Web 数据采集系统
网页预处理系统
索引检索系统
检索结果排序系统
Web 检索所在现阶段的挑战:
数据的分布性:文档散落在数以百万计的不同服务器上,没有预先定义的拓扑结构相连。
不稳定的数据高比例:许多文档迅速地添加或删除(deadlinks).大规模:网络数据量的指数增长,由此引发了一系列难以处理的规模问题。无结构和冗余信息:每个HTML页面没有统一的结构,许多网络数据是重复的,将近30%的重复网页.
数据的质量:许多内容没有经过编辑处理,数据可能是错误的,无效的。错误来源有录入错误,语法错误,OCR错误等。
异构数据:多媒体数据(images,video,VRML),语言,字符集等.
Web检索的基本过程:
网页爬行下来
预处理:网页去重,正文提取,分词等
建立索引
接受用户请求,检索词串的处理,查询重构
找到满足要求的列表
根据连接和文本中的词进行排序输出信息采集:
信息采集是指为出版的生产在信息资源方面做准备的
工作,包括对信息的收集和处理。它是选题策划的直接基础和重要依据。信息采集工作最后一个步骤的延伸,成选题策划的开端。信息采集系统:信息采集系统以网络信息挖掘引擎为基础构建而成,它可以在最短的时间内,帮您把最新的信息从不同的Internet站点上采集下来,并在进行分类和统一格式后,第一时间之内把信息及时发布到自己的站点上去。从而提高信息及时性和节省或减少工作量。网络爬虫,是一种自动获取网页内容的程序,是搜索引擎的重要组成部分,因此搜索引擎优化很大程度上就是针对爬虫而做出的优化。
倒排索引:
倒排索引源于实际应用中需要根据属性的值来查找记录。这种索引表中的每一项都包括一个属性值和具有该属性值的各记录的地址。由于不是由记录来确定属性值,而是由属性值来确定记录的位置,因而称为倒排索引(invertedindex)。带有倒排索引的文件我们称为倒排索引文件,简称倒排文件(invertedfile)。
倒排文件,索引对象是文档或者文档集合中的单词等,用来存储这些单词在一个文档或者一组文档中的存储位置,是对文档或者文档集合的一种最常用的索引机制。
建立倒排索引目的:
对文档或文档集合建立索引,以加快检索速度倒排文档是一种最常用的索引机制
倒排文档的索引对象是文档或文档集合中的单词等。例如,有些书往往在最后提供的索引,就可以看成是一种倒排索引
倒排索引的组成:
倒排文档一般由两部分组成:词汇表和记录表词汇表是文本或文本集合中所包含的所有不同单词的集合。
对于词汇表中的每一个单词,其在文本中出现的位置或者其出现的文本编号构成一个列表,所有这些列表的集合就称为记录表。
相关工具
1ltp-Java 版分词工具
文件
_,_:分词工具所需要的动态链接库,放在java工程的根目录下。
:jar文件。
resource:分词所需要的资源,需放在放在java工程的根目录下。
使用方法
下面将列出在实验过程中可能使用到的类:
1)
将中文文本按照有分割意义的标点符号(如句号)分开,以句子的序列方式返回。输入为中文文本,输出为中文句子
的序列。例如:
SplitSentencessentenceSplit=newSplitSentences();Listsentences=(text);
sentences 是对text分句之后的句子集合。
2)
分词以及词性标注,使用方法如下:
irlas=newIRLAS();
();//调用分词方法前必须先加载资源
Vectorwords=newVector();//用来存储分词结果
VectorposTags=newVector();//用来存储词性标注结果,标点符号的词性是“wp”。
(sentence,words,posTags);//调用分词以及词性标注方法
使用该文件可以将文件里的文本自动变成一个一个关键词,并且统计出此关键词出自哪个文档,建立哈希表进行存储,再存储在txt文件中。
2DownloadURL 类
类封装在nlptools中,包含一些常见的web操作,如下载网页、判断编码格式等。
请特别注意:Google的检索结果在本程序发送的FF的head的情况下,没有编码信息。所以在爬Google的检索结
果的时候请务必手动指定使用UTF-8编码。
学生姓名:
学号:
所在系部:
专业班级:
指导教师:
日期:《信息存储与检索》实验报告刘卓Y13管理系11gb
信管1班李艳二○一四年十一月
实验1认识搜索引擎
1.学时:2
2.能力目标:
了解各类型搜索引擎,掌握搜索引擎的使用方法,能借
助搜索引擎查找所需信息。
3.实训内容
熟悉常用搜索引擎的检索方法和检索功能;比较利用不
同搜索引擎搜索相关信息的结果。
4..实训主题:
(1)请分别用“网页”、“新闻”、“贴吧”、“知道”、“MP3”、
“图片”搜索信息,并列举出百度还有哪些信息搜索方式。
分别利用百度“网页”、“新闻”、“贴吧”、“知道”、
“MP3”、“图片”搜索关键字“湖北工业大学”,结果如下:
知道搜索结果:
贴吧搜索结果:
网页搜索结果:
百度的其他信息搜索方式还有:百度学术,百度舆情,百度乐彩,百度地图,百度视频,百度指数,百度财富,百度翻译等等。具体可参见:/more/。
《信息存储于检索》
实验报告册
XX–XX 学年第1学期
班级:T1153-9
学号:XX
姓名:罗昕
授课教师:吴晓辉实验教师:
实验学时:实验组号:
经济管理学院XX-12-15
信息工程实验室实验报告册
目录
实验一网络信息、各类信息资源检索实验二国内、国外计算机存取系统检索 实验三专利信息资源和事项检索
实验四信息检索综合应用
实验五综述
信息工程实验室
实验报告册实验一网络信息、各类信息资源检索
一、搜索引擎---360
1.关键词搜索:搜索框输入“计算机技术”,返回排在最前面的是推广
链接,后面全部是关于计算机的培训和百科,截图如下 2.对搜索内容的网站:中国学校site:可以 搜索到新浪网上的内容
3.搜索所有链接到某个URL地址的网页:在搜索框内输入
“link:”,可以看到有“河北省地方税务局”,点击进去可以在友情链接上看到有百度的链接,
4.文献搜索:可以在输入框内输入“**.doc或者**.pdf”形式,来搜需
要文献,比如搜索“计算机技术.doc”
,返回结果全是word格式的文档,
二、网易新闻搜索
点击新闻标题,输入“计算机技术”关键词,可以看到有搜索全文和搜索标题的选项,还有按时间或者相关性排序, 三、图书
1.步骤一:登陆“湖北汽车工业学院图书馆书目检索系统”
2.步骤二:选择“简单检索”,输入“计算机技术”,选
择所有书刊,检
索类型为题名,结果如下:
3.步骤三:选择“多字段检索”,输入计算机网络,作者谢希仁,电子
工业出版社,检索结果如下:
四、期刊
1.步骤一:登陆“湖北汽车工业学院图书馆中国知网”,选择“高级搜
索”,
2.步骤二:输入主题为“数据挖掘技术”,不含“算法”,词频为2,发表时间为
XX-XX,文献来源中科院,模糊,作者单位为清华大学,结果如下:由于搜索过于苛刻,没有结果,
五、科技报告
1.步骤一:登陆到“国家科技图书文献中心--/retype/zoom/bab3d4220b4e767f5bcfce36?pn=4&x=0&y=130&raww=6&rawh=144&o=png_6_0_0_148_358_623_82__&type=pic&aimh=&md5sum=14a156ed18c70b8ab15a2abd6&sign=dd&zoom=&png=55316-73136&jpg=0-0"target="_blank">点此查看
1.步骤一:进入“万方数据库--http://”,输入“数 据挖掘”,可以检索到如下结果:
七、标准文献
1.步骤一:进入“中国知网”,选择“标准”,输入“电子商务”,可以
检索到如下结果:
八、实验心得与体会
本次实验旨在让学生对基本的常规搜索引擎搜索,即Google、百度、360等,和文献搜索引擎如文库、中国知识网、万方数据库、图书馆查询系统等有初步认识、学会基本操作,在检索时我们发现,关键词越多、越精准搜索到的结果往往越少、与期望越接近,我们平时使用的都是搜索引擎最基本的的功能事实上搜索引擎不只有基本搜索功能,他还有高级筛选搜索和条件输入搜索,通过这些可以让我们更精准的找到我们想要的信息和文献。
Copyright © 2019- uude.cn 版权所有
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务