当前位置:首页 >> 其它课程 >>

网络信息检索(课件)


网络信息检索

一、Internet的基本概念
? TCP/IP协议:TCP/IP是由美国国防部高级计划局 资助的Internet技术和方法,也称为传输控制/网 间协议,是一个标准协议集合,专门适用于广域 网(WAN)。 ? WWW: WWW的含义是“环球网”,是超文本 方式的信息查询工具。WWW基于HTTP协议,用 HTML语言将多媒体信息组织成

超文本,并通过 这种方式将全世界Internet上的不同地点的相关信 息有机结合起来。

HTTP超文本传输协议
? HTTP是基于TCP/IP之上的协议,是用于 分布式协作超媒体信息系统的快速实用协 议。它不仅需要保证正确传送超文本文档, 还必须能够确定传送文档中的某一部分, 以及哪部分内容首先显示。

HTML(超文本标识语言)
? 在HTML中,可以嵌入图像、声音等,可通过超 链接无缝引用其他WWW网址资源。用HTML组织 起来的信息文档称为页面,由浏览器进行解释、 执行和显示输出。 ? HOMEPAGE:又称为主页,是WWW服务的起始 信息页。 ? Browser:又称为浏览器,是用来阅读HTML文件 的专用软件系统,可通过FTP、NNTP、Gopher 等许多方式来获取信息。

URL(统一资源定位器)
? URL可以将世界上所有的联机信息资源组织

成有序结构。它的格式有三部分组成:
? 第一部分是协议(或称服务方式),大部分 Internet文档用http,其他常用的协议有ftp、news、 gopher、telnet等; ? 第二部分是存有该资源的主机IP地址; ? 第三部分是主机资源的具体地址。

IP地址和域名
? Internet上的众多计算机和信息资源必须通 过名字和地址来进行识别。接入Internet的 计算机或节点被赋予一个惟一的数字作为地 址,称为IP地址,用小数点隔开的四组数字 组成。IP地址通常由Internet 服务机构从 Internet网络信息中心注册申请(例如:中央 财 经 大 学 图 书 馆 的 IP 地 址 为 202.205.213.101)。IP是网络中的重要资源, 有多少个IP地址就意味着有多少台计算机能 够连入Internet。

由于IP地址由四组数字构成,不易记忆, 所以Internet采用域名系统(DNS),作为表 示Internet上特定主机的助记名称。Internet中 每台计算机的域名结构为:主机名、机构名、 网络名、最高层域名。 域名是由有规律的英文单词组成的,非 常便于记忆,而且还可以根据域名组成的规 律,猜测某一个站点的域名。 常见的标准域名结构为:主机名、机构名 、网络名、最高层域名。在Internet的域名系 统中最高层域名有三种:

第一类为国别域名,由两个英文字母组成,如:“.CN(中国 )”、“.JP(日本)”、“.US(美国)”、“.UK(英国) ”、“.CA(加拿大)”。 第二类为国际域名,现只有一个 “.INT”代表国际组织。 第三类为通用域名,目前用到的有13 个:
.net——网络服务机构;.edu——教育部门; .web——web服务机构;

.arts——文化娱乐部门;.info——信息部门;.rec——娱乐机构;
.org——非赢利机构; .gov——政府部门; .Store——销售部门 .Firm——公司企业; .com.——商业机构 .mil——军事部门;

.nom——个人。

中国的域名注册由国务院信息化工作领导小组办公室授权中国 互联网络信息中心(CNNIC)负责办理。

例如:中央财经大学的网址为http://www.cufe.edu.cn

二、网络信息资源的特点
1、优点:
(1)信息量大,传播广泛 (2)信息层次多,品种多样

(3)自由发布,交流直接
(4)信息传播速度快,变化频繁

(5)检索方便,价廉实惠

2、缺点:
(1) 信息庞杂,分散无序 (2) 质量不一,缺乏管理 (3) 重复建设,缺乏宏观调控 (4) 网络通路不畅

三、搜索引擎
? 网络搜索引擎的历史最早可以追溯到 1991年,尽管搜索引擎发展时间并不长, 但其观念却是深入人心的。 《第22次中国互联网发展状况统计报告》 显示,在中国 2.53亿网民中,搜索引擎的 使用率为 69.2%,达 1.75亿。目前为中国 第五大网络应用技术。从数据中不难看出, 网络搜索引擎所发挥的作用是非常大的。

搜索引擎概述
? 全球搜索引擎使用状况
网络科技的迅猛发展带来了社会信息量的与日 俱增。一方面是人类信息资源前所未有的丰富; 另一方面,海量信息也使获取有效信息成为难点。 搜索引擎可以从各种网络资源中浏览和检索所需 要的信息,随着网络科技和搜索技术的日新月异, 搜索引擎已经成为影响人们生活的重要网络应用 工具,并呈快速发展趋势。

搜索引擎概述
? 截至2010年6月底,搜索引擎在网 民中的使用率为76.3%,用户规模 达到3.2亿人,与2009年6月相比, 年增长8589万人,年增长率36.6%。
——《2010 年中国搜索引擎用户行为研 究报告》

搜索引擎概述
? 全球搜索引擎用户使用搜索品牌 Google全球市场份额为68%,高居榜首。 雅虎第二,市场份额为7%,百度第三,市 场份额为6.5%,微软第四,市场份额为3% ,其它依次为eBay、NHN、Yandex、 Facebook、Ask和阿里巴巴。另:中国是 全球第二大搜索市场,所占份额达到了 10%。

很多搜索引擎网站会从国际网站自动跳转成 国内网址,如google自动跳转成cn
? 全球搜索引擎排名: 1 Google 62% http://www.google.com/ 2 雅虎 12.8% http://www.yahoo.com/ 3 百度 5.2% http://www.baidu.com/ 4 微软 2.9% http://www.bing.com/ 5 NHN 2.4%(韩国搜索引擎) http://www.naver.com/ 6 eBay 2.2% http://www.ebay.com 7 时代华纳 1.6% http://www.timewarner.com/ 8 Ask.com 1.1% http://www.ask.com/ 9 Yandex 0.9%(俄罗斯搜索引擎) http://www.yandex.com/ 10 阿里巴巴 0.8% http://www.alibaba.com/

搜索引擎概述
? 谷歌首选用户使用搜索功能分析

搜索引擎概述
? 百度首选用户使用搜索功能分析

工作原理
? 搜索引擎是互联网上的分布式搜索系统, 它在传统数据库检索技术基础上,增加了 自动收集和更新数据库信息的功能,并采 用人工智能方法对检索结果进行区分和排 序。主要由信息采集器、查询表和检索接 口三大模块组成。

搜索引擎系统的分类
1.全文搜索引擎 通过从互联网上提取各个网站的信息(以网 页文字为主)而建立的数据库,检索器与用户查 询条件匹配的相关记录,并将查询结果返回给用 户。服务方式是面向网页的全文检索服务,是真 正意义上的搜索引擎。该类搜索引擎的优点是信 息量大、更新及时、毋需人工干预,缺点是返回 信息过多,有很多无关信息,用户必须从结果中 进行筛选。

AltaVista http://www.AltaVista.com/
? 是功能全面的搜索引擎,曾经名噪一时,但现在其地位已 被Google取代。即便如此,它仍被认为是功能最完善,搜 索精度较高的全文搜索引擎之一。截止2002年6月, AltaVista宣称其数据库已存有11亿个Web文件,并且经过 升级,其搜索精度已达业界领先水平。 ? AltaVista提供常规搜索、高级搜索和主题搜索,主题包括 图象(Images)、MP3/Audio & Video等。主页显示 LookSmart 的索引目录并提供LookSmart注册。高级搜索 提供用户以日期、语种、布尔逻辑和近似条件搜索。常规 及高级搜索均允许针对Title、URL或特定的域名进行检索。 用户还可以在定制的搜索条件(包括Title、 URL、Host、 Links(如anchor、applet、image和text)等)输入框中 填入文字,以此为条件进行搜索。
21

? 允许以25种不同的语言进行搜索,并提供英、法、 德、意、葡萄牙、西班牙语双向翻译。其他特色 服务包括重大新闻(发生于6小时至14天之间), 新闻组及购物查询。 ? 搜索规则:进行精确匹配查询时可使用“”号, 但多数时候即使不用“”号,AltaVista也默认以 精确匹配方式查询;不支持自动断词查询,但允 许使用通配符“*”。区分字母大小写。当以大写 字母查询时,默认为精确匹配,即查询结果不包 括小写的关键词;而以小写字母查询时,则同时 查找大写和小写。
22

2.目录式搜索引擎
以人工方式或半自动方式搜集信息,由 编辑员查看信息之后,人工形成信息摘要, 并将信息置于事先确定的分类框架中。信 息大多面向网站,提供目录浏览服务和直 接检索服务。该类搜索引擎因为加入了人 的智能,所以信息准确,导航质量高,缺 点是需要人工介入、维护量大、信息量少、 信息更新不及时。严格意义上算不上真正 的搜索引擎。

Dmoz: open directory project:是世界上最大也是 最好的网站分类目录 (http://www.dmozdir.org/)中文网址

主页

3.元搜索引擎
也称集成搜索引擎。是对搜索引擎进行 搜索的搜索引擎。它可以没有自己的资源 库和机器人,仅充当一个中间代理的角色, 接受用户的查询请求,将请求翻译成相应 搜索引擎的查询语法。在向各个搜索引擎 发送查询请求并获得反馈后,进行综合相 关度排序,然后把整理后的查询结果发送 给用户。

http://www.baigoogledu.com/

弥补了用单一搜索引擎寻找到的内容不全面的缺憾。

Dogpile共收集了 26个搜索引擎, 包括WEB检索、 新闻组检索、 FTP检索、新闻 检索、股市检索、 黄页检索、白页 检索、地图检索、 天气检索等。

Google的简要介绍
? Google的创立
Google是由2位斯坦福大学的博士生Larry Page和 Sergey Brin在 1998年创立的。

Larry Page

Sergey Brin

Google的简要介绍
? Google的释义
Google 是由英文单词“googol”变化而来。

? Google的特点
作为目前世界上最大的搜索引擎,Google支持多达132种语言, 包括简体中文和繁体中文; Google提供了最便捷的网上信息查询方法。通过对20多亿网页进 行整理,Google可为世界各地的用户提供适需的搜索结果,而且搜索 时间通常不到半秒,现在每天需要提供1.5亿次查询服务。

? Google不支持“词干法”和“通配符”,但 可使用布尔逻辑检索. ? 逻辑与:用 空格 或 and 或 AND ? 逻辑或:用大写的“OR”表示 ? 逻辑非:用“-”,减号之前须留一个空格

Google(http://www.google.com)
? “手气不错” 自动将您带到Google推荐的 网页。 ? 对大小写不敏感

? 专用词语上加上双引号
? “网页快照”从服务器里直接取出缓存的 网页。 ? 检索结果按“重要性”排序

Google的语法结构
? 使用Google所提供的特殊的语法结构, 能够帮助用户缩小检索范围,更有效地找到 所需要的内容。在一般情况下,Google将整 个网页进行收录和索引,通过专门的语法结 构,可以让用户搜索网页的某些特定部分或 者特定信息。

Google的语法结构
? Filetype:
检索特定类型的文件,即搜索后缀或者文件的扩展名。在我们寻 找特定格式的内容的时候,这项语法是必不可少的。例如,仅搜索关 于经济的pdf文件,结果如下:

Google的语法结构
? Intitle:
将搜索范围限制在网页的标题内。即检索词仅匹配(在网页标题 中)字词出现在检索结果的网页的链接内和打开网页后浏览器的标题 栏内。

Google的语法结构
? Inurl:
将搜索结果限制在URL或者网站页面上,他可以查询网站的子目 录。一般通过这个语法,我们可以查找某些特定的内容页,如帮助页, 也可以查找特定的文件,如音乐或者视频文件。

Google的语法结构
? Intext:
只在网页的正文中检索关键词,即忽略超链接文本、URL以及题 目等。

Google的语法结构
? Inanchor:
在页面的链接锚点进行搜索,即在一个链接的描述文本内进行检 索。

Google的语法结构
? Link:
检索所有链接到某个特定URL的页面列表。例如,搜索所有链向 新浪的链接,其结果如下:

Google的语法结构
? Site:
将检索局限在特定网站或者网域内,即将搜索限制在某个特定站 点或者顶级域名内。

Google的语法结构
? Info:
检索有关特定网页的信息,获得关于该URL更多信息的页面列表, 包括指向该网页的网页快照、类似网页、链接到该URL的所有网页的 列表、该URL相关的页面列表以及含有该URL的页面。例如,搜索关 于新浪的信息,其结果如下:

Google的语法结构
? Daterange:
查找在一定的日期或者一定的日期范围内,Google索引的网页 (该语法只关注被Google收录的时间,而不关注网页创建的时间)

? Related:
检索与某特定网页类似的网页。这在搜寻相关内容或者具有类似 功能的网页的时候,非常有帮助。

百度(http://www.baidu.com)
? “-”减除无关资料

? A | B代表A or B。
? 相关检索:为您提供"其它用户搜索过的相 关搜索词"作参考 ? 百度快照、同一网址的更多结果

? 新闻搜索、MP3搜索、图片搜索、Flash搜 索

百度搜索引擎
? 百度(http://www.baidu.com):百度搜索 引擎是目前最有影响的中文网络信息检索 系统。它的检索词可以是中文、英文、数 字,或中英文数字的混合体。 ? 百度提供逻辑与、或、非检索,多个关键 词之间必须留一个空格,系统默认为逻辑 “与”检索,其他同Google的检索方法。 ? 百度的字段限定检索同Google

? 逻辑与:空格 或 “*” ? 逻辑或:大写的 “+” 或 “ | ” ? 逻辑非:用“-”表示,减号之前须有一空格

Baidu搜索引擎
? 百度是中国互联网用户最常用的搜索引 擎,每天完成上亿次搜索;也是全球最大 的中文搜索引擎,可查询数十亿中文网页。 ? 主要内容 1、搜索内容 2、高级搜索语法 3、常用搜索技巧

搜索内容

高级搜索语法
? 把搜索范围限定在特定站点中——site
有时候,您如果知道某个站点中有自己需要找的东西,就可以把 搜索范围限定在这个站点中,提高查询效率。使用的方式,是在查询 内容的后面,加上“site:站点域名”。

高级搜索语法
? ? ? ? ? 把搜索范围限定在网页标题中——intitle 把搜索范围限定在url链接中——inurl 精确匹配——双引号 去除含有特定关键词的网页——减号 书名号
有两层特殊功能,一是书名号会出现在搜索结果中;二是被书名 号扩起来的内容,不会被拆分。 书名号在某些情况下特别有效果。

Baidu常用搜索技巧
? 选择适当的查询词---准确的表述
百度会严格按照您提交的查询词去搜索,因此,查询词表 述准确是获得良好搜索结果的必要前提。 一类常见的表述不准 确情况是,脑袋里想着一回事,搜索框里输入的是另一回事。 一种不准确的表述就是在查询中出现错别字

? 查询词的主题关联与简练
目前的搜索引擎并不能很好的处理自然语言。因此,在提交 搜索请求时,您最好把自己的想法,提炼成简单的,而且与希 望找到的信息内容主题关联的查询词。还是用实际例子说明。 某三年级小学生,想查一些关于时间的名人名言,他的查询词 是“小学三年级关于时间的名人名言”。最好的查询词,应该 是“时间名言”。

Baidu常用搜索技巧----软件下载
? 日常工作和娱乐需要用到大量的软件,很多 软件属于共享或者自由性质,可以在网上免 费下载到。
1.直接找下载页面 这是最直接的方式。软件名称,加上 “下载”这个特征词,通常可以很快找到下载点。 例:网际快 车 下载 2.在著名的软件下载站找软件 由于网站质量参差不齐,下 载速度也快慢不一。如果我们积累了一些好用的下载站(如天 空网,华军网,电脑之家等),就可以用site语法把搜索范围局 限在这些网站内,以提高搜索效率。 例: 网际快车 site:skycn.com 小提示:一旦搜索范围局限在专业下载站中,“下载”这 个特征词就不必在查询词中出现了。

Baidu常用搜索技巧---找专业报 告
? 很多情况下,我们需要有权威性的,信息 量大的专业报告或者论文。巧妙利用 filetype:这个语法对搜索对象做限制。

网上各类型信息资源查询
? 数字图书馆:中国数字图书馆、书生之家数字图书馆、超 星数字图书馆、北大方正的Apabi系统 。 ? 报刊资料:中国学术期刊网、中文科技期刊数据库、中国 财经报刊数据库。 ? 会议文献:中国科学院学术会公告、学界动态、IEEE学术 会议数据库、万方学术会议文献数据库、中国重要会议论 文集全文数据库、国内专业会议资料数据库、OCLC的会 议文献数据库、美国科学信息研究所( ISI )会议数据库。 ? 学位论文:中国学术期刊网和万方数据资源系统的学位论 文数据库、高校学位论文数据库、PQDD数据库(美国)。 ? 专利文献:中国专利信息网、国家知识产权局、DILAOG 系统、世界知识产权组织专利数据库、美国专利商标局专 利检索数据库。 ? 标准类:中国标准咨询网、万方数据资源系统标准数据库、 国际标准化组织、美国国家标准委员会。


相关文章:
20150429网络信息检索1_信息检索
搜 试试 7 帮助 全部 DOC PPT TXT PDF XLS 百度文库 教育专区 高等教育 教育学20150429网络信息检索1_信息检索_教育学_高等教育_教育专区...
信息检索
信息检索_互联网_IT/计算机_专业资料。工程硕士课件,但是能够帮助很多人怎么去检索网络资源。值得学习。 一 单项选择题试题 1 满分值:5.0 分 状态:已答 相关文献...
网络信息检索
网络信息检索_IT/计算机_专业资料。山西农大 网络信息检索 作业答案事实...6、利用课余时间,从互联网上检索收看一门美国大学开放式课程,视频和 PPT 课件...
信息检索课件总结
信息检索课件总结_教育学_高等教育_教育专区。信息检索 1、信息及其特点、价值 ...网络上或数据库中的信息资源一般都是"熟信息资 源"。当然,信息资源的"生熟"...
网络信息检索论文
网络信息检索论文_互联网_IT/计算机_专业资料。论文题 目: 对 Internet 中教育...许多中小学几乎是全体教师在制作课件,这并不符合信息技术与课程整合的目标与 ...
信息检索
1,搜索引擎:百度 2,表达式:大学生心理健康 教学课件 filetype:PPT 3,百度为您...利用 Lycos(http://www.lycos.com)查找有关 transaction 的网络信息资 源。 ...
信息检索课件word版
信息检索课件word版_社会学_人文社科_专业资料。大 第一章 第二章 第三章 ...中文工具书介绍 计算机信息检索 光盘检索 Internet 网络检索 搜索引擎 网上数据库...
《网络信息检索》作业一(2013上)
报纸文献 《网络信息检索与利用》作业一 2013 年 4 月 3.(C)提供的知识比较...利用搜索引擎查找职业规划方面的演讲课件,检索式是:职业规划 filetype:ppt 3....
信息检索与利用ppt汇总
40种PPT汇总 40页 5财富值如要投诉违规内容,请到百度文库投诉中心;如要提出功能...(七)网络信息检索 网络信息检索是指利用网络检索软件或搜索引擎查询各地在互联网...
更多相关标签:
信息检索课件 | 信息检索ppt课件 | 信息检索与利用课件 | 文献检索课件 | 文献检索ppt课件 | 医学文献检索 课件 | 医学文献检索ppt课件 | 科技文献检索课件 |