当前位置:首页 >> 幼儿读物 >>

02a+网络信息检索课件09版+检索原理和搜索引擎A


第二章 检索原理和
搜索引擎
课件制作:张胜光

本章内容
1 3
2 3 4 3 5 3 6

网络信息检索原理

搜索引擎原理和概况
网页搜索引擎简介 网页搜索引擎使用方法 P2P搜索引擎使用方法
门户网站和看不见的网站
网络信息检索第2章 张

胜光制作 3

第一节
信息检索原理: 关键词匹配原则

1、从“图灵实验”说起
大家都知道,计算机发展史上有一个 重要人物图灵,他在上世纪50年代曾经提 出了一个假想的实验,认为计算机可以具 有人类的思维能力,被称为“图灵实验”。 他并且预言,在20世纪末,具有人工智能 的计算机将会出现。但时至今日,仍未有 任何一台计算机能通过“图灵实验”。
网络信息检索第2章 张胜光制作 5

2、计算机检索的奥妙:关键词匹配
计算机既然如此“无能”,连三岁小孩的智能 都不具有,那么为什么人们要在网上查找信息, 却总要通过计算机帮忙呢?计算机检索的奥妙在

哪里呢?
原来,计算机实现检索的奥妙,就在于它能把

你输入的检索词,与它后台数据库中存储的文件
关键词进行比对,如果能够匹配,就认为这条信

息是你需要的,立刻输出给你。
网络信息检索第2章 张胜光制作 6

3、什么是信息检索?
广义的信息检索:是指将信息 按一定的方式组织和存储起来, 并根据用户的需要找出相关信 息的过程。 狭义的信息检索: 一个匹配( Match)过程 即用户使用检索语言对自己的信息需 求予以描述,并在一定的信息资源系统 中进行描述匹配的过程。
网络信息检索第2章 张胜光制作 7

“爱因斯坦论文”

原始文献
检 索 加工整理 提 问

数据库 存 储
“爱因斯坦” “论文”
网络信息检索第2章 张胜光制作

检 索
输 出
“爱因斯坦” “论文”
8

4、信息检索原理
信 息 源 信息 的选 择与 收集 信息 特征

数据库

用 户

信 息 需 求

检索 提问

标 识 语 言

检索工具

检 索 结 果

匹配
检索 提问式

网络信息检索第2章 张胜光制作

9

5、信息检索的要领

What? Where? How?
网络信息检索第2章 张胜光制作 10

6、信息检索类型
? 依信息存储和检索的方式 手工检索(Manual Retrieval)

也叫传统信息检索,是利用各种印刷型检索工具来查
找文献的一种方法。

计算机检索(Camputer-based Retrieval)
也叫现代信息检索,是指利用计算机和网络来处理和

查找文献信息的检索方式。

网络信息检索第2章 张胜光制作

11

7、主要计算机检索系统类型
检索系统由一定的检索设备(计算机)和经过加

工整理并存储在相应载体上的信息集合及其他设备 共同构成的具有存储和检索功能的信息服务系统。
?联机检索(online search) ?脱机检索(offline search) ?光盘检索(CD search) ?网络检索(Internet/Web search) ?全球数字图书馆系统(digital global system)
网络信息检索第2章 张胜光制作

12

8、“关键词原则”是信息检索的根本原则

四次文献

三大系列中文网站

两类搜索引擎

Keyword原则
网络信息检索第2章 张胜光制作 13

第二节
搜索引擎的原理 和发展概况

1、网络信息资源种类
1. WWW信息资源:web网页 2. FTP信息资源:远程计算机上的文件夹 3. Blog信息资源:博客、播客等等信息资源 4. Telenet信息资源:直接调用远程主机 5. BBS 、新闻组信息资源:相当于论坛信息 6. P2P信息资源:私人计算机上的信息资源

7. 数据库和收费网站:如三大库三大馆
网络信息检索第2章 张胜光制作 15

2、网络信息资源的特点
?信息量大、传播广泛 ?信息类型多样、内容丰富 ?信息时效性强、变化频繁 ?信息分散无序、但关联程度高 ?信息缺乏管理、良莠不齐 所以在网络信息检索中,我们常常要借

助于搜索引擎来帮助我们“大海里捞针”。
网络信息检索第2章 张胜光制作 16

3、搜索引擎的概念

网络信息检索第2章 张胜光制作

17

4、搜索引擎的发展历史

网络信息检索第2章 张胜光制作

18

搜索引擎发展历史
Gopher 1993 Archie 1990

第三代搜索 网页搜索

Yahoo! 1994

元搜索 引擎 1995

Google 1996 Baidu 1999 ……

第二代搜索 目录搜索
网络信息检索第2章 张胜光制作 19

搜索引擎的起源——Archie
所有搜索引擎的祖先,是1990年由蒙特利尔的

McGill University三名学生发明的Archie(Archie
FAQ)。Alan Emtage等想到了开发一个可以用文件 名查找文件的系统,于是便有了Archie。Archie是 第一个自动索引互联网上匿名FTP网站文件的程序, 但它还不是真正的搜索引擎。Archie是一个可搜索 的FTP文件名列表,用户必须输入精确的文件名搜 索,然后Archie会告诉用户哪一个FTP地址可以下

载该文件。
网络信息检索第2章 张胜光制作 20

早期的另一个搜索工具Gopher
由于Archie深受欢迎,受其启发, Nevada System Computing Services大学 于1993年开发了一个Gopher(Gopher FAQ) 搜索工具Veronica(Veronica FAQ)。 Jughead是后来另一个Gopher搜索工具。 现在这个工具主要用在国外大型图书 馆的信息检索上。

网络信息检索第2章 张胜光制作

21

第二代搜索:目录式搜索 Yahoo!
1994年4月,斯坦福大学的两名博士生,美籍 华人杨致远和David Filo共同创办了Yahoo)。随 着访问量和收录链接数的增长,Yahoo目录开始支 持简单的数据库搜索。因为Yahoo!的数据是手工输 入的,所以不能真正被归为搜索引擎,事实上只是 一个可搜索的目录。Yahoo!中收录的网站,因为都

附有简介信息,所以搜索效率明显提高。Yahoo!--几乎成为20世纪90年代的因特网的代名词。
网络信息检索第2章 张胜光制作

22

好听不好用的元搜索引擎
1995年,一种新的搜索引擎形式出现了——元 搜索引擎(Meta Search Engine)。用户只需提交 一次搜索请求,由元搜索引擎负责转换处理后提交 给多个预先选定的独立搜索引擎,并将从各独立搜 索引擎返回的所有查询结果,集中起来处理后再返 回给用户。 第一个元搜索引擎,是Washington大学硕士生 Eric Selberg 和 Oren Etzioni 的 Metacrawler。 元搜索引擎概念上好听,但搜索效果始终不理想, 所以没有哪个元搜索引擎有过强势地位。
网络信息检索第2章 张胜光制作 23

第三代搜索:网页搜索

它们都属于网页自动搜索 引擎,有的还带有智能分 析或FTP、P2P搜索功能
网络信息检索第2章 张胜光制作 24

5、搜索引擎的工作原理

网络信息检索第2章 张胜光制作

25

网络信息检索第2章 张胜光制作

26

搜索引擎并不真正搜索互联网,它搜索的实 际上是预先整理好的网页索引数据库。 搜索引擎至少由三部分组成: ? ? ? 爬行器(即机器人、蜘蛛等搜索程序) 索引生成器(即网页索引数据库) 查询检索器(即用户检索界面)

随着搜索引擎的发展,许多搜索引擎在此基 础上增加特色功能。如百度增加了监控程序。
网络信息检索第2章 张胜光制作

27

搜索引擎的工作原理就像超市
因 特 网

爬行器 (蜘蛛)

索引生成器 (网页数据库)
网络信息检索第2章 张胜光制作

查询检索器 (用户查询)
28

第一步:从互联网上抓取网页
利用能够从互联网上自

动收集网页的Spider系统程序,
自动访问互联网,并沿着任何

因 特 网

网页中的所有URL爬到其它网
页,重复这过程,并把爬过的

所有网页收集回来。

网络信息检索第2章 张胜光制作

29

第二步:建立索引数据库
由分析索引系统程序对收集回来的网页进 行分析,提取相关网页信息(包括网页所在 URL、编码类型、页面内容包含的关键词、关 键词位置、生成时间、大小、与其它网页的链 接关系等),根据一定的相关度算法进行大量 复杂计算,得到每一个网页针对页面内容中及 超链中每一个关键词的相关度(或重 要性),然后用这些相关信息建立网 页索引数据库。
网络信息检索第2章 张胜光制作 30

搜索引擎的Spider一般要定期重新访问所有

网页(各搜索引擎的周期不同,可能是几天、几
周或几月,也可能对不同重要性的网页有不同的 更新频率),更新网页索引数据库,以反映出网 页内容的更新情况,增加新的网页信息,去除死 链接,并根据网页内容和链接关系的变化重新排 序。这样,网页的具体内容和变化情况就会反映 到用户查询的结果中。
网络信息检索第2章 张胜光制作 31

第三步:检索界面的建立
当用户输入关键词搜索后,由搜索系统程序 从网页索引数据库中找到符合该关键词的所有相 关网页。因为所有相关网页针对该关键词的相关

度早已算好,所以只需按照现成的相关度数值排
序,相关度越高,排名越靠前。

最后,由页面生成系统将搜索结果的链接地
址和页面内容摘要等内容组织起来返回给用户。

网络信息检索第2章 张胜光制作

32

每个搜索引擎都必须向用户提供一个良好 的信息查询界面,一般包括分类目录及关键词 两种信息查询途径。

网络信息检索第2章 张胜光制作

33

网络信息检索第2章 张胜光制作

34

网络信息检索第2章 张胜光制作

35

第三节
两类搜索引擎及 网页搜索引擎

两类搜索引擎的代表
1
2

以网页搜 索为主的 搜索引擎

以FTP和 P2P资源搜 索为主的搜 索引擎

百度、 Google、 Yahoo等

迅雷、天网 Maze等
37

网络信息检索第2章 张胜光制作

第一类搜索引擎:
网页搜索引擎 以谷歌和百度为代表
网络信息检索第2章 张胜光制作

38

1、Google搜索引擎
Google搜索引擎诞生于斯坦福大学的一个学 生宿舍里,然后迅速传播到全球的信息搜索者。 Google 目前被公认为万维网上最大的搜索 引擎,它提供了简单易用的免费服务,使用户能 够访问一个包含超过 80 亿个网址的索引。 “Google”来自于数学名词“Googol”, Googol表示一个 1 后面跟着 100 个零。Google Int.使用这一术语体现了公司整合网上海量信息 的远大目标。地址: http://www.google.com/
网络信息检索第2章 张胜光制作 39

Google 简介:
Larry Page,创始人之一,主管产品

的总裁。密西根安娜堡大学的荣誉毕
业生,拥有理工科学士学位。他还因

其出色的领导才能获得过多项荣誉,以奖励他对工学院
的贡献。他曾担任密西根大学 Eta Kappa Nu 荣誉学会 的会长。目前他暂时从斯坦福大学计算机研究所博士班 休学,其指导教授是 Terry Winograd 博士。Google 就是由Page在斯坦福大学发起的研究项目转变而来的。
网络信息检索第2章 张胜光制作 40

Google 简介:
Sergey Brin,创始人之一,主管技术的总裁。出 生于莫斯科,是马里兰大学校本部的荣誉毕业生, 拥有数学专业和计算机专业的理学士学位。已取

得斯坦福大学计算机专业硕士学位,目前暂时从
博士班休学。29 岁的 Sergey 是美国国家科学 基金会的奖学金得主。他在斯坦福 遇到了 Larry Page 并参与了后来成为 Google 的研究项目。他们于1998年

共同创立了 Google。
网络信息检索第2章 张胜光制作 41

注意用“ ”与*功能

网络信息检索第2章 张胜光制作

42

网络信息检索第2章 张胜光制作

43

谷歌其他功能
网络信息检索第2章 张胜光制作 44

2、百度(baidu)
全球最大中文搜索引擎。提供网页快 照、网页预览/预览全部网页、相关搜索词、 错别字纠正提示、新闻搜索、Flash搜索、 信息快递搜索、百度搜霸、搜索援助中心。 地址: http://www.baidu.com/

网络信息检索第2章 张胜光制作

45

http://www.baidu.com

网络信息检索第2章 张胜光制作

46

一、概况

百度(Baidu.com,Inc)于1999年底
成立于美国硅谷,2000年,落户中国。

李彦宏

2001年8月,发布Baidu.com搜索引擎Beta版,
从后台服务转向独立提供搜索服务,并且在中国首

创了竞价排名商业模式。
2001年10月22日正式发布Baidu搜索引擎。 2005年8月5日,百度在美国纳斯达克上市。
网络信息检索第2章 张胜光制作 47

“百度”二字取自辛弃疾的《青玉案》

“众里寻她千百度” 。
现在百度已成为世界上最大的中文搜

索引擎。用户能够访问超过6亿的中文网页,
5000多万张图片、500多万首中文mp3及各

种格式的音乐。

网络信息检索第2章 张胜光制作

48

网络信息检索第2章 张胜光制作

49

根据搜索引擎使用个数经加权调整后的 市场份额——北京
搜狐 4.3% *雅虎搜索 6.1% 新浪 3.7% 其他搜索引擎 3.5%

百度 60.0%

*Google 22.4%

网络信息检索第2章 张胜光制作 ?

北京正望咨询有限公司 50

百度 VS Google

网络信息检索第2章 张胜光制作

51

重要提示
目标信息一定含有的关键字:用双引号连起来 目标信息不能含有的关键字:用“ - ”去掉 目标信息可能含有的关键字:用“OR”或空格连起 来

网络信息检索第2章 张胜光制作

52

关于搜索的一些思想

不是互联网上所有的信息都能被搜索引擎搜集。 动手前多动脑。

不要盲目信任搜索得到的信息。
不要期望一次搜索解决问题。

网络信息检索第2章 张胜光制作

53

附加资料
Baidu帮助中心 Google帮助中心 搜索引擎列表 Google Tutorial

中文搜索引擎指南网

网络信息检索第2章 张胜光制作

54

文献检索课程作业3 下载PPT模板
Powerpoint是目前应用最广泛的多媒体制 作工具。如果能找到一套适合自己需要的 漂亮的PPT模板,则制作各类演示课件就会 事半功倍。 本作业要求你从网上找到至少三套适合

做课堂教学和毕业论文汇报将沿用的PPT模
版,要求每套模版至少要有30张以上的不

同版面设计幻灯片,如本幻灯片所示。
网络信息检索第2章 张胜光制作 55

作业提示
请使用各种搜索引擎,输入合适的检索词后寻找, 将你认为满意的模版发送到局域网服务器上。

网络信息检索第2章 张胜光制作

56

文献检索课程作业4 寻找蒙娜丽莎
1、请在网上寻找如下图

所示世界名画《蒙娜丽莎》
的指定图片和介绍她被偷的 文章。注意,如不是指定图 片则此题不给分! 提示:可试用以下检索词:

Mona Lisa

Louvre museum

stolen 蒙娜丽莎 500岁 蒙 娜丽莎被偷 卢浮宫
网络信息检索第2章 张胜光制作

57

2、请在网上寻找卢浮宫 三件“镇馆之宝”的另外 两件--维纳斯和胜利女

神的雕像图片,把有关图
片下载到你的作业文件夹

中,作业文件名必须是图
片的主题,否则不给分。

网络信息检索第2章 张胜光制作

58

【操作步骤提示】
1、打开IE浏览器,在地址栏中输入 百度或Google 搜索引擎的网址 2、在搜索引擎对话框中反复输入不同的检索词,搜 索给定的目标文献网页。 3、点击IE浏览器文件菜单上的“另存为…”命令, 将该页面下载到你的作业文件夹中保存。 4、此作业全部完成后,将作业文件夹中保存的全部 文件,通过局域网作业提交系统,传输到实验室 服务器中,作为评分依据。
网络信息检索第2章 张胜光制作 59


相关文章:
文献检索试题及答案
词>标题 2、关于索引型搜索引擎的采集索引机制,错误的说法是:【 B 】 A....信息之间的关联以超链接的方式组织 2、网络信息检索工具的评价与比较指标有哪些?...
信息检索作业
(1)熟悉各种搜索引擎的整体结构;学会利用关键词检索相应的网页、文本、PPT 等;...A3374489-A485-4C23-B7B8-91A751B5 02A8.html 6、搜索网络营销”的相关...
信息检索上机作业
四川师范大学信息检索课实验题目 1、举例说明搜索引擎...无法完美的做出来, 于是准备在互联网上下载一个课件...《Read– A Wearable Haptic System for ...
文献检索考试题库
(2) 119 "使用百度搜索引擎查找某一课题,希望在同一网页中 只出现 A 词而...不良信息 142 在 google 或百度中, 要检索高等数学方面的课件, 应使用的检索...
信息检索上机作业2014190143
四川师范大学信息检索课实验题目 1、举例说明搜索引擎...2009%20site%3Aedu.cn&rsv_pq=9785 780600003a52...《经济学原理》下载地址: http://www.vipcn.com/...
网络信息检索结课作业
搜 试试 7 帮助 全部 DOC PPT TXT PDF XLS ...答:不能 7、元搜索引擎是将用户的检索提问同时送达...(CNKI 数据库镜像): CNKI A.为保证查全率,使用“...
文献检索作业
搜 试试 帮助 全部 DOC PPT TXT PDF XLS ...谷歌搜索引擎检索检索步骤与结果 A.篇名=分布式...【摘要】随着信息技术的飞速发展,基于网络的 Web ...
网络信息检索与利用实习题及答案
(按步骤写出主题分析,所查搜索引擎,关键词, 表达式以及简要答案) 1 2009 年...A、胰岛素 B、肾上腺素 C、电解质 20 用“39 健康”医学搜索引擎检索冠心病...
信息检索上机作业
信息检索上机作业_互联网_IT/计算机_专业资料。信息...; 杰里 .韦安特等 10.《公司理财》斯蒂芬 A. 罗斯...搜索引擎,免费电子版书: 1. http://book.knowsky...
信息检索答案
通常称为搜索引擎,常用的搜索引擎有很多,下列哪个 ...信息检索中的检索词可分为四类,下列哪一项不属于...()D A.电子版 B.网络版 C.光盘版 D.印刷版 ...
更多相关标签:
全文检索引擎solr原理 | 全文检索引擎 | php全文检索引擎 | 检索引擎 | 搜索引擎检索 | 搜索引擎信息检索实践 | 搜索引擎的检索方式 | 搜索引擎检索方法 |