当前位置:首页 >> 互联网 >>

第二章搜索引擎工作原理_图文

第二章

搜索引擎工作原理

第 四 节

第 三 节

第 二 节

第 一 节

搜索引擎发展简史
用发展的眼光看待技术的发展

1

搜索引擎发展简史
1994.6,Lycos:最受欢 迎的全文搜索引擎 2004.2,Yahoo!收购几大搜索公司 后,不再使用Google数据和技术 2009.6,MSN Search 改名为Bing

1994.1,Infoseek:允 许站长提交网址

2001.10,百度搜索引擎上线, 中文搜索进入百度时代

1994.4,Yahoo!:David Filo和杨
致远创立,人工编辑网站目录

2002.3,Google
Adwords推出PPC 点击付费

2010.8,Yahoo!开始采
用Bing搜索数据

2004.11,微软推出 MSN Search,三 足鼎立时代

1996.3,创立Google

1

搜索引擎发展简史

国内搜索引擎发展简史(参考)

1

搜索引擎发展简史
2013-2014全球搜索引擎市场份额走势 市场研究公司Net Applications最新数据

1

搜索引擎发展简史
市场研究公司Net Applications最新数据 数据来源:CNZZ

搜索引擎分类
第 二 节
分类目录

第 一 节

第 四 节

第 三 节

全文搜索引擎 元搜索引擎

2

搜索引擎分类

搜索引擎:由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存
进数据库,进行预处理。用户在搜索框输入关键字后,搜索引擎排序 程序从数据库中挑选出符合搜索关键字要求的页面。其 爬行、页

面的收录和排序 都是自动处理。

2

搜索引擎分类

全文搜索引擎:对网站页面文件的全部内容进
行索引。

2

搜索引擎分类

网站目录:一套人工编辑的分类目录,由编辑
人工创建多个层次的目录,站长可以在不同目录中 提交网站,目录编辑在后台审核所提交的网站,再 放进相应目录中,如:

? 雅虎目录
? 开放目录 ? hao123

2

搜索引擎分类

元搜索引擎:元搜索引擎在接受用户查询请求
的时候,会同时在多个其他搜索引擎上进行搜索, 并将结果进行统筹返回给用户。 ? Dogpile ? Vivisimo

2

搜索引擎分类

全文搜索引擎和分类目录在使用上各有长短



搜索引擎

工作原理简介
第 三 节 第 二 节

第 一 节

第 四 节

3

搜索引擎工作原理简介
搜索引擎 工作过程非常复杂,大体可以分为 3 个阶段:

1 爬行和抓取

2 预处理

3 排名

3.1 搜索引擎工作过程

之 爬行与抓取

爬行与抓取: 搜索引擎蜘蛛通过跟踪链接访问网页,获得网页的 HTML 代码存入数据库。
? 搜索引擎用来爬行和访问页面的程序称为 蜘蛛(Spider),也称为 机器人

(Bot),它访问网页时类似于普通用户使用的浏览器。

robots.txt

HTML代码

原始页面数据库

3.1 搜索引擎工作过程

之 爬行与抓取

爬行策略: 深度优先 vs 广度优先

A A1 A2 A3 B1 B2 C1 D1 D2 D3
? 由于蜘蛛的带宽资源和时间限制,就算最大的搜索引擎也只是爬行和收录了互联网的一小部分

3.1 搜索引擎工作过程

之 爬行与抓取

蜘蛛会尽量抓取重要页面,哪些页面比较重要呢?

网站和页面权重: 质量高、资格老

页面更新度

导入链接: 只要有链接进入页面就能被蜘蛛 发现 与首页的点击距离

3.1 搜索引擎工作过程

之 爬行与抓取

搜索引擎会建立一个地址库,记录以及被发现还没有抓取的,以及已经 被抓取的页面。

地址库中的URL来源于:
1、人工录入的种子网站 2、爬行后从HTML中解析出新的URL,与地址库进行比对 3、站长提交的网址(基本无用)

3.2 搜索引擎工作过程

之 预处理

预处理也也叫做索引 成为最终用户查询排名做好准备 提取文字

后台完成
去停止词

中文分词

去重

消除噪声 正向索引 倒排索引

链接关系计算 特殊文件处理

3.2 搜索引擎工作过程

之 预处理

预处理 之

提取文字

还包括:
? Meta 标签中的文字 ? 图片替代文字 ? Flash的替代文字 ? 链接锚文字

3.2 搜索引擎工作过程

之 预处理

预处理 之 方法”。

中文分词,这一步是中文搜索引擎特有步骤,英文有空格

分隔,而中文没有,搜索引擎必须首先分辨哪些字组词一个词,比如“减肥

中文分词方法
基于词典匹配:将关键字与一个事先造好的词典中的词条进行匹配,
匹配成功,即切分出一个单词

基于统计的分词方法:分析大量文本,计算出字与字相邻出现的统
计概率,相邻出现越多,则越可能构成一个单词。

演示:在百度快照中查看分析的结果

3.2 搜索引擎工作过程

之 预处理

我们能做什么?
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而 不是页面本身,所以SEO人员能做的很少。唯一能做的就是在页面上以某种 方式提示搜索引擎,某几个字应该被当做一个词处理,尤其是容易产生歧 义的时候,比如: “和服”容易和“化妆和服装”相混淆,那么可以特意把“和服”两字标 为黑体。

3.2 搜索引擎工作过程

之 预处理

预处理 之

去停止词,页面中出现频率高,却对内容没什么影响的词:

? 的、地、得 ? 啊、哈、呀 ? 从而、以、却

3.2 搜索引擎工作过程

之 预处理

预处理 之

消除噪声,绝大多数页面上还有一部分内容对页面主题
页头、

也没什么贡献,比如:版权声明、导航条、广告等。例如: ? 大多博客都有的“分类”、“联系我们”这类文字 消除噪声的基本方法是根据HTML页面对页面分块,区分出

导航、正文、页脚、广告
比如:

等区域,消噪后的内容才能用于排名。

<header> <footer> <nav> <section> <article> <aside>等标签。

3.2 搜索引擎工作过程

之 预处理

预处理 之

去重,搜索引擎怎么知道一篇文章有没有出现在其他网站

上,甚至同一个网站上不同网址呢? 基本方法是对页面特征关键字进行指纹计算。通常选取10个特征关键 词就可以达到比较高的计算准确性。 所以,人为地给文章加上“的”“地”“得”之类的词,或者调换段落 顺序等的“伪原创”并不能欺骗搜索引擎。

3.2 搜索引擎工作过程

之 预处理

预处理 之

正向索引,经过以上步骤,就能得到独特的、能反映页

面主题内容的、以词为单位的内容,这时搜索引擎就把页面转换成一个关键 字组成的集合,同时记录关键词在页面上出现频率、次数、格式(标题标签、 黑体、H标签、锚文字等)、位置(正文第一段)。

图:简化的索引词表结构

3.2 搜索引擎工作过程

之 预处理

预处理 之

倒排索引

图:简化的倒排索引结构

3.2 搜索引擎工作过程

之 预处理

预处理 之

链接关系计算,现在主流搜索引擎排名计算中都包

含网页之间的链接流动信息。搜索引擎抓取页面后,要计算出: ? 有哪些链接指向其他页面 ? 每个页面有哪些导入链接 ? 链接使用了什么锚文字

3.2 搜索引擎工作过程

之 预处理

预处理 之

特殊文件处理,现在搜索引擎通常还能抓取和索引

以文字为基础的多种文件类型,如PDF、WORD、PPT、TXT等,但还不能 处理 图片、视频、Flash 这类非文字内容。

3.3 搜索引擎工作过程

之 排名

用户在搜索框输入关键词之后,排名程序调用索引库数据库,计算排名

给用户,与用户进行实时互动。
进入排名过程前,需要对用户搜索词进行一些预处理:

中文分 词

去停止 词

指令处 理

拼写错 误矫正

整合搜 索触发

3.3 搜索引擎工作过程

之 排名

假设用户搜索“关键词2”和“关键词7”:

图:倒排索引快速索引文件

3.3 搜索引擎工作过程

之 排名

找到匹配文件后,还不能进行相关性技术,因为匹配文件可能达到几百上千万, 但是绝大部分用户只会查看搜索结果的前十页,所以搜索引擎也没必要计算那么多页 面的相关性。 重点在于用于计算相关性的初始页面子集的选择,最主要的依据就是页面权重。 相关性计算是排名过程中最主要的一步,也是大家最感兴趣的一步。 影响相关性的主要因素: 影 响 因 关键词常用程度 词频及密度 关键词位置及形式 关键词距离



链接分析及页面权重

3.3 搜索引擎工作过程

之 排名

↘ 相关性计算完后,排名大体决定了,之后会对排名 进行微调,主要是施加惩罚等;

↘ 排名显示原始页面的标题、说明文字等,有时需要
动态生成页面标签摘要的; ↘ 根据长尾理论,20%的搜索词占了搜索次数的80%, 搜索引擎将常见搜索词的排名结构存入缓存; ↘ 搜索引擎会将搜索用户的IP地址、搜索关键词、搜 索时间,以及点击了哪些结果页面记录下来形成

日志,以便今后判断搜索结果质量、调整搜索算法、
预测搜索趋势。

搜索引擎

面临的挑战
第 三 节 第 二 节

第 一 节

第 四 节

4

搜索引擎面临的挑战

? 1、页面抓取需要快而全面
? 2、海量数据存储 ? 3、索引处理快速有效,具有可扩展性

? 4、查询处理快速准确
? 5、判断用户意图及人工智能

【 预习“关键字优化”部分】
继续完成上周网站搭建工作!
第 四 节

第 三 节

第 二 节

第 一 节


相关文章:
第二章 搜索引擎工作原理_图文.ppt
第二章 搜索引擎工作原理_IT/计算机_专业资料。电子商务 第二章 搜索引擎工作原理 章节内容 ? ? ? ? ? 搜索引擎发展历史 搜索引擎分类 搜索引擎工作原理 搜索...
第二章_Web搜索引擎的原理与结构_图文.ppt
第二章_Web搜索引擎原理与结构 - 第2章 Web搜索引擎原理与结构 本章目录 2.1搜索引擎概述 2.2搜索引擎的体系结构 2.3 搜索引擎对信息的抓取与采集 2.4...
第二章搜索引擎工作原理_图文.ppt
第二章搜索引擎工作原理 - 第二章 搜索引擎工作原理 第四节 第三节 第二节 第
第二章进入搜索世界_图文.ppt
第二章进入搜索世界 - IMG 搜索引擎工作原理 importance of I
第二章搜索引擎与OA_图文.pdf
搜索引擎概念 ? 搜索引擎的原理 ? 搜索引擎的类型 ? 第二章 搜索引擎与开放...奇迹电子文库是由一群中国年轻的科学、 教育与技术工作者创办,非赢利性质的网 ...
搜索引擎工作原理简介_图文.doc
搜索引擎工作原理简介_互联网_IT/计算机_专业资料。搜索引擎工作原理简介一、 ...(即一层爬完,再爬第二层,接着第三层,依 此类推) 注:深度优先和广度优先...
2检索原理和搜索引擎_图文.ppt
2检索原理搜索引擎 - 第二章 检索原理搜索引擎 本章内容 一二三四五 网络信息检索原理 搜索引擎原理和概况 网页搜索引擎使用方法 P2P搜索引擎使用方法 搜索...
搜索引擎工作原理_图文.ppt
搜索引擎工作原理 - 3、搜索原理(全文搜索引擎) 第一步:爬行 搜索引擎是通过
搜索引擎的工作原理_图文.ppt
搜索引擎的工作原理_互联网_IT/计算机_专业资料。 ...搜索引擎工作原理 ? 搜索引擎工作原理 第二步:...
第二章2 搜索引擎排名和更新_图文.ppt
第二章2 搜索引擎排名和更新 - 2.1 搜索引擎收录网站原理 探寻蜘蛛和探寻机
搜索引擎_图文.ppt
搜索引擎 - 第二章 搜索引擎及检索技巧 1 1 概况 搜索引擎(Searchi
第二章搜索引擎营销_图文.ppt
第二章搜索引擎营销 - 网络营销 第二章 搜索引擎营销 奥巴马胜选是网络搜索营销
搜索引擎的基本工作原理_图文.ppt
搜索引擎的基本工作原理_互联网_IT/计算机_专业资料。认识搜索引擎 认识搜索引擎...PAGERANK算法第一步:将互联网作为一个有向图,并用邻接 矩阵进行表示; 第二步...
《全文搜索引擎的工作原理》教学设计_图文.doc
二、教材分析本课题《全文搜索引擎工作原理》是教育科学出版社《网络技术应用》模块第一章第三节 第二小节的内容。通过前面内容的学习,学生对搜索引擎以及怎样利用...
搜索引擎工作原理_图文.ppt
SEO基础搜索引擎工作原理 课程目标 ?认识搜索引擎的工作原理 ?记忆搜索引擎的
Alibaba阿里巴巴搜索引擎的工作原理_图文.doc
Alibaba 阿里巴巴搜索引擎工作原理 Alibaba 电子商务搜索引擎工作原理是:根据买家的搜索意图,对站内所 有的产品信息进行识别,并糅合买家行为等因素,对产品信息进行...
第二章2.2因特网信息的查找搜索引擎_图文.ppt
第二章2.2因特网信息的查找搜索引擎 - 复习 信息获取的一般过程 定位信息
搜索引擎的工作原理_图文.ppt
搜索引擎工作原理 ?“给我一个支点,我能撬起地球”。套 用这句话来形容现在在互联网界如日中 天的搜索引擎,那就是“给我一个关键 词,我能找遍整个世界...
02a+网络信息检索课件09版+检索原理和搜索引擎A_图文.ppt
02a+网络信息检索课件09版+检索原理搜索引擎A - 第二章 检索原理搜索引擎 课件制作:张胜光 本章内容 1 3 2 3 4 3 5 3 6 网络信息检索原理 搜索...
搜索引擎工作原理简单模拟.._图文.ppt
搜索引擎工作原理简单模拟.. - 搜索引擎工作原理简单模拟 上海易闻SEO培训班
更多相关标签: