当前位置:首页 >> 互联网 >>

第二章搜索引擎工作原理_图文


第二章

搜索引擎工作原理

第 四 节

第 三 节

第 二 节

第 一 节

搜索引擎发展简史
用发展的眼光看待技术的发展

1

搜索引擎发展简史
1994.6,Lycos:最受欢 迎的全文搜索引擎 2004.2,Yahoo!收购几大搜索公司 后,不再使用Google数据和技术 2009.6,MSN Search 改名为Bing

1994.1,Infoseek:允 许站长提交网址

2001.10,百度搜索引擎上线, 中文搜索进入百度时代

1994.4,Yahoo!:David Filo和杨
致远创立,人工编辑网站目录

2002.3,Google
Adwords推出PPC 点击付费

2010.8,Yahoo!开始采
用Bing搜索数据

2004.11,微软推出 MSN Search,三 足鼎立时代

1996.3,创立Google

1

搜索引擎发展简史

国内搜索引擎发展简史(参考)

1

搜索引擎发展简史
2013-2014全球搜索引擎市场份额走势 市场研究公司Net Applications最新数据

1

搜索引擎发展简史
市场研究公司Net Applications最新数据 数据来源:CNZZ

搜索引擎分类
第 二 节
分类目录

第 一 节

第 四 节

第 三 节

全文搜索引擎 元搜索引擎

2

搜索引擎分类

搜索引擎:由蜘蛛程序沿着链接爬行和抓取网上的大量页面,存
进数据库,进行预处理。用户在搜索框输入关键字后,搜索引擎排序 程序从数据库中挑选出符合搜索关键字要求的页面。其 爬行、页

面的收录和排序 都是自动处理。

2

搜索引擎分类

全文搜索引擎:对网站页面文件的全部内容进
行索引。

2

搜索引擎分类

网站目录:一套人工编辑的分类目录,由编辑
人工创建多个层次的目录,站长可以在不同目录中 提交网站,目录编辑在后台审核所提交的网站,再 放进相应目录中,如:

? 雅虎目录
? 开放目录 ? hao123

2

搜索引擎分类

元搜索引擎:元搜索引擎在接受用户查询请求
的时候,会同时在多个其他搜索引擎上进行搜索, 并将结果进行统筹返回给用户。 ? Dogpile ? Vivisimo

2

搜索引擎分类

全文搜索引擎和分类目录在使用上各有长短



搜索引擎

工作原理简介
第 三 节 第 二 节

第 一 节

第 四 节

3

搜索引擎工作原理简介
搜索引擎 工作过程非常复杂,大体可以分为 3 个阶段:

1 爬行和抓取

2 预处理

3 排名

3.1 搜索引擎工作过程

之 爬行与抓取

爬行与抓取: 搜索引擎蜘蛛通过跟踪链接访问网页,获得网页的 HTML 代码存入数据库。
? 搜索引擎用来爬行和访问页面的程序称为 蜘蛛(Spider),也称为 机器人

(Bot),它访问网页时类似于普通用户使用的浏览器。

robots.txt

HTML代码

原始页面数据库

3.1 搜索引擎工作过程

之 爬行与抓取

爬行策略: 深度优先 vs 广度优先

A A1 A2 A3 B1 B2 C1 D1 D2 D3
? 由于蜘蛛的带宽资源和时间限制,就算最大的搜索引擎也只是爬行和收录了互联网的一小部分

3.1 搜索引擎工作过程

之 爬行与抓取

蜘蛛会尽量抓取重要页面,哪些页面比较重要呢?

网站和页面权重: 质量高、资格老

页面更新度

导入链接: 只要有链接进入页面就能被蜘蛛 发现 与首页的点击距离

3.1 搜索引擎工作过程

之 爬行与抓取

搜索引擎会建立一个地址库,记录以及被发现还没有抓取的,以及已经 被抓取的页面。

地址库中的URL来源于:
1、人工录入的种子网站 2、爬行后从HTML中解析出新的URL,与地址库进行比对 3、站长提交的网址(基本无用)

3.2 搜索引擎工作过程

之 预处理

预处理也也叫做索引 成为最终用户查询排名做好准备 提取文字

后台完成
去停止词

中文分词

去重

消除噪声 正向索引 倒排索引

链接关系计算 特殊文件处理

3.2 搜索引擎工作过程

之 预处理

预处理 之

提取文字

还包括:
? Meta 标签中的文字 ? 图片替代文字 ? Flash的替代文字 ? 链接锚文字

3.2 搜索引擎工作过程

之 预处理

预处理 之 方法”。

中文分词,这一步是中文搜索引擎特有步骤,英文有空格

分隔,而中文没有,搜索引擎必须首先分辨哪些字组词一个词,比如“减肥

中文分词方法
基于词典匹配:将关键字与一个事先造好的词典中的词条进行匹配,
匹配成功,即切分出一个单词

基于统计的分词方法:分析大量文本,计算出字与字相邻出现的统
计概率,相邻出现越多,则越可能构成一个单词。

演示:在百度快照中查看分析的结果

3.2 搜索引擎工作过程

之 预处理

我们能做什么?
搜索引擎对页面的分词取决于词库的规模、准确性和分词算法的好坏,而 不是页面本身,所以SEO人员能做的很少。唯一能做的就是在页面上以某种 方式提示搜索引擎,某几个字应该被当做一个词处理,尤其是容易产生歧 义的时候,比如: “和服”容易和“化妆和服装”相混淆,那么可以特意把“和服”两字标 为黑体。

3.2 搜索引擎工作过程

之 预处理

预处理 之

去停止词,页面中出现频率高,却对内容没什么影响的词:

? 的、地、得 ? 啊、哈、呀 ? 从而、以、却

3.2 搜索引擎工作过程

之 预处理

预处理 之

消除噪声,绝大多数页面上还有一部分内容对页面主题
页头、

也没什么贡献,比如:版权声明、导航条、广告等。例如: ? 大多博客都有的“分类”、“联系我们”这类文字 消除噪声的基本方法是根据HTML页面对页面分块,区分出

导航、正文、页脚、广告
比如:

等区域,消噪后的内容才能用于排名。

<header> <footer> <nav> <section> <article> <aside>等标签。

3.2 搜索引擎工作过程

之 预处理

预处理 之

去重,搜索引擎怎么知道一篇文章有没有出现在其他网站

上,甚至同一个网站上不同网址呢? 基本方法是对页面特征关键字进行指纹计算。通常选取10个特征关键 词就可以达到比较高的计算准确性。 所以,人为地给文章加上“的”“地”“得”之类的词,或者调换段落 顺序等的“伪原创”并不能欺骗搜索引擎。

3.2 搜索引擎工作过程

之 预处理

预处理 之

正向索引,经过以上步骤,就能得到独特的、能反映页

面主题内容的、以词为单位的内容,这时搜索引擎就把页面转换成一个关键 字组成的集合,同时记录关键词在页面上出现频率、次数、格式(标题标签、 黑体、H标签、锚文字等)、位置(正文第一段)。

图:简化的索引词表结构

3.2 搜索引擎工作过程

之 预处理

预处理 之

倒排索引

图:简化的倒排索引结构

3.2 搜索引擎工作过程

之 预处理

预处理 之

链接关系计算,现在主流搜索引擎排名计算中都包

含网页之间的链接流动信息。搜索引擎抓取页面后,要计算出: ? 有哪些链接指向其他页面 ? 每个页面有哪些导入链接 ? 链接使用了什么锚文字

3.2 搜索引擎工作过程

之 预处理

预处理 之

特殊文件处理,现在搜索引擎通常还能抓取和索引

以文字为基础的多种文件类型,如PDF、WORD、PPT、TXT等,但还不能 处理 图片、视频、Flash 这类非文字内容。

3.3 搜索引擎工作过程

之 排名

用户在搜索框输入关键词之后,排名程序调用索引库数据库,计算排名

给用户,与用户进行实时互动。
进入排名过程前,需要对用户搜索词进行一些预处理:

中文分 词

去停止 词

指令处 理

拼写错 误矫正

整合搜 索触发

3.3 搜索引擎工作过程

之 排名

假设用户搜索“关键词2”和“关键词7”:

图:倒排索引快速索引文件

3.3 搜索引擎工作过程

之 排名

找到匹配文件后,还不能进行相关性技术,因为匹配文件可能达到几百上千万, 但是绝大部分用户只会查看搜索结果的前十页,所以搜索引擎也没必要计算那么多页 面的相关性。 重点在于用于计算相关性的初始页面子集的选择,最主要的依据就是页面权重。 相关性计算是排名过程中最主要的一步,也是大家最感兴趣的一步。 影响相关性的主要因素: 影 响 因 关键词常用程度 词频及密度 关键词位置及形式 关键词距离



链接分析及页面权重

3.3 搜索引擎工作过程

之 排名

↘ 相关性计算完后,排名大体决定了,之后会对排名 进行微调,主要是施加惩罚等;

↘ 排名显示原始页面的标题、说明文字等,有时需要
动态生成页面标签摘要的; ↘ 根据长尾理论,20%的搜索词占了搜索次数的80%, 搜索引擎将常见搜索词的排名结构存入缓存; ↘ 搜索引擎会将搜索用户的IP地址、搜索关键词、搜 索时间,以及点击了哪些结果页面记录下来形成

日志,以便今后判断搜索结果质量、调整搜索算法、
预测搜索趋势。

搜索引擎

面临的挑战
第 三 节 第 二 节

第 一 节

第 四 节

4

搜索引擎面临的挑战

? 1、页面抓取需要快而全面
? 2、海量数据存储 ? 3、索引处理快速有效,具有可扩展性

? 4、查询处理快速准确
? 5、判断用户意图及人工智能

【 预习“关键字优化”部分】
继续完成上周网站搭建工作!
第 四 节

第 三 节

第 二 节

第 一 节


相关文章:
第二章搜索引擎工作原理_图文.ppt
第二章搜索引擎工作原理 - 第二章 搜索引擎工作原理 第四节 第三节 第二节 第
第二章 搜索引擎工作原理_图文.ppt
第二章 搜索引擎工作原理_IT/计算机_专业资料。电子商务 第二章 搜索引擎工作原理 章节内容 ? ? ? ? ? 搜索引擎发展历史 搜索引擎分类 搜索引擎工作原理 搜索...
第二章_Web搜索引擎的原理与结构_图文.ppt
第二章_Web搜索引擎原理与结构 - 第2章 Web搜索引擎原理与结构 本章目录 2.1搜索引擎概述 2.2搜索引擎的体系结构 2.3 搜索引擎对信息的抓取与采集 2.4...
2第二章 搜索引擎营销概论_图文.ppt
2第二章 搜索引擎营销概论 - 第二章 搜索引擎营销概论 数据里的世界 盐 数据
第二章搜索引擎与OA_图文.pdf
搜索引擎概念 ? 搜索引擎的原理 ? 搜索引擎的类型 ? 第二章 搜索引擎与开放...奇迹电子文库是由一群中国年轻的科学、 教育与技术工作者创办,非赢利性质的网 ...
第二章 信息检索的原理与方法_图文.ppt
第二章 信息检索的原理与方法_天文/地理_自然科学_专业资料。第二章 信息检索...为什么不同的搜索引擎查找到的信息不同? 1,349,220 2,510,000 信息检索的...
搜索引擎工作原理简介_图文.doc
搜索引擎工作原理简介_互联网_IT/计算机_专业资料。搜索引擎工作原理简介一、 ...(即一层爬完,再爬第二层,接着第三层,依 此类推) 注:深度优先和广度优先...
第二章搜索引擎营销_图文.ppt
第二章搜索引擎营销 - 网络营销 第二章 搜索引擎营销 奥巴马胜选是网络搜索营销
搜索引擎工作原理_图文.ppt
SEO基础搜索引擎工作原理 课程目标 ?认识搜索引擎的工作原理 ?记忆搜索引擎的
搜索引擎的工作原理_图文.ppt
搜索引擎的工作原理_互联网_IT/计算机_专业资料。 ...搜索引擎工作原理 ? 搜索引擎工作原理 第二步:...
第二章:搜索引擎_图文.ppt
第二章:搜索引擎 - 淮南师范学院图书馆 许馨 电话:6863807 E-mail: xuxin554@163.com 欢迎各位同学的到来! 淮南师院建设中的图书馆大楼 第二章 网...
第二章 搜索引擎优化的理论基础为什么要进行SEO_图文.ppt
第二章 搜索引擎优化的理论基础 为什么要进行SEO 2.1 搜索引擎发展历史 2.2 搜索引擎的类型 2.3 搜索引擎收录网站原理探寻蜘蛛和探寻机器人 yahoo创办初期...
第二章2 搜索引擎排名和更新_图文.ppt
第二章2 搜索引擎排名和更新 - 2.1 搜索引擎收录网站原理 探寻蜘蛛和探寻机
网检第二章网络资源及搜索引擎_图文.ppt
网检第二章网络资源及搜索引擎 - 第二章 网络基础及网络资源 ?基本要求: 掌握网络基础及网络资源的基本类别 及相应的操作方法 ?重点、难点 网络基本原理 搜索...
搜索引擎工作原理剖析_图文.ppt
搜索引擎工作原理 教学目标 ? 了解搜索引擎工作原理 ? 了解搜索结果分类 当语
第二章2.2因特网信息的查找搜索引擎_图文.ppt
第二章2.2因特网信息的查找搜索引擎 - 复习 信息获取的一般过程 定位信息
搜索引擎的工作原理_图文.ppt
搜索引擎工作原理_互联网_IT/计算机_专业资料。...方法一:利用搜索引擎提供的网站登录入口; 方法二:...
第二章 搜索引擎_图文.ppt
第二章 搜索引擎与软件资源第一节 第二节 第三节 搜索引擎 软件网站 翻译...元搜索引擎(搜星、万纬搜索) 特点:多个搜索引擎的集成、统一检索界面 工作原理...
搜索引擎工作原理简单模拟._图文.ppt
搜索引擎工作原理简单模拟上海二手挖掘机 http://www.shwjcente
搜索引擎_图文.ppt
搜索引擎 - 第二章 搜索引擎及检索技巧 1 1 概况 搜索引擎(Searchi
更多相关标签: