当前位置:首页 >> 其它课程 >>

搜索引擎的特点与评价标准


搜索引擎的特点与评价标准

一、 搜索引擎的分类 搜索引擎按其工作方式主要分为三种,分别是全文搜索引擎、目 录索引类搜索引擎和元搜索引擎。 全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有 Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut 等, 百度(Baidu)目前所做的应该属于全文搜索引擎。由于

它们都是通 过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数 据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺 序将结果返回给用户。虽然百度拥有自己的检索程序,并自建网页数 据库,搜索结果直接从自身的数据库中调用,但它们所能提供的信息 绝大程度上由它所搜索的网站决定的。 评价标准及其局限性 在搜索引擎的发展初期,人们对它的要求较低,只要它能把互连 网上相关的网站搜出来,搜到的网站尽量多一点,无关的网站能少一 点就能满足。 所以那时候, 人们评测搜索引擎的方法是用几个关键词, 测试对比它们的搜索速度、搜索数量和无关网站的多少。简单说就是 全、快、准。而那时的搜索引擎技术大家差别不大,所以这样的评测 方法是可行的。 此后,独特的搜索引擎技术此起彼伏,层出不穷, 到现在明显处于战国时代。但是,人们的评测方法却没多大变化,现 在常见的评测还是简单的用几个关键词比较搜索速度、 搜索结果数量

和各自介绍的搜索准确性。 搜索引擎的评价标准与目前搜索引擎的发 展状况并非完全吻合。下面,我们就目前常用的评价指标进行分别介 绍。 第一,搜索引擎的查全率。既然是搜索引擎,当然比较搜索的范 围就应该首当其冲。但是,由于收录网页的数量都是各搜索引擎自己 宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所 以一般的评测都以这个为准。但以这个为准仍有很多不足之处,因为 多数象样一点的搜索引擎都可以找出一批关键词来证明它的搜索结 果是最全的。因为网页索引数量虽然有大小,但 robot 和 spider 程序 不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到 的有可能在小得多的搜索引擎上搜到。 还有一点,搜索引擎是可以 针对特定的关键词进行结果优化的, 评测的公正性谁来保证?如果其 中某个被评测搜索引擎事先知道所用的关键词, 那么只要轻松优化一 下,冠军就非它莫属了。 第二,搜索的速度。 如果搜索引擎索引的网页虽多,但是搜索 一次要五、六秒或更长,那么仍然没有优势可言。当然了速度的问题 首先还是在关键词,单关键词搜索快的不一定多关键词搜索快。然后 是访问量的问题, 对一个日访问量一亿以上的搜索引擎和一个日访问 量几万的搜索引擎做同样的测试本身已是不公平。 还有网页索引数量 的问题,一个搜索引擎索引了 10 亿的网页,另一个搜索引擎索引了 一千万的网页, 让它们对同一个关键词在各自的数据库里搜索比搜索 速度,这样的结果如何让人信服? 而且,除了事先优化的问题外,

有的搜索引擎本就具有记忆搜索结果加速调用的能力, 一个关键词哪 怕第一词搜索花了 10 秒,第二次搜索也许就 2 秒了,第三次,第四 次,到你去测试的时候已经永远是 0.0001 秒了。这样,如果你选常 见词测试,它快得惊人,如果来个偏僻词,也许老半天出不来,到底 该选什么关键词?常用和偏僻各占多少? 实难度量。 第三,查准率。这个相当重要,搜到的东西即使又多又快,但你 想要的那条结果不知道要翻多少页才能找到, 那这搜索结果几乎没有 意义?因为,1000 条后的记录几乎没人看,当然了查准率的关键还 是在于要搜什么和选择什么关键词,评测人可以随意定夺的,然后影 响到评测结果的可靠性。 第四,死链接和网页的更新速度。普通搜索引擎总有些搜索结果 是点不进去的,少到百分之一二,多到百分之八九,这个也常被用作 评测条件之一。但是象 Google 使用了网页快照功能,几乎不存在死 链接问题,就算搜索结果中的那个网站已关闭,你还是可以看到 Google 自己储存的网页。这种死链接无法计算? 第五,用户负担。首先是搜索界面,一个只有搜索框的纯粹搜索 引擎界面跟一个带有广告和大量网页内容的门户相比, 它们带给用户 的搜索负担是高下立判的。其次是搜索结果描述,搜索结果网页的文 字描述是长还是短, 网页文字描述采用索引带关键词的部分还是索引 网页的开始几行还是索引网页的主要内容, 关键词是否高亮显示又采 用什么颜色,是否显示网页地址,还有搜索结果页面的布局,这些对 于用户的搜索负担区别大大的有。再者就是对用户操作步骤的影响,

是否可以用鼠标启动搜索,搜索结果每页显示数量是否只有 10 条, 翻页的便捷与否,搜索框是两个还是一个,放在上边还是下边,一次 搜索后关键词是否还在搜索框中显示,这些每一条都会影响搜索效 率。 第六,重复信息返回的过滤。返回结果应该尽可能不出现重复、 类似的结果。 第七,搜索服务的系统稳定性。 综上所述,如何评价一个搜索引擎的优劣目前仍然没有发现客 观、准确地方法。 未来的发展趋势 毋庸置疑,搜索引擎已成为一个新的研究、开发领域。因为它要 用到信息检索、人工智能、计算机网络、分布式处理、数据库、数据 挖掘、数字图书馆、自然语言处理等多领域的理论和技术,所以具有 综合性和挑战性。 又由于搜索引擎有大量的用户, 有很好的经济价值, 所以引起了世界各国计算机科学界和信息产业界的高度关注, 目前的 研究、开发十分活跃,并出现了很多值得注意的动向。 首先,十分注意提高信息查询结果的精度,提高检索的有效性。 用户在搜索引擎上进行信息查询时,并不十分关注返回结果的多少, 而是看结果是否和自己的需求吻合。对于一个查询,传统的搜索引擎 动辄返回几十万、几百万篇文档,用户不得不在结果中筛选。解决查 询结果过多的现象目前出现了几种方法: 一是通过各种方法获得用户 没有在查询语句中表达出来的真正用途, 包括使用智能代理跟踪用户

检索行为,分析用户模型;使用相关度反馈机制,使用户告诉搜索引 擎哪些文档和自己的需求相关(及其相关的程度) ,哪些不相关,通 过多次交互逐步求精。二是用正文分类(Text Categorization)技术将 结果分类,使用可视化技术显示分类结构,用户可以只浏览自己感兴 趣的类别。三是进行站点类聚或内容类聚,减少信息的总量。 其次, 基于智能代理的信息过滤和个性化服务。 信息智能代理是 另外一种利用互联网信息的机制。它使用自动获得的领域模型(如 Web 知识、信息处理、与用户兴趣相关的信息资源、领域组织结构) 、 用户模型(如用户背景、兴趣、行为、风格)知识进行信息搜集、索 引、过滤(包括兴趣过滤和不良信息过滤) ,并自动地将用户感兴趣 的、对用户有用的信息提交给用户。智能代理具有不断学习、适应信 息和用户兴趣动态变化的能力,从而提供个性化的服务。智能代理可 以在用户端进行,也可以在服务器端运行。 第三, 采用分布式体系结构提高系统规模和性能。 搜索引擎的实 现可以采用集中式体系结构和分布式体系结构,两种方法各有千秋。 但当系统规模到达一定程度(如网页数达到亿级)时,必然要采用某 种分布式方法,以提高系统性能。搜索引擎的各个组成部分,除了用 户接口之外,都可以进行分布:搜索器可以在多台机器上相互合作、 相互分工进行信息发现,以提高信息发现和更新速度;索引器可以将 索引分布在不同的机器上,以减小索引对机器的要求;检索器可以在 不同的机器上进行文档的并行检索,以提高检索的速度和性能。 第四, 重视交叉语言检索的研究和开发。交叉语言信息检索是指

用户用母语提交查询,搜索引擎在多种语言的数据库中进行信息检 索, 返回能够回答用户问题的所有语言的文档。 如果再加上机器翻译, 返回结果可以用母语显示。该技术目前还处于初步研究阶段,主要的 困难在于语言之间在表达方式和语义对应上的不确定性。 但对于经济 全球化、互联网跨越国界的今天,无疑具有很重要的意义。 总之,随着人工智能、数据挖掘等技术的发展,搜索引擎必将会 朝着更加智能化的方向发展。


相关文章:
七大搜索引擎特点
暂无评价|0人阅读|0次下载|举报文档七大搜索引擎特点_IT/计算机_专业资料。本篇...包括 GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体), 并且能够在不同的...
几个搜索引擎特点比较
暂无评价|0人阅读|0次下载|举报文档 几个搜索引擎特点比较_IT/计算机_专业资料...百度还支持主流的中文编码标准。 包括 GBK(汉字内码扩展规范)、 GB2312(简体)...
搜索引擎评判的基本指标
搜索引擎评判的基本指标_互联网_IT/计算机_专业资料。实用性文档搜索引擎评判的基本指标互联网技术的日益成熟, 网络的普及,搜索引擎越来越成为广大网民丌可戒缺的 工...
浅析中文搜索引擎分类体系
本文对中文搜索引擎分类的特点和评价标准进 行研究,在找出当前分类体系 浅析中文搜索引擎分类体系摘要分类法在搜索引擎中的应用极大的提高了搜索效率与查准率, 当前各...
百度搜索引擎的特点
暂无评价|0人阅读|0次下载|举报文档 百度搜索引擎的特点_计算机软件及应用_IT/...2.百度支持主流的中文编码标准。包括 GBK(汉字内码扩展规范)、GB2312(简体)、 ...
搜索引擎的特色与区别
暂无评价|0人阅读|0次下载|举报文档搜索引擎的特色与区别_其它_总结/汇报_实用...包括 GBK(汉字内码扩展规范)、GB2312(简体)、BIG5(繁体),并且能够在不同的...
《信息检索》考试答案及评分标准
检索功能的指标 D. 检索结果 E. 检索界面 3、搜索引擎存在的问题和缺陷有哪些...10、专利权的特点有: 【ABC】 A. 专有性 B. 地域性 C. 时效性 D. ...
关于搜索引擎的评测
摘要:该文结合目前互联网搜索引擎的应用情况,首先确定了搜索引擎主要的评价指标。...这些变 量有繁多、结构复杂、不确定性等特点。为了解决这一问题,我们有必要对...
浅析各类搜索引擎之间的联系与区别
两个典型搜索引擎之间的检索技术、各自特点进行全面的...google 与百度检索技术分析评价一个搜索引擎的质量, ...衡量一个搜索引擎完 整与否, 成熟与否的重要指标。...
技能训练5-1 主要搜索引擎特性的对比分析
并就三大搜索引擎的特点、返回结果信息的相关性、 ...支持主流的中文编码 标准,采用智能相关 百度 度算法...博客 相关度 评价 信息 价值度, 在这 19 条中 ...
更多相关标签:
搜索引擎的评价标准 | 目录搜索引擎的特点 | 百度搜索引擎的特点 | 搜狗搜索引擎的特点 | 全文搜索引擎的特点 | 搜索引擎的特点 | 搜索引擎性能评价 | 新浪搜索引擎的特点 |