当前位置:首页 >> 信息与通信 >>

全文检索系统中动态索引技术的研究_论文

维普资讯 http://www.cqvip.com 计算机与数字工程  第3 5卷  全文检索系统 中动态索引技 术 的研究  郭琦娟 陈通 照  276 ) 50 1   ( 中国石油大学 ( 东) 华 计算机与通信工程学 院 东营 摘 要 全文检索是一种非常有效的信息检索技术, 本文通过分析全文检索系统中静态索引技术的优缺点, 以及影响  动态性能的因素, 提出一种基于互关联后继树模型的动态索引技术 , 该技术在不影响查询效率等性能的情况下, 很好地解  决 了索引 的更新问题 , 提高 了索 引的动态性能 。   关键词 全文检索 互关联后继树 静态索引 动态索引   中圈分类号 T 3 13 P 9 .  现的字符 , 作为该文档 的结束符 , 则文本最后一个  全文检索是 以文本数据为主要处理对象 , 将文  字符的后继为文本结束符 。   档的全部文本信息作为检索对象 的一种信息检索  例如文档 bbc ( 中# aa# 其 为索引库 的结束符)  , 技术 。这种检索方式 在法律 法规 全文 、 数据 图书  b 有两个后继都是 a a , 有两个后继分别是 b和 CC ,   馆、 WWW搜索引擎、 办公 自动化等领域 中具有 广  的后继为# 。对于每个字符建立一棵树 , 树的分支  泛的应用价值。由于 当前信息 的增长速度和淘汰  为该字符的后继 , 如图 1 所示。图中各分支后继后  速度均呈现不断加快的趋势 , 全文检索的动态性能  面的序号是该后继 的后继在 以该后继为根的树中  显 得越来 越重要 。   的分支号。如 b 树的第二个分支是 ( , ) 因为这  a2 , 全文检索的首要问题是全文检索模 型的选择 。 个 a   在原文中的后继为 c 而 c a 的第二个分  , 是 树 目 , 前 国际上流行 的全文检索模型主要有 : 倒排表  支。因此 , 整个互关联后继树构成的森林记载了文  模型、 署名文件 、 图、a 树 和 Pt 位 Pt a 数组。互关联  档中所有 字 符 的先 后 位置 , 以利 用 索 引 生成  可 后继树模型是从 中文语言特点 出发提出的一种新  原 文 。   颖的全文检索模型 , 具有创建速度快 , 查询速度快 ,   空间效率高等特点, 并且可以通过索 引生成原 文。   虽然对互关联后继树模型的研究还不完善 , 但对于  中文来说 , 其综合性能 良好 , 能符合未来 全文检索  技术发展 的要求 。   a   b   0   1 引言    每个文本 T的末尾人为添加一个不在该文档 中出   ( , )c 1 b 2 t,)   八 ( , ) a 2  a 1 (, ) 八  榉   图 1 互关联后继树示例  针对这 种 索 引 , 果 用户 输 入 查 询 字 符 串 如   bc , 检索系统要经过一个匹配  本文首先简单介绍 了互关联后继树模型 的原  “a ”还无法直接查找 , 在  理, 分析了静态索引技术的优缺点以及影响动态性  的过程 。匹配是从查询串的第一个字符开始的, 能的因素, 最后提出一种动态索引技术。   “” b 为根的树的分支 中查找后继 为“ ” a 的分支 , 发  2 互关联后继树模 型  现有两个分支满 足条件 , 根据这 两个 分支 的序  再 号, 跳转到 a 的 12 树 , 分支查看其后继是否为 c发  , C , bc 在文档 中仅  在互关联后继树模 型中, 对任意文本 T中的任  现第二个分支 的内容为 “ ” 则 “ a ”   意字符串 a , 称为 b的前驱 - 称为 a的后继。在  有 一个 匹配 。 ba b 收到本文时间 :0 6年 3月 1   20 0日 作者简介 : 郭琦娟 , , 女 中国石油大学 ( 东) 华 硕士研究生 , 主要研究 方 向: 据库应 用系统 。陈通照 , , 国石 油天  数 男 中 然气集 团公 司信息技术服务 中心 , 高级工程师 , 主要研究 方向 : 软件工程 。   维普资讯 http://www.cqvip.com 第 3 卷 (07 第 1 5 20 ) 期  计算 机与数字工程  4  l 3 静 态索弓技术 与动态 索弓技 术    l l 文件 中, 而是将 原 文本进 行 切割 , 每批 原 文 ( 如  10 0 M大小左右的原文) 建立一个索引库。这样因   静态索 引, 就是假设文档集 为静态集合 , 即使  为建立了许多索引库 , 可以把索引库的动态改变限  允许被索引的原文进行动态变化 , 也是建立在变化  制在局部范 围, 而且不会影 响其他 的索引库 , 提高  文本 的数 据 量 相 对 较 少 和 变 化 不 频 繁 的 基 础 上 。 整体动态性能。     要更新索引只能通过重建整个索引 , 也有人称之为  但这些方案都有局限 , 如对内存大小有特殊要  索引重装技术。到 目 前为止 , 于全文索引的动态  求、 对 不支持文档的删除、 于特小或特大 的文档集  对 性还没有一个精确一致 的定义。本文讨论的动态  索引的空间利用率较低 、 管理复杂等。   索引技术 , 就是假定被索 引的原文是频繁变化的,   一 索引动态更新时有很多因素影响它的效率 , 其  旦被索引的原文更新 , 索引程序 只是对新添加或  中最主要的因素有 :   () 1 新文本 创建 时的 I0次数。它是影 响索  / 修改后 的原文进行索引, 对应原文未被改变的那部    分索引不必重做 , 也有人称这种索引方式为增量式  引建立和同步更新最根本的因素。 索引。下面分别讨论这两种技术。   () 2 索引空间。间接影响动态性能。   3 1 静态索引技术  . 便, 只需在原索引每个字符的索引块后增加新加文  修改索 引库里的信息。互关联后继树的

相关文章:
全文检索系统中动态索引技术的研究_论文.pdf
全文检索系统中动态索引技术的研究 - 全文检索是一种非常有效的信息检索技术,本文
全文检索系统中动态索引技术的研究_图文.pdf
全文检索系统中动态索引技术的研究 - 计算机与数字工程 第3 5卷 全文检索系统 中动态索引技 术 的研究 郭琦娟 陈通 照 276)501 ( 中国石油大学 (东) 华...
全文检索系统中动态更新索引结构的设计与实现_论文.pdf
全文检索系统中动态更新索引结构的设计与实现 - 全文检索系统的重心是全文索引,全文检索的动态性取决于全文索引创建和更新的动态性.本文在对互关联后继树模型研究的...
全文检索系统中动态更新索引结构的设计与实现.pdf
全文检索系统中动态更新索引结构的设计与实现 - 全文检索系统的重心是全文索引,全文检索的动态性取决于全文索引创建和更新的动态性.本文在对互关联后继树模型研究的...
中文全文检索系统中基于分词技术的研究.pdf
中文全文检索系统中基于分词技术的研究 - 为在保证中文歧义包容和长度限制的同时提
中文全文信息检索系统中索引项技术及分词系统的实现.doc
中文全文信息检索系统中索引技术及分词系统的实现 - 中文全文信息检索系统中索引技 术及分词系统的实现 摘要 该文提出了一种在保护模式下, 通过动态连接库(...
密文检索论文密文全文检索系统的研究与实现.doc
密文检索论文密文全文检索系统的研究与实现密文检索论文:密文全文检索系统的研究与...全文检索技术的索引机制介绍 22-23 2.4.2 密文全文检索系统的密文索引研 究 ...
全文检索系统中动态索引技术的研究_论文.pdf
全文检索系统中动态索引技术的研究 - 全文检索是一种非常有效的信息检索技术,本文
最新-高中信息技术教学论文 中文全文信息检索系统中索....doc
中文全文信息检索系统中索引技术及分词系统的实现 摘要 该文提出了一种在 Windows3.1 保护模式下,通过动态连接库(DLL)生成中断服务程序 代码,实现外设与 Windows ...
全文检索技术研究与应用论文1.doc
全文检索技术研究与应用论文1_计算机软件及应用_IT/...新技术、 改善检索系统的结构、 提高检索系统的性能...其实还有一个优点,以词为单位的索引,索引库会比...
全文检索单元词索引技术研究.pdf
全文检索单元词索引技术研究 : 单汉字索引是中文全文...发表论文 100 多篇 , 出版著作 ( 含参加编写 ) ...全文检索系统中动态索引... 3页 免费 基于倒排...
大数据分布式全文检索系统的设计与实现.pdf
大数据分布式全文检索系统的设计与实现 - 论文是基于一种开源企业搜索引擎Solr实现对大数据分布式数据库HBase中数据的检索.论文简单地介绍了分布式存储技术HBase和...
全文检索技术在办公自动化系统中的应用_论文.pdf
全文检索技术在办公自动化系统中的应用 - 全文检索技术展示了微软SQL Server2000全文检索的实现流程,以天津青年职业学院办公自动化系统文档查询为示例,论述了数据库...
全文检索系统原理与实例_图文.pdf
(五) 全文数据库平台 分析标引过程 全文检索过程机理 全文检索系统实例 全文检索的发展趋势 中国科技信息研究所 化柏林 全文信息检索技术 1.倒排索引 1 3 12 A...
一种全文检索系统的设计与实现.pdf
在对全文检索有关技术进行分析和研究的基础之,提出并实现了一个实用的全文检索系统 UFRS,它能够处理中英文文档并可以扩展到其它语言,支持多种不同的索引存储方案...
全文索引技术在办公自动化系统中的应用研究.pdf
[硕士论文] 垂直搜索引擎的... 68页 免费如...( 年 全文索引技术在办公自动化系统中的应用研究 !...索引的动态维护与更新是全文检索全文索引技术...
基于Lucene的全文检索系统的研究与实现_论文.pdf
基于Lucene的全文检索系统的研究与实现 - Lucene是一个优秀的开源全文搜索技术框架,Lucene全文检索技术是信息检索领域广泛使用的基本技术。它能非常方便地为各种应用...
一个中文全文检索系统的设计与实现.pdf
关键词:全文检索 中文分词 倒排索引 中图分类号: ...目前作的比较好的多是一些学术论文数 据库和专业...2 中文全文检索关键技术研究建立一个全文检索系统,...
中文全文信息检索系统中索引项技术及分词系统的实现.doc
中文全文信息检索系统中索引技术及分 词系统的实现摘要:本文对中文全文检索系统中常用的索引技术 n 元语法,字,n 元语法,词进行了介 绍并讨论了其各自的特点...
企业MIS中全文检索技术的应用研究_论文.pdf
企业MIS中全文检索技术的应用研究 - 为了将信息检索技术融入到企业数据库管理系统中,同时增强企业MIS系统的鲁棒性与可移植性,构建了一个企业MIS中的全文检索系统....
更多相关标签: