当前位置:首页 >> 信息与通信 >>

全文检索系统中动态索引技术的研究_论文

维普资讯 http://www.cqvip.com 计算机与数字工程  第3 5卷  全文检索系统 中动态索引技 术 的研究  郭琦娟 陈通 照  276 ) 50 1   ( 中国石油大学 ( 东) 华 计算机与通信工程学 院 东营 摘 要 全文检索是一种非常有效的信息检索技术, 本文通过分析全文检索系统中静态索引技术的优缺点, 以及影响  动态性能的因素, 提出一种基于互关联后继树模型的动态索引技术 , 该技术在不影响查询效率等性能的情况下, 很好地解  决 了索引 的更新问题 , 提高 了索 引的动态性能 。   关键词 全文检索 互关联后继树 静态索引 动态索引   中圈分类号 T 3 13 P 9 .  现的字符 , 作为该文档 的结束符 , 则文本最后一个  全文检索是 以文本数据为主要处理对象 , 将文  字符的后继为文本结束符 。   档的全部文本信息作为检索对象 的一种信息检索  例如文档 bbc ( 中# aa# 其 为索引库 的结束符)  , 技术 。这种检索方式 在法律 法规 全文 、 数据 图书  b 有两个后继都是 a a , 有两个后继分别是 b和 CC ,   馆、 WWW搜索引擎、 办公 自动化等领域 中具有 广  的后继为# 。对于每个字符建立一棵树 , 树的分支  泛的应用价值。由于 当前信息 的增长速度和淘汰  为该字符的后继 , 如图 1 所示。图中各分支后继后  速度均呈现不断加快的趋势 , 全文检索的动态性能  面的序号是该后继 的后继在 以该后继为根的树中  显 得越来 越重要 。   的分支号。如 b 树的第二个分支是 ( , ) 因为这  a2 , 全文检索的首要问题是全文检索模 型的选择 。 个 a   在原文中的后继为 c 而 c a 的第二个分  , 是 树 目 , 前 国际上流行 的全文检索模型主要有 : 倒排表  支。因此 , 整个互关联后继树构成的森林记载了文  模型、 署名文件 、 图、a 树 和 Pt 位 Pt a 数组。互关联  档中所有 字 符 的先 后 位置 , 以利 用 索 引 生成  可 后继树模型是从 中文语言特点 出发提出的一种新  原 文 。   颖的全文检索模型 , 具有创建速度快 , 查询速度快 ,   空间效率高等特点, 并且可以通过索 引生成原 文。   虽然对互关联后继树模型的研究还不完善 , 但对于  中文来说 , 其综合性能 良好 , 能符合未来 全文检索  技术发展 的要求 。   a   b   0   1 引言    每个文本 T的末尾人为添加一个不在该文档 中出   ( , )c 1 b 2 t,)   八 ( , ) a 2  a 1 (, ) 八  榉   图 1 互关联后继树示例  针对这 种 索 引 , 果 用户 输 入 查 询 字 符 串 如   bc , 检索系统要经过一个匹配  本文首先简单介绍 了互关联后继树模型 的原  “a ”还无法直接查找 , 在  理, 分析了静态索引技术的优缺点以及影响动态性  的过程 。匹配是从查询串的第一个字符开始的, 能的因素, 最后提出一种动态索引技术。   “” b 为根的树的分支 中查找后继 为“ ” a 的分支 , 发  2 互关联后继树模 型  现有两个分支满 足条件 , 根据这 两个 分支 的序  再 号, 跳转到 a 的 12 树 , 分支查看其后继是否为 c发  , C , bc 在文档 中仅  在互关联后继树模 型中, 对任意文本 T中的任  现第二个分支 的内容为 “ ” 则 “ a ”   意字符串 a , 称为 b的前驱 - 称为 a的后继。在  有 一个 匹配 。 ba b 收到本文时间 :0 6年 3月 1   20 0日 作者简介 : 郭琦娟 , , 女 中国石油大学 ( 东) 华 硕士研究生 , 主要研究 方 向: 据库应 用系统 。陈通照 , , 国石 油天  数 男 中 然气集 团公 司信息技术服务 中心 , 高级工程师 , 主要研究 方向 : 软件工程 。   维普资讯 http://www.cqvip.com 第 3 卷 (07 第 1 5 20 ) 期  计算 机与数字工程  4  l 3 静 态索弓技术 与动态 索弓技 术    l l 文件 中, 而是将 原 文本进 行 切割 , 每批 原 文 ( 如  10 0 M大小左右的原文) 建立一个索引库。这样因   静态索 引, 就是假设文档集 为静态集合 , 即使  为建立了许多索引库 , 可以把索引库的动态改变限  允许被索引的原文进行动态变化 , 也是建立在变化  制在局部范 围, 而且不会影 响其他 的索引库 , 提高  文本 的数 据 量 相 对 较 少 和 变 化 不 频 繁 的 基 础 上 。 整体动态性能。     要更新索引只能通过重建整个索引 , 也有人称之为  但这些方案都有局限 , 如对内存大小有特殊要  索引重装技术。到 目 前为止 , 于全文索引的动态  求、 对 不支持文档的删除、 于特小或特大 的文档集  对 性还没有一个精确一致 的定义。本文讨论的动态  索引的空间利用率较低 、 管理复杂等。   索引技术 , 就是假定被索 引的原文是频繁变化的,   一 索引动态更新时有很多因素影响它的效率 , 其  旦被索引的原文更新 , 索引程序 只是对新添加或  中最主要的因素有 :   () 1 新文本 创建 时的 I0次数。它是影 响索  / 修改后 的原文进行索引, 对应原文未被改变的那部    分索引不必重做 , 也有人称这种索引方式为增量式  引建立和同步更新最根本的因素。 索引。下面分别讨论这两种技术。   () 2 索引空间。间接影响动态性能。   3 1 静态索引技术  . 便, 只需在原索引每个字符的索引块后增加新加文  修改索 引库里的信息。互关联后继树的

更多相关标签: