当前位置:首页 >> 文化/宗教 >>

中文全文检索系统截词检索的实现研究_论文

维普资讯 http://www.cqvip.com 第2 卷第6 4 期  2o o 6年 6   月 q 情  报  科  学  V., . J2 N 6 o 4 o  1 ue 20   n ,0 6 值愈  圃 q   中文 全 文 检 索 系统 截 词 检 索 的实 现研 究  靖培栋 ,宋雯斐  ( 北京师范大学 管理学 院,北京 1 85  0 7) 0 摘 要 :本文探讨 了在基于关键词 索引的中文全文检 索系统 中实现各种截词检 索的方法,建立了   关键词 索引的 H s a h索引,这种方法即能节省 内 存又提 高检索效率。   关键词 :截词检 索;全文检 索;关键词索引   中图分类号:G 5  34 文献标识码 :A   文章编号 :1 7 64 (06 6 84 4 0 . 3 20 )0  8-   07 0 0 Re e r h o  h  m p e e t t n o   r n a e S a c ig i   sa c   n t eI lm n a i   fT u c t  e r h n  n o Ch n s   ul — e tRere a  y tm  i e e F l— T x   tiv lS se J G I   一dn N og,S N   OG ( oe   M ngm n,ai N ra Cl ef aa ee l o g t e ̄ o l i i m  一 崩  ,&  107 ,C / ) 085 h a   n Ab ta t T i p p rn et ae  ei lme tt no  u c t c hn     hn efl tx er v l ytm  sr c : hs a e  vs g ts h     i i t mpe nai  frn aes ̄c i i C ie   l e t t ea  s o t g n s u  r i s e w t  e   od id xn . I st u   ido  s  d xn    e  odid xfe W i   eHah idxn   i ky w r  eig t es pakn  fHahi e igo k yw r  e  l . t t   s   e ig, h n     n f n i h h n tess m a  a em r r n   rv  ee iin yo  t e a. h  yt c nsv   ec ya d i o et   fce c  r r v 1 e u mp h f ei   Ke   r s t n aesac i ; fl tx er vl k   od id xn   y wo d : r ct e rhn u g ul etrt e a; e w r  e ig   i y n 截词 检索 是 外 文 检 索 系统 中 普遍 支 持 的检 索  功 能 ,但 由于汉语 语 法本 身的特 殊性 ,词 间并没 有  检索意义的任何字符个数 ) 。若 被截部分 的字符 串   的字 符数 目可以为 零 ,就 是一 般意 义上 的字 符 串 全  明显 的分隔标志 ,使得截词检索在中文 的检索系统  中使用受 限制。目前支持截词检索的中文检索系统  很 少 ,因而 有待 于进 一步 的研究 推广 。   匹配的检索了, 这一角度讲 ,传统意义的字符串 从   全 匹配检 索仅仅 是 截词检 索 中一个 特例 。   对于中文全文检索系统来说 ,由于不同作 者在  文献 中有 着不 同的 用语 习惯 和语 言 风格 ,缺 乏词 汇  控制 手段 ,因而 截词 检索 就更 有必要 了。但是 ,截  词检索 的 实 现 跟 检 索 系 统 的实 现 方 式 有 很 大 的关  系 ,本文 就 以关 键词 索 引为基 础 的 中文 全文 检 索系  截词检索,亦称部分一致检索或模糊检索 ,是  种计算 机 被检 索词 字符 串与文 献被标 引词 字符 串   部 分匹 配 的智能 型检 索技术 【。截词 检索分 为 前 截  l 】 一 词检索 ( 后方一致) ,后截词检索 ( 前方一致)   ,中 间截词 检索 ( 前后 方一 致 ) ,以及 前 后截词 检索  ( 中间一致 )四种基本类型。同时,各截断部分还  统的截词检索的实现作一个探讨 。   可以分为精确截断 ( 即被截字符串的字符数 目是确   定 的 ,通 常用 通配 符 “ ”表示 , “ ” 的个数 即是  ? ? 被截字符 串的字符数)和模糊截断 ( 即被截字符串   的字 符数 目是 不 确 定 的 ,通 常 用 通 配 符 “*”表  1 中文全文检索 系统    全文检 索 系统 出现在 2 纪 5 代 ,现 在 已 0世 O年   日趋成 熟 。 国外 的全 文检 索系统 发展 得较 早 ,早 在  示 ,被截字符 串的字符数可以为零 ,亦可以是具有  收稿 日期 :20 —0 —2   05 7 9 作者简介 :靖培栋 (94 ,男,山 东人 ,北京师 范 大学管理 学院教授 。博 士,从 事信 息可视 化 、信 息 系统设 计 、 1 一) 6   信息检索 究。宋雯斐 (99 , , 研 17 一) 女 浙江人,北京师范大学管理学院情报学硕士生.   维普资讯 http://www.cqvip.com 6 期  中文全文检索系统截词检索的实现研究  85 8  15 年 。美 国匹 兹 堡 大 学 卫 生 法 律 中心 就 开 发 了  99 世界上 第 一 个 全 文 检 索 系统—— 法 律 情 报 检 索 系  统 ,这 标 志着全 文检索 的雏 形 已基本形 成 【。这之  2 l 后 ,全 文检索 得 到 了迅 猛发 展 ,各学科 领域 的全文  数据 库数量迅 速 增长

更多相关标签: