《计算机学报》文章摘要   全文下载
  文章题目RM树:一种支持字符串相似性操作的索引
  作者王金宝1) 高宏1) 李建中1) 杨东华2)
  作者单位1)(哈尔滨工业大学计算机科学与技术学院 哈尔滨 150001) 2)(哈尔滨工业大学基础与交叉科学研究院高性能计算中心 哈尔滨 150001)
  发表年份2011
  发表月份11期(2142—2154)
  文章摘要摘要 字符串相似性操作在很多领域中被广泛应用,如数据清洁、信息集成等.现有研究工作主要为基于q-Gram和倒排索引的内存方法,在处理大量数据时具有以下缺点:内存消耗大、更新效率低、支持操作类型有限.现有的外存索引Bed树无法将相似的字符串聚类,在查询处理过程中导致了较大的I/O代价.该文设计了支持多种字符串相似性操作的RM树索引,消除了现有内存方法的缺点,并通过字符串聚类的方法提高了相似性操作的效率.该文通过大量实验结果证明了RM树的有效性. 关键词 字符串;相似性;索引;查询处理;连接处理 中图法分类号 TP311 DOI号:10.3724/SP.J.1016.2011.02142