| 《计算机学报》文章摘要 全文下载 | |
| 文章题目 | 基于关键词的深度万维网数据库选择 |
| 作者 | 范举 周立柱 |
| 作者单位 | (清华大学计算机科学与技术系 北京 100084) |
| 发表年份 | 2011 |
| 发表月份 | 10期(1797—1804) |
| 文章摘要 | 摘要 该文提出一种基于关键词的深度万维网查询方法:用户用关键词的方式提交查询,该方法在线地选择能够反映查询意图并且提供高质量结果的万维网数据库.这种方法既避免了深度万维网数据抓取这一代价高、难度大的操作,又可支持多领域的数据库上的关键词查询,从而能够与现有的搜索引擎实现无缝集成.文中侧重于讨论基于关键词的数据库选择,从以下两个方面解决这一问题所涉及的挑战:(1)提出了一种度量关键词-领域属性关联的相关性模型,并设计了基于随机游动的算法从查询日志中发现潜在的关键词-属性关联;(2)给出了一种新的数据采样方法,并用于基于采样的数据库-查询的相关性模型中,最终解决深度万维网的数据库选择问题.在中文深度万维网真实数据集上的实验表明:提出的方法能够有效地选择与关键词查询相关的数据库,提供高质量的结果. 关键词 深度万维网;万维网数据库;关键词查询;领域选择;数据库选择 中图法分类号 TP311 DOI号: 10.3724/SP.J.1016.2011.01797 |