| 《计算机学报》文章摘要 全文下载 | |
| 文章题目 | 使用联合链接相似度评估爬取Web资源 |
| 作者 | 张乃洲 李石君 余伟 张卓 |
| 作者单位 | (武汉大学软件工程国家重点实验室 武汉 430072) (武汉大学计算机学院 武汉 430072) |
| 发表年份 | 2010 |
| 发表月份 | 12期(2267—2280) |
| 文章摘要 | 摘要 如何从Web上获取感兴趣的资源是许多Web研究领域重要的研究内容.目前针对特定领域Web资源的获取,主要采用聚焦爬行策略.但目前的聚焦爬行技术在同时解决高效率爬行和高质量的爬行结果等方面还存在许多问题.文中提出了一种基于联合链接相似度评估的爬行算法,该算法在评估链接的主题相似度时,联合使用了关于链接主题相似度的直接证据和间接证据.直接证据通过计算链接的锚链文本的主题相似度来获得,而间接证据则是通过一个基于Q学习的Web链接图增量学习算法获取.该算法首先利用聚焦爬行过程中得到的结果页面,建立起一个Web链接图.然后通过在线学习Web链接图,获取链接和链接主题相似度之间的映射关系.通过对链接进行多属性特征建模,使得链接评估器能够将当前链接映射到Web链接图的链接空间中,从而获得当前链接的近似主题相似度.在3个主题域上对该算法进行了实验,结果表明,该算法可以显著提高爬行结果的精度和召回率. 关键词 聚焦爬行;主题相似度;链接评估;Web链接图;Q学习 中图法分类号 TP311 DOI号: 10.3724/SP.J.1016.2010.02267 |