| 《计算机学报》文章摘要 全文下载 | |
| 文章题目 | 基于集成学习和二维关联边条件随机场的Web数据语义标注方法 |
| 作者 | 丁艳辉 李庆忠 董永权 彭朝晖 |
| 作者单位 | (山东大学计算机科学与技术学院 济南 250014) |
| 发表年份 | 2010 |
| 发表月份 | 2期(267—278) |
| 文章摘要 | 摘要 大规模Web信息抽取需要准确、自动地从众多相关网站上抽取Web数据对象.现有的Web信息抽取方法主要针对单个网站进行处理,无法适应大规模Web信息抽取的需要.调查研究表明,有效地实现Web数据语义自动标注,结合现有的包装器生成技术,可以满足大规模Web信息抽取的要求.文中提出一种基于集成学习和二维关联边条件随机场的Web数据语义自动标注方法,首先,利用已抽取的信息和目标网站训练页面中呈现的特征构造多个分类器,使用Dempster合成法则合并分类器结果,区分训练页面中的属性标签和数据元素;然后,利用二维关联边条件随机场模型对Web数据元素间的长距离依赖联系和短距离依赖联系进行建模,实现数据元素的自动语义标注.通过在多个领域真实数据集上的实验结果表明,所提出的方法可以高效地解决Web数据语义自动标注问题,满足大规模Web信息抽取的需要. 关键词 Web信息抽取;语义标注;集成学习;条件随机场;长距离依赖 中图法分类号 TP393 DOI号: 10.3724/SP.J.1016.2010.00267 |