《计算机学报》文章摘要 全文下载 | |
文章题目 | 基于Ontology的Web内容二阶段半自动提取方法 |
作者 | 高军 王腾蛟 杨冬青 唐世渭 |
作者单位 | (北京大学信息科学技术学院 北京 100871) (北京大学视觉与听觉处理国家重点实验室 北京 100871) |
发表年份 | 2004 |
发表月份 | 3期(310-318) |
文章摘要 | 摘要 目前Web中的海量信息已经成为人们重要的信息来源,如何从大量半结构化或无结构的HTML网页中提取信息已成为目前的研究热点.但是Web页面的初始设计目的是为了方便用户浏览,而不是便于应用程序自动处理,如何实现一个精确的、应用广泛的提取系统面临很多困难.传统的方法可以粗略划分为基于交互产生的包装程序和自动生成的包装程序,但是基于交互产生的包装程序不具备普遍的应用性,基于自动生成的包装程序准确性不高.该文提出了一种新的二阶段基于语义的半自动提取方法,在保证提取准确性的前提下,尽可能减少交互操作,同时随着参与网站的增加,逐步提高包装程序生成的自动化.相对于目前的方法,该文方法同时考虑了包装程序提取结果的准确性和提取过程的应用普遍性.其有效性在原型系统中得到验证.应用该方法,已经成功提取了120万HTML页面. 关键词 Web提取;领域Ontology;应用Ontology;XML 中图法分类号 TP311 |