《计算机学报》文章摘要 全文下载 | |
文章题目 | 基于潜在语义分析的BBS文档Bayes鉴别器 |
作者 | 刘昌钰1) 唐常杰1) 于中华1) 杜永萍2) 郭颖1) |
作者单位 | 1)(四川大学计算机科学系 成都 610064) 2)(山西大学计算机科学系 太原 030006) |
发表年份 | 2004 |
发表月份 | 4期(566-572) |
文章摘要 | 摘要 电子公告栏(BBS)的滥用是一种以信息污染为特色的社会问题,对BBS文档进行鉴别已成为信息安全重要内容之一。该文融合了数据挖掘技术、数理统计技术和自然语言理解技术,提出了基于潜在语义分析与Bayes分类的BBS文档鉴别方法:利用自然语言处理技术从训练文档中抽取典型短语集;通过潜在语义分析进行典型短语同义归约,应用关联规则采掘技术提高典型短语间的独立性;用Bayes分类器对BBS文档进行鉴别。该文还对影响系统的关键参数进行了大量的讨论和测试,实验表明该方法对于BBS文档的鉴别是可行而有效的。 关键词 数据挖掘;关联规则;Bayes分类;潜在语义分析;BBS 中图法分类号 TP311 |