| 《计算机学报》文章摘要 全文下载 | |
| 文章题目 | 一种新的不平衡数据学习算法PCBoost |
| 作者 | 李雄飞1) 李军1),2) 董元方1),3) 屈成伟1) |
| 作者单位 | 1)(吉林大学符号计算与知识工程教育部重点实验室 长春 130012) 2)(长春理工大学应用数学系 长春 130022) 3)(长春理工大学经济管理学院 长春 130022) |
| 发表年份 | 2012 |
| 发表月份 | 2期(202—209) |
| 文章摘要 | 摘要 现实世界中广泛存在不平衡数据,其分类问题是机器学习研究中的一个热点.多数传统分类算法假定类分布平衡或误分类代价均衡,在处理不平衡数据时,效果不够理想.文中提出一种不平衡数据分类算法-PCBoost. 算法以信息增益率为分裂准则构建决策树,作为弱分类器. 在每次迭代初始,利用数据合成方法添加合成的少数类样例,平衡训练信息;在子分类器形成后,修正“扰动”,删除未被正确分类的合成样例.文中讨论了数据合成方法,给出了训练误差界的理论分析,并分析了集成学习参数的选择.实验结果表明,PCBoost算法具有处理不平衡数据分类问题的优势. 关键词 数据挖掘;不平衡数据;集成学习;提升;扰动 中图法分类号 TP18 DOI号: 10.3724/SP.J.1016.2012.00202 |