《计算机学报》文章摘要 全文下载 | |
文章题目 | 基于无指导学习策略的无词表条件下的汉语自动分词 |
作者 | 孙茂松1) 肖明1) 邹嘉彦2) |
作者单位 | 1)(清华大学智能技术与系统国家重点实验室 北京 100084) 2)(香港城市大学语言资讯科学研究中心 香港) |
发表年份 | 2004 |
发表月份 | 6期(736-742) |
文章摘要 | 摘要 探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益.全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法.大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了247%和566%. 关键词 汉语自动分词;无指导学习;汉字Bigram;互信息与t-测试的组合 中图法分类号 TP391 |