《计算机学报》文章摘要 全文下载 | |
文章题目 | 自然语言处理中词语上下文有效范围的定量描述 |
作者 | 鲁 松 白 硕 |
作者单位 | (中国科学院计算技术研究所 北京 100080) |
发表年份 | 2001 |
发表月份 | 7期 (页码:742—747) |
文章摘要 | 词语的上下文(context)是语料库语言学中自然语言知识获取和解决自然语言处理中多种实际应用问题必须依靠的资源和基础.但上下文“窗口”开多大为宜呢?为克服当前仅凭主观经验或通过某一特定应用问题中最终结果正确率界定上下文有效范围的不足,我们在引入信息增益方法确定上下文各位置的信息量后,构造上下文位置信息量函数,最终通过多项式积分确定85%信息量的上下文边界,即汉语核心词语最近距离[-8,+9]和英文[-16,+13]位置之间的上下文范围.该文的结果对上下文在自然语言处理中的价值和作用给出了一个具有统计意义的量化解释. 关键词 上下文有效范围,信息增益,上下文位置信息量函数,积分信息量 中图法分类号:TP391 |