摘要
现有的中文分词系统缺少专业分词组件,难以满足特定领域术语分词的需求,导致专业领域分词精确度较低。为此,提出基于Trie树的京剧术语词典。扩展主流词库,通过定义语义代码的方式建立京剧专业术语之间的语义联系,并利用双数组算法实现Trie。实验结果表明,加入专业术语词典可以提高系统的分词准确率。
现有的中文分词系统缺少专业分词组件,难以满足特定领域术语分词的需求,导致专业领域分词精确度较低。为此,提出基于Trie树的京剧术语词典。扩展主流词库,通过定义语义代码的方式建立京剧专业术语之间的语义联系,并利用双数组算法实现Trie。实验结果表明,加入专业术语词典可以提高系统的分词准确率。
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第S1期30-32,共3页
Computer Engineering
关键词
中文分词
分词词典
京剧术语
语义词典
双数组Trie
Chinese words segmentation
segmentation dictionary
Beijing Opera professional words
semantic dictionary
double array Trie