结合决策树方法的中文姓名识别被引量：16

Chinese Name Identification Integrated Decision Tree Learning

下载PDF

导出

摘要中文姓名识别是自然语言处理中专名识别的一个重要的子问题 ,本文将中文姓名的识别过程细分为三个步骤 :抽取阶段、分类阶段和消歧阶段。利用中文姓和名的用字概率信息 ,在文本中抽取潜在的中文姓名 ,以及其相关的上下文词法、语法和语义特征 ,并将潜在姓名是否是真实姓名的判别看作是两分类问题 ,并利用决策树算法来实现初步判别 ,最后消除初步判别结果中的歧义现象。实验结果表明 ,该方法的召回率和准确率都可达到 90 %以上。 Chinese person name identification is a subfield of Named Entity Identification in natural language processing. This identification is divided into three stages in this paper: extraction, classification, and disambiguation. The candidate Chinese person names are extracted using statistical information. The morphological, syntax, and semantic features of the context are also extracted to compose the sample of classification. The estimation of the candidate is deemed to classification. We classify every candidate using decision tree to distinguish whether it is a real Chinese person name. In the end, the inconsistency in classification is disambiguated. Recall and precision are all above 90% in experiments using this method.

作者王振华孔祥龙陆汝占刘绍明

机构地区上海交通大学计算机科学与工程系富士施乐公司研究本部

出处《中文信息学报》 CSCD 北大核心 2004年第6期10-15,共6页 Journal of Chinese Information Processing

基金自然科学基金资助项目 (6 0 4 96 32 6 ) 日本富士施乐公司资助项目

关键词人工智能自然语言处理中文姓名识别决策树自然语言处理 artificial intelligence natural language processing Chinese person name identification decision tree natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1Michael Fleischman, Eduard Hovy, Fine Grained Classification of Named Entities[A] , the 19th international Conference on Computational Linguistics (COLING2002), 2002, 267- 273.
2Tom M. Mitchell, Machine Learning[M], The McGraw - Hill Companies, Inc., 1997.

同被引文献177

1莫宏伟,吕淑萍,管凤旭,徐立芳,马忠丽,王辉.基于人工免疫系统的数据挖掘技术原理与应用[J].计算机工程与应用,2004,40(14):28-33. 被引量：10
2刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：198
3季姮,罗振声.基于统计和规则的中文姓名自动辨识[J].语言文字应用,2001(1):14-18. 被引量：13
4黄德根,马玉霞,杨元生.基于互信息的中文姓名识别方法[J].大连理工大学学报,2004,44(5):744-748. 被引量：12
5张克亮.基于HNC理论的句法结构歧义消解[J].中文信息学报,2004,18(6):43-52. 被引量：9
6郭艳华,周昌乐.自然语言理解研究综述[J].杭州电子工业学院学报,2000,20(1):58-65. 被引量：31
7全昌勤,何婷婷,姬东鸿,刘辉.从搭配知识获取最优种子的词义消歧方法[J].中文信息学报,2005,19(1):30-35. 被引量：13
8刘蓓,杜利民.汉语口语对话系统中语义分析的消歧策略[J].中文信息学报,2005,19(1):76-83. 被引量：3
9刘柏嵩.基于本体的知识管理关键技术研究[J].情报学报,2005,24(1):75-81. 被引量：18
10熊英,朱杰,孙静.A Semi-automatic Method Based on Statistic for Mandarin Semantic Structures Extraction in Specific Domains[J].Journal of Shanghai Jiaotong university(Science),2004,9(4):25-29. 被引量：1

引证文献16

1杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
2孙飞显,李涛,蒋亚平,王铁方,倪建成,龚勋.基于人工免疫原理的中文姓名识别方法[J].四川大学学报（工程科学版）,2006,38(1):98-102. 被引量：1
3李丽双,黄德根,陈春荣,杨元生.SVM与规则相结合的中文地名自动识别[J].中文信息学报,2006,20(5):51-57. 被引量：32
4毛婷婷,李丽双,黄德根.基于混合模型的中国人名自动识别[J].中文信息学报,2007,21(2):22-28. 被引量：10
5叶琳莉,黄日茂.结合决策树方法的中文机构名称识别[J].福建电脑,2007,23(12):184-184. 被引量：4
6贾宁,张全.基于最大熵模型和规则的中文姓名识别[J].计算机工程与应用,2007,43(35):1-4. 被引量：6
7曹叶新.对HMM下的《光明日报》中文姓名的具体识别法的探究[J].技术与市场,2009,16(9):57-58.
8帅训波,马书南.基于决策树的现代汉语中任职关系抽取研究[J].昆明理工大学学报（理工版）,2009,34(4):27-31.
9林琛,李弼程,周杰.网络新闻口语评论文本中人物对象识别方法[J].中文信息学报,2010,24(4):25-31. 被引量：2
10周昆,胡学钢.一种基于本体论和规则匹配的中文人名识别方法[J].微计算机信息,2010,26(31):87-89. 被引量：5

二级引证文献66

1成于思,施云涛.融合词典特征的Bi-LSTM-WCRF中文人名识别[J].中文信息学报,2020(4):69-76. 被引量：7
2张素香,高国洋,戚银城.基于条件随机场的中国人名识别方法[J].郑州大学学报（理学版）,2009,41(2):40-43. 被引量：7
3蔡华利,刘鲁,李红.基于规则推理的突发事件发生地点识别研究[J].情报学报,2011,30(2):219-224. 被引量：8
4李玉森,张雪英,袁正午.面向GIS的地理命名实体识别研究[J].重庆邮电大学学报（自然科学版）,2008,20(6):719-724. 被引量：10
5肖磊.《左传》地名研究初探[J].文教资料,2009(18):204-207. 被引量：4
6高国洋,戚银城,潘德锋.基于条件随机场与规则相结合的中文地名识别[J].电脑开发与应用,2009,22(8):26-28. 被引量：2
7李诺,张全.利用地名用字分析的中文地名识别处理[J].计算机工程与应用,2009,45(28):230-232. 被引量：7
8李茹,宋小香,王文晶.基于汉语框架网的中文问题分类[J].计算机工程与应用,2009,45(31):111-114. 被引量：8
9张腾飞,王晓磊,王保云.基于场景信息融合的中文姓名识别方法研究[J].计算机工程与应用,2009,45(34):147-151. 被引量：1
10唐旭日,陈小荷,许超,李斌.基于篇章的中文地名识别研究[J].中文信息学报,2010,24(2):24-32. 被引量：18

1刘秉伟,黄萱菁,郭以昆,吴立德.基于统计方法的中文姓名识别[J].中文信息学报,2000,14(3):16-24. 被引量：48
2杨霞,黄陈英.基于HMM的中文姓名识别方法研究[J].硅谷,2009,2(3).
3张跃,姚天顺.基于结合性自动识别中文姓名[J].小型微型计算机系统,1997,18(10):43-48. 被引量：9
4贾宁,张全.基于最大熵模型的中文姓名识别[J].计算机工程,2007,33(9):31-33. 被引量：5
5贾宁,张全.基于最大熵模型和规则的中文姓名识别[J].计算机工程与应用,2007,43(35):1-4. 被引量：6
6赵伟,张学,安诚.基于统计和规则的中文姓名识别[J].信息与电脑（理论版）,2011(5):28-29.
7熊桂喜,李政.基于规则和语料库的中文姓名识别研究[J].计算机与信息技术,2007(12):47-49.
8刘竞,苏万力.统计和规则相结合的中文姓名识别方法研究[J].福建电脑,2006,22(7):92-92. 被引量：3
9贾品贵,杨一平,卢朋.基于类向量模型的中文姓名识别研究[J].计算机应用研究,2007,24(4):111-113. 被引量：2
10牛正雨,柴佩琪.文语转换系统中的中文姓名识别[J].计算机应用研究,2001,18(1):25-26. 被引量：7

中文信息学报

2004年第6期

浏览历史

内容加载中请稍等...

结合决策树方法的中文姓名识别被引量：16

参考文献2

同被引文献177

引证文献16

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

结合决策树方法的中文姓名识别 被引量：16

参考文献2

同被引文献177

引证文献16

二级引证文献66

相关作者

相关机构

相关主题

浏览历史

结合决策树方法的中文姓名识别被引量：16