中文分词技术研究被引量：12

Research on Chinese Word Segmentation Technology

下载PDF

导出

摘要中文分词是自然语言处理的基础任务。随着文本数据量的增长,对中文分词进行研究具有十分重要的意义。jieba分词是较为常用的中文分词技术,分词的准确率较高,面向jieba分词技术研究加快分词速度的方法,该方法采用Cython实现分词技术的核心算法,对中文文本进行分词处理。在ICC中文数据集上进行实验,实验结果表明,该分词加速方法能够提高63.9%的分词速度。 Chinese word segmentation is the basic task of natural language processing.With the growth of text data,it is of great significance to study Chinese word segmentation.Jieba word segmentation is a commonly used Chinese word segmentation technology,which has a high accuracy rate.This paper studies the method to speed up word segmentation for Jieba word segmentation technology,which uses the core algorithm of the word segmentation technology of Python to segment Chinese text.Experiments on ICC Chinese data set show that the method can improve the speed of wor d segmentation by 63.9%.

作者韦人予 Wei Renyu(College of Computer and Electronics Information,Guangxi University,Nanning Guangxi 530004,China)

机构地区广西大学计算机与电子信息学院

出处《信息与电脑》 2020年第10期26-29,共4页 Information & Computer

关键词中文分词自然语言处理 jieba分词 chinese word segmentation natural language processing jieba segmentation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1唐琳,郭崇慧,陈静锋.中文分词技术研究综述[J].数据分析与知识发现,2020,4(2):1-17. 被引量：47
2祝永志,荆静.基于Python语言的中文分词技术的研究[J].通信技术,2019,52(7):1612-1619. 被引量：63
3曾小芹.基于Python的中文结巴分词技术实现[J].信息与电脑,2019,0(18):38-39. 被引量：50
4李昆仑,黄厚宽,田盛丰.一种基于有向无环图的多类SVM分类器[J].模式识别与人工智能,2003,16(2):164-168. 被引量：12

二级参考文献29

1刘开瑛.现代汉语自动分词评测技术研究[J].语言文字应用,1997(1):103-108. 被引量：15
2秦颖,王小捷,张素香.汉语分词中组合歧义字段的研究[J].中文信息学报,2007,21(1):3-8. 被引量：11
3黄昌宁,赵海.中文分词十年回顾[J].中文信息学报,2007,21(3):8-19. 被引量：251
4郑家恒,张剑锋,谭红叶.中文分词中歧义切分处理策略[J].山西大学学报（自然科学版）,2007,30(2):163-167. 被引量：10
5Corinna Cortes,Vladimir Vapnik. Support-Vector Networks[J] 1995,Machine Learning(3):273～297
6何莘,王琬芜.自然语言检索中的中文分词技术研究进展及应用[J].情报科学,2008,26(5):787-791. 被引量：25
7刘健,张维明.一种快速的交集型歧义检测方法[J].计算机应用研究,2008,25(11):3259-3261. 被引量：3
8奉国和,郑伟.国内中文自动分词技术研究综述[J].图书情报工作,2011,55(2):41-45. 被引量：104
9孙茂松,左正平,黄昌宁.汉语自动分词词典机制的实验研究[J].中文信息学报,2000,14(1):1-6. 被引量：118
10张梅山,邓知龙,车万翔,刘挺.统计与词典相结合的领域自适应中文分词[J].中文信息学报,2012,26(2):8-12. 被引量：45

共引文献161

1羊勇全,孔德辉,徐瑜清,曹敏.中文文本中SDG交互关系抽取与可视化系统[J].现代测绘,2023,46(4):9-12.
2吴晓春,洪晨,张岳.高校实验仪器与设备管理问答系统[J].中国科技论文在线精品论文,2023(2):179-185.
3孙德山,吴今培.基于线性规划的多类支持向量机算法[J].计算机科学,2005,32(10):160-163. 被引量：5
4吴强,贾传荧,张爱锋,刘爽.球结构支持向量机的改进算法及仿真研究[J].系统仿真学报,2008,20(2):345-348. 被引量：18
5陈念,沈佐民,王汝传.分类器选择的IDS系统入侵检测方法[J].计算机工程与设计,2011,32(4):1280-1283.
6苏晓红.建立统一的国债回购市场[J].金融理论与实践,2000(3):18-19.
7尹萍,杨为进.加强创新意识,重视仪器研制工作[J].现代科学仪器,2000,17(1):3-4. 被引量：3
8张一勇,李建国.第三纪年代地层研究和中国第三纪年代地层表[J].地层学杂志,2000,24(2):120-125. 被引量：15
9孟正,梅瑞,张涛,文伟平.Linux下基于SVM分类器的WebShell检测方法研究[J].信息网络安全,2014(5):5-9. 被引量：21
10段同乐,张冬宁.二叉树多分类SVM在目标分群中的应用[J].无线电工程,2015,45(6):88-91. 被引量：12

同被引文献95

1闵慧祖,王济民,王海英.政策工具视域下幼儿园“小学化”治理方案研究——基于25份省级政策文本[J].教育学术月刊,2021(2):56-62. 被引量：19
2文庭孝,邱均平,侯经川.汉语自动分词研究展望[J].现代图书情报技术,2004(7):6-10. 被引量：20
3周钦强,孙炳达,王义.文本自动分类系统文本预处理方法的研究[J].计算机应用研究,2005,22(2):85-86. 被引量：15
4苏祺,昝红英,胡景贺,项锟.词性标注对信息检索系统性能的影响[J].中文信息学报,2005,19(2):58-65. 被引量：8
5文庭孝.汉语自动分词研究进展[J].图书与情报,2005(5):54-63. 被引量：20
6薛为民,陆玉昌.文本挖掘技术研究[J].北京联合大学学报,2005,19(4):59-63. 被引量：63
7周文帅,冯速.汉语分词技术研究现状与应用展望[J].山西师范大学学报（自然科学版）,2006,20(1):25-29. 被引量：16
8张玉峰,朱莹.基于Web文本挖掘的企业竞争情报获取方法研究[J].情报理论与实践,2006,29(5):563-566. 被引量：23
9张春霞,唐进根,谢寅峰.竹产品信息系统数据库的建立和信息查询功能设计[J].南京林业大学学报（自然科学版）,1996,20(4):53-56. 被引量：2
10陈福生.全文检索在网站搜索系统中的应用[J].电脑编程技巧与维护,2009(12):17-19. 被引量：2

引证文献12

1张鹤凝,马佳琳.基于seq2seq模型的心理咨询对话系统的研究[J].信息记录材料,2021,22(3):207-208. 被引量：1
2董佳琳,张宇航,徐永康,崔长润,丁丹.基于知识图谱的新冠疫情智能问答系统[J].信息技术与信息化,2021(6):258-261. 被引量：7
3白佳,何苗,周浩然,席山山,赵咪咪.计算机类课程智能问答助手的设计与实现[J].数字技术与应用,2021,39(6):160-162. 被引量：1
4李天琪,杨红梅,娄茜然,孙悦红.基于内容推荐的化妆品查询可视化系统设计与实现[J].信息与电脑,2021,33(11):141-143.
5孙静含,任静.计算机文本分析算法发展综述[J].电子技术应用,2023,49(3):42-47. 被引量：1
6李娟,陆露,彭小媚,曾毅,王舒琦.基于大数据文本挖掘技术对幼小衔接舆论的批判性话语分析[J].学前教育研究,2023(3):70-82. 被引量：5
7于恒,石浩洁,李欣.基于多轮智能问答的研究生导师双选系统开发[J].数字技术与应用,2023,41(3):216-218.
8齐翌辰,赵伟超.基于有监督对比学习的航天信息获取与图像生成[J].液晶与显示,2023,38(11):1531-1541.
9邢羽琪,杨柽.基于逆向技术的深层网络爬虫与数据分析[J].软件工程,2023,26(12):41-45. 被引量：2
10尤良辉,张华熊.基于丝绸行业电商评论的属性级情感分析[J].软件工程,2024,27(6):44-47.

二级引证文献17

1卢伟,孙志俊.基于车牌识别的车辆防疫数据系统的设计与实现[J].信息与电脑,2021,33(15):162-165.
2程子佳,陈翀.面向流行性疾病科普的用户问题理解与答案内容组织[J].数据分析与知识发现,2022,6(2):202-211. 被引量：2
3范媛媛,李忠民.中文医学知识图谱研究及应用进展[J].计算机科学与探索,2022,16(10):2219-2233. 被引量：24
4陆衍升,陈梅.总体国家安全观下大学生网络安全科普知识图谱构建研究[J].软件导刊,2022,21(12):146-152.
5侯俊丞,杜渂,何之栋,穆青.基于消防领域的知识图谱智能问答的研究[J].电信快报,2023(4):24-33.
6熊晶,刘永革,韩胜伟,高峰.基于知识图谱的甲骨文智能问答系统[J].信息技术与信息化,2023(5):212-216.
7潘丽莎.基于AI人工智能的学前教育机器人对话系统研究[J].自动化与仪器仪表,2023(5):245-248. 被引量：7
8王益鹏,张雪英,党玉龙,叶鹏.顾及时空过程的台风灾害事件知识图谱表示方法[J].地球信息科学学报,2023,25(6):1228-1239. 被引量：13
9杨雪萍.基于扎根理论的农村幼儿园幼小衔接家园共育保障机制研究[J].教育导刊,2023(9):78-84. 被引量：3
10孙盟盟,奚洋洋.面向科技文献的国内外知识挖掘研究热点与展望——基于WOS核心合集与CNKI数据库的计量分析[J].河北科技图苑,2023,36(5):66-75.

1吕程,彭晓兵,夏峰.某型民机后机身疲劳试验若干加速方法的研究与应用[J].工程与试验,2020,60(1):57-59.
2张慧明.基于多核的卷积神经网络加速方法与系统实现[J].集成电路应用,2020,37(5):10-13. 被引量：2
3邹鼎杰.基于知识图谱和贝叶斯分类器的图书分类[J].计算机工程与设计,2020,41(6):1796-F0003. 被引量：16
4俞颖,林振通,林燕玲,邵志荣.基于词频统计的旅游出行资讯推荐[J].哈尔滨师范大学自然科学学报,2020,36(2):55-59. 被引量：1
5刘芳羽,赵静,李泽,黄敏婷,赵秉元.基于文本挖掘法的北京市家庭医生评价体系构建及实证研究[J].中国全科医学,2020,23(25):3226-3229. 被引量：10
6费晓璐,江澜,陈鹏宇,李嘉,魏岚,江瑞,闾海荣.基于自然语言处理进行新冠肺炎确诊患者流行病学史的变化趋势分析的探索[J].中国数字医学,2020,15(5):76-78. 被引量：4
7王倩,陶晋宜.一种基于欧拉的非接触式检测生理参数的加速方法[J].数学的实践与认识,2020,50(7):154-160. 被引量：6

信息与电脑

2020年第10期

浏览历史

内容加载中请稍等...

中文分词技术研究被引量：12

参考文献4

二级参考文献29

共引文献161

同被引文献95

引证文献12

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

中文分词技术研究 被引量：12

参考文献4

二级参考文献29

共引文献161

同被引文献95

引证文献12

二级引证文献17

相关作者

相关机构

相关主题

浏览历史

中文分词技术研究被引量：12