期刊文献+
共找到69篇文章
< 1 2 4 >
每页显示 20 50 100
我国人工智能政策新词发现与演化研究——一个多特征融合的算法 被引量:4
1
作者 刘清民 王芳 黄梅银 《现代情报》 CSSCI 北大核心 2024年第6期18-32,58,共16页
[目的/意义]作为中文分词的基础研究,新词发现是研究政策创新和扩散的重要技术方法。本文通过改进新词发现算法优化了政策文本分词不准确的问题,并构建词库以支持人工智能政策的演化研究。[方法/过程]提出多特征融合新词发现算法MFF,实... [目的/意义]作为中文分词的基础研究,新词发现是研究政策创新和扩散的重要技术方法。本文通过改进新词发现算法优化了政策文本分词不准确的问题,并构建词库以支持人工智能政策的演化研究。[方法/过程]提出多特征融合新词发现算法MFF,实现了对人工智能政策新词的挖掘,从新词角度对人工智能政策的创新、延续和扩散进行演化分析。[结果/结论]实验结果证明,本文提出的多特征融合新词发现算法MFF能够有效提升分词效果,丰富领域词库;人工智能政策新词出现的时序变化反映了不同阶段政策关注的重点发展领域,揭示了中央和地方政府在政策创新、延续、扩散和演化方面的特点。 展开更多
关键词 新词发现 人工智能 政策分析 政策演化 多特征融合算法
在线阅读 下载PDF
基于条件随机场方法的开放领域新词发现 被引量:44
2
作者 陈飞 刘奕群 +3 位作者 魏超 张云亮 张敏 马少平 《软件学报》 EI CSCD 北大核心 2013年第5期1051-1060,共10页
开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网... 开放领域新词发现研究对于中文自然语言处理的性能提升有着重要的意义.利用条件随机场(condition random field,简称CRF)可对序列输入标注的特点,将新词发现问题转化为预测已分词词语边界是否为新词边界的问题.在对海量规模中文互联网语料进行分析挖掘的基础上,提出了一系列区分新词边界的统计特征,并采用CRF方法综合这些特征实现了开放领域新词发现的算法,同时比较了K-Means聚类、等频率、基于信息增益这3种离散化方法对新词发现结果的影响.通过在SogouT大规模中文语料库上的新词发现实验,验证了所提出的方法有较好的效果. 展开更多
关键词 新词发现 CONDITION RANDOM field(CRF) 中文分词
在线阅读 下载PDF
基于微博内容的新词发现方法 被引量:25
3
作者 霍帅 张敏 +1 位作者 刘奕群 马少平 《模式识别与人工智能》 EI CSCD 北大核心 2014年第2期141-145,共5页
新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与... 新词发现在自然语言处理领域具有重要意义,在微博内容上的新词发现比在一般语料上更难.文中提出引入词关联性信息的迭代上下文熵算法,并通过上下文关系获取新词候选列表进行过滤.为进一步提高精度,引入自然语言处理中的词法特征,提出与统计特征相结合的过滤方法.与现有方法相比,准确率和召回率均有大幅提高,F-值提高到89.6%. 展开更多
关键词 新词发现 上下文熵 未登录词提取
在线阅读 下载PDF
基于概率统计技术和规则方法的新词发现 被引量:28
4
作者 贾自艳 史忠植 《计算机工程》 CAS CSCD 北大核心 2004年第20期19-21,83,共4页
新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、... 新词/短语的识别是自然语言处理、信息检索和机器翻译等领域的一项基础研究。该文分析了已有短语抽取技术,并结合汉语特点,提出了基于概率统计技术和规则方法相结合的概念抽取方法。该方法包括高效的“二元语法”统计模型、统计算法、统计选词策略、丰富的规则知识和规则过滤算法。实验证明该方法适用于从大规模语料库中自动高效地发现新词/短语。 展开更多
关键词 新词发现 短语抽取 二元语法 语料库
在线阅读 下载PDF
面向网络语言基于微博语料的新词发现方法 被引量:11
5
作者 雷一鸣 刘勇 霍华 《计算机工程与设计》 北大核心 2017年第3期789-794,共6页
为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语... 为对微博语料中的中文新词进行有效的识别发现,针对微博语料的文本特性,提出一种基于词语互信息模型和外部统计量的新词发现方法。采用互信息统计模型基于候选词内部最小搭配单元向右邻元扩展统计的方法,建立候选词集;针对统计特性、语料特征,进行低频筛选,引入外部统计量的概念进行过滤。该统计方法解决了基于互信息统计模型用于新词发现时只能统计两组成元素的局限性,规避了影响新词发现研究准确性能的N元重叠问题,过滤方法对于包含大量短语句的微博语料用着良好作用,通过实例与对比验证了该方法的有效性。 展开更多
关键词 新词发现 微博语料 互信息 词内部耦合度 外部统计量
在线阅读 下载PDF
基于新词发现的跨领域中文分词方法 被引量:6
6
作者 张军 赖志鹏 +2 位作者 李学 宁更新 杨萃 《电子与信息学报》 EI CSCD 北大核心 2022年第9期3241-3248,共8页
深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了... 深度神经网络(DNN)是目前中文分词的主流方法,但将针对某一领域训练的网络模型用于其他领域时,会因存在跨领域的未登录词(OOV)和表达鸿沟而造成性能显著下降,而在实际中对所有未知领域的训练语料进行人工标注和训练模型并不可行。为了解决这个问题,该文构建了一个基于新词发现的跨领域中文分词系统,可以自动完成从目标领域语料中提取新词、标注语料和训练网络模型的工作。此外,针对现有新词发现算法提取出的词表垃圾词串多以及自动标注语料中存在噪声样本的问题,提出了一种基于向量增强互信息和加权邻接熵的无监督新词发现算法以及一种基于对抗式训练的中文分词模型。实验中将使用北大开源新闻语料训练的网络模型提取出的特征迁移到医疗、发明专利和小说领域,结果表明该文所提方法在未登录词率、准确率、召回率和分词F值方面均优于现有方法。 展开更多
关键词 中文分词 新词发现 跨领域 向量增强互信息 对抗式训练
在线阅读 下载PDF
一种基于新词发现的Web文本表示方法 被引量:4
7
作者 吴春颖 王士同 蔡崇超 《计算机应用》 CSCD 北大核心 2008年第3期764-767,共4页
Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经... Web文本表示是Web文本特征提取和分类的前提,最常用的文本表示是向量空间模型(VSM),其中向量一般是基于词的特征项。由于向量空间模型本身没有考虑文本上下文间的潜在概念结构(如词汇间的共现关系),而Web文本是一种半结构化文本,同时经常有新词出现,因此在VSM基础上提出了一种基于新词发现的Web文本表示方法:首先进行预处理将网页转化为文本;然后进行文本分词;接着通过二元互信息进行新词发现,同时把新词加入字典重新分词;最后用词和新词共同来表示Web文本。实验结果表明,该方法可以帮助识别未登录词并扩充现有字典,能够增强Web文本表示能力,改善Web文本的特征项质量,提高Web文本分类效果。 展开更多
关键词 中文分词 二元语法 互信息 新词发现 Web文本表示
在线阅读 下载PDF
面向社会媒体的开放领域新词发现 被引量:15
8
作者 张华平 商建云 《中文信息学报》 CSCD 北大核心 2017年第3期55-61,共7页
随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低... 随着互联网的发展,社会媒体已经逐渐发展成为信息交流的重要载体。该文针对社会媒体文本的领域分布广、口语化程度高等特征,提出一种面向社会媒体的开放领域新词发现算法。此算法所有步骤均为线性时间复杂度,并且在分析过程中有效降低了内存的使用,从而能够实时处理社会媒体所产生的大规模数据。在6.6GB社会媒体文本语料中的新词发现准确率达到了87.2%,在普通计算机上新词发现速度可达2.6 MB/s。与传统算法相比,该算法在社会媒体领域的大规模语料中速度及精度上均有较好的效果。 展开更多
关键词 社会媒体 新词发现 条件随机场
在线阅读 下载PDF
基于Trie树的词语左右熵和互信息新词发现算法 被引量:12
9
作者 郭理 张恒旭 +1 位作者 王嘉岐 秦怀斌 《现代电子技术》 北大核心 2020年第6期65-69,共5页
由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字... 由于大量新词的出现,使得中文文本分析产生了较大的困难,因此新词发现成为目前中文自然语言处理中的热点和难点问题。为此,文中提出了一种基于Trie树的词语左右熵和互信息新词发现算法。先根据成词规则,筛选掉文本中的停用词和非中文字符,将每个字与其右邻的字组成二元组;然后利用左右信息熵和互信息进行成词概率的计算,根据计算到的成词概率和词频筛选出新词;并且设计了三个实验,验证了算法的有效性和可行性。实验结果表明,该新词发现算法成词准确率较高,比其他新词发现算法时间效率有较大的提高,对于中文分词结果的优化起到重要的作用。 展开更多
关键词 新词发现算法 左右熵 互信息 TRIE树 算法设计 对比验证
在线阅读 下载PDF
基于上下文词频词汇量指标的新词发现方法 被引量:9
10
作者 邢恩军 赵富强 《计算机应用与软件》 CSCD 2016年第6期64-67,共4页
提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的... 提出一种基于上下文词频词汇量的统计指标。该指标通过修改信息熵公式中参数的定义,即将邻接字符串在语料集中出现的次数改成邻接字符串集合的大小,克服了左右信息熵在识别新词时特征不够明显的缺点。同时提出一种递归的基于邻接关系的字符串连接方法,克服了N-gram方法采用固定滑动窗口大小的缺点。实证分析表明该新词发现方法有较高的准确率,通过选取不同的词频词汇量指标值作为阈值,能够在发现更多新词和提高发现新词的准确率方面进行灵活调整,为新词发现提供一种实用的方法。 展开更多
关键词 新词发现 上下文信息熵 词频词汇量指标
在线阅读 下载PDF
基于深层结构模型的新词发现与情感倾向判定 被引量:1
11
作者 孙晓 孙重远 任福继 《计算机科学》 CSCD 北大核心 2015年第9期208-213,共6页
随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向判定为公众情绪预测提供了一种新的思路。通过构建深层条件随机场模型进行序列标记,引入词性、单字位置和... 随着社交网络的发展,新的词汇不断出现。新词的出现往往表征了一定的社会热点,同时也代表了一定的公众情绪,新词的识别与情感倾向判定为公众情绪预测提供了一种新的思路。通过构建深层条件随机场模型进行序列标记,引入词性、单字位置和构词能力等特征,结合众包网络词典等第三方词典。传统的基于情感词典的方法难以对新词情感进行判定,基于神经网络的语言模型将单词表示为一个K维的词义向量,通过寻找新词词义向量空间中距离该新词最近的词,根据这些词的情感倾向以及与新词的词义距离,判断新词的情感倾向。通过在北京大学语料上的新词发现和情感倾向判定实验,验证了所提模型及方法的有效性,其中新词判断的F值为0.991,情感识别准确率为70%。 展开更多
关键词 新词发现 条件随机场 深层结构模型 情感倾向判定 神经网络语言模型
在线阅读 下载PDF
基于微博的情感新词发现研究 被引量:8
12
作者 王非 《软件》 2015年第11期6-8,共3页
微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然... 微博作为社交网络的典型应用,每天都有新的富含情感的新词涌现,面向微博短文本的情感新词发现研究成为自然语言处理领域一个新的研究热点。本文提出了一种基于重复串统计的方法抽取候选词串,使用广义后缀树抽取所有可能的候选词串。然后利用本文提出的相关统计特征:候选词串的互信息与邻接信息熵等对候选词串进行筛选,实现新词过滤。 展开更多
关键词 微博 新词发现 新词过滤 后缀树
在线阅读 下载PDF
基于术语抽取技术的新闻新词发现方法研究 被引量:1
13
作者 张苏 梁颖红 牛丽 《苏州市职业大学学报》 2014年第3期14-16,35,共4页
新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出一种基于混合策略的高精度长术语抽取技术新闻新词发现的方案.在通过预处理的网络新闻语料中,计算基于词... 新闻新词的识别在中英文翻译、手机应用推送等方面有着重要作用.通过对网络新闻新词的使用情况、新闻新词的来源和特点的分析,提出一种基于混合策略的高精度长术语抽取技术新闻新词发现的方案.在通过预处理的网络新闻语料中,计算基于词汇NC-value值的互信息以确定词汇内部结构的结合性,通过新闻新词规则处理进行新闻新词发现. 展开更多
关键词 中文信息处理 新词发现 互信息 NC-value
在线阅读 下载PDF
基于关联规则的新词发现技术研究 被引量:2
14
作者 李明 刘晋 《科技与企业》 2012年第9期290-290,共1页
本文对现有的新词发现方法进行了研究和总结,以进行分词之后的文档作为处理对象,对使用关联规则进行新词发现的方法加以改进,给出了新词发现算法的具体实现过程并利用实验进行验证,结果表明,本文的算法提高了新的专业词汇的查准率,且算... 本文对现有的新词发现方法进行了研究和总结,以进行分词之后的文档作为处理对象,对使用关联规则进行新词发现的方法加以改进,给出了新词发现算法的具体实现过程并利用实验进行验证,结果表明,本文的算法提高了新的专业词汇的查准率,且算法具有一定的健壮性,适用于不同的领域。 展开更多
关键词 关联规则 新词发现 APRIORI 文档分类
在线阅读 下载PDF
基于互信息的微博新词发现算法 被引量:1
15
作者 张艳辉 刘培玉 《科技视界》 2015年第15期137-137,145,共2页
微博是一种近些年来兴起的互联网媒体,每时每刻都会产生各种新生的网络词汇。对于新词发现算法中表现出的缺点,文中提出了一种基于互信息的微博新词发现算法,将互信息合并多字词的方式应用到微博新词的发现中,并且通过实验验证了本文算... 微博是一种近些年来兴起的互联网媒体,每时每刻都会产生各种新生的网络词汇。对于新词发现算法中表现出的缺点,文中提出了一种基于互信息的微博新词发现算法,将互信息合并多字词的方式应用到微博新词的发现中,并且通过实验验证了本文算法对于微博新词发现的有效性。 展开更多
关键词 微博 新词发现 互信息
在线阅读 下载PDF
基于词语条件信息量的新词发现 被引量:1
16
作者 梁韬 张瑞 《电子技术与软件工程》 2014年第11期180-181,共2页
随着互联网用户群体的不断发展,每天都会有海量的文本产生,会产生很多新词,本文提出一种基于词语信息量特征的新词发现方法,使用CRF(条件随机场)进行新词发现的实验,测试中,实验结果表明取得一定的效果。
关键词 新词发现 条件信息量 条件随机场
在线阅读 下载PDF
基于改进互信息和邻接熵的微博新词发现方法 被引量:26
17
作者 夭荣朋 许国艳 宋健 《计算机应用》 CSCD 北大核心 2016年第10期2772-2776,共5页
针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法——MBN-Gram。首先,利用N元递增算法(N-Gram)提取新词的候选项,对提取出来的候选... 针对目前微博新词发现算法中的数据稀疏、可移植性较差以及缺乏对多字词(大于三字)识别的问题,提出了基于改进互信息(MI)和邻接熵(BE)的微博新词发现算法——MBN-Gram。首先,利用N元递增算法(N-Gram)提取新词的候选项,对提取出来的候选新词使用频率和停用字等规则进行过滤;接着再利用改进MI和BE对候选项进行扩展及再过滤;最后,结合相应词典进行筛选,从而得到新词。通过理论及实验分析,MBN-Gram算法在准确率、召回率及F值上均有一定提高。实验结果表明,MBN-Gram算法是有效可行的。 展开更多
关键词 新词发现 多字词 N-GRAM 互信息 邻接熵
在线阅读 下载PDF
基于互信息和邻接熵的新词发现算法 被引量:31
18
作者 刘伟童 刘培玉 +1 位作者 刘文锋 李娜娜 《计算机应用研究》 CSCD 北大核心 2019年第5期1293-1296,共4页
如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻... 如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。 展开更多
关键词 新词发现 互信息 邻接熵 微博语料
在线阅读 下载PDF
基于词内部结合度和边界自由度的新词发现 被引量:37
19
作者 李文坤 张仰森 陈若愚 《计算机应用研究》 CSCD 北大核心 2015年第8期2302-2304,2342,共4页
新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方... 新词发现作为自然语言处理领域的一项基础研究,一直受到学术界和企业界的广泛关注。将新词发现问题转换为确定词语边界问题。首先对语料进行中文分词,然后统计"散串",最后提出一种基于词内部结合度和边界自由度的新词发现方法。通过在大规模语料上进行新词发现实验,验证了该方法的有效性。今后的研究重点将放在如何有效地识别低频新词上,以提高系统的整体性能。 展开更多
关键词 新词发现 内部结合度 边界自由度
在线阅读 下载PDF
利用信息传播特性的中文网络新词发现方法 被引量:5
20
作者 孙立远 周亚东 管晓宏 《西安交通大学学报》 EI CAS CSCD 北大核心 2015年第12期59-64,共6页
针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面... 针对已有方法识别出的网络中文新词生命周期短且很快不再为人们所用的问题,提出了一种基于信息传播特性的中文新词发现方法。该方法结合"新词传播范围广、持续时间长"的特点,从用户覆盖率、话题覆盖率和新词生命周期3个方面设计统计量;采用N-gram算法得到候选词串列表;用基于词频和词语灵活度的方法过滤垃圾词串。实验中以微博文本作为语料来源,与已有方法相比,用户特性使得新词识别的准确率提高了11%,话题特性使准确率提高了10%,时间特性使准确率提高了13%,综合用户、话题和时间的方法使准确率提高了16%。实验结果表明:该方法中的每个特性都提高了中文网络新词识别的准确率,而且同时考虑3种特性的准确率比只考虑单一特性的高。 展开更多
关键词 新词发现 信息传播 用户行为 时间特性
在线阅读 下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部