期刊文献+
共找到38篇文章
< 1 2 >
每页显示 20 50 100
MD&A文本相似性会影响审计风格吗?
1
作者 阳震青 占焱芳 《南京审计大学学报》 CSSCI 北大核心 2024年第5期26-36,共11页
“管理层讨论与分析”(MD&A)信息披露通常会受到管理层的影响,并带来相应的披露后果。以2014—2021年上市公司为研究样本,以审计师向客户发表非标准审计意见的准确度来衡量审计风格,实证检验MD&A文本相似性对审计风格的影响。... “管理层讨论与分析”(MD&A)信息披露通常会受到管理层的影响,并带来相应的披露后果。以2014—2021年上市公司为研究样本,以审计师向客户发表非标准审计意见的准确度来衡量审计风格,实证检验MD&A文本相似性对审计风格的影响。研究发现:MD&A文本相似性越高,审计风格越激进;分析师跟踪、信息披露质量和媒体关注度削弱了MD&A文本相似性与审计风格之间的正相关关系。影响机制研究发现:MD&A文本相似性越高,审计师投入的审计资源会越少,要求的收费水平就会降低,使得审计风格更加激进。异质性分析发现:MD&A文本语调更为积极的一组,MD&A文本相似性与审计风格之间的关系不显著,语调消极的一组二者之间仍存在显著的正相关关系,而MD&A文本可读性程度的高低不影响MD&A文本相似性和审计风格之间的关系。上述研究结论对监管机构落实审计师责任、审计师作出审计判断和投资者进行投资决策等具有一定的参考意义。 展开更多
关键词 MD&A 文本相似性 审计风格 审计意见 审计费用 分析师跟踪 信息披露 媒体关注度
在线阅读 下载PDF
基于文本相似性技术的地址文本补全系统设计与实现
2
作者 廖洪亮 《信息记录材料》 2024年第10期73-75,共3页
当前地址信息应用领域日益广泛,地址文本信息的完整性、规范性、准确性尤为重要。因历史原因,现有银行系统中收录的地址文本信息出现了各种录入不完整、关键字段缺失等问题,导致后续地址文本信息解析成经纬度信息时无法解析、解析偏差... 当前地址信息应用领域日益广泛,地址文本信息的完整性、规范性、准确性尤为重要。因历史原因,现有银行系统中收录的地址文本信息出现了各种录入不完整、关键字段缺失等问题,导致后续地址文本信息解析成经纬度信息时无法解析、解析偏差较大等。本文基于文本相似性技术,设计实现了一种高效率、高准确度,能够快速整合接入各类应用的地址信息补全系统。该系统通过中文分词、杰卡德相似系数算法,计算不完整地址文本信息与现有完整地址文本信息的相似度,来补全不完整的地址文本信息,从而实现地址文本信息的准确解析。本文通过一组实验数据验证测试系统效果:若相似系数≥0.3,地址文本补全并解析后的准确率可达70%以上,较符合实际应用。 展开更多
关键词 地址文本补全 文本相似性 中文分词 杰卡德相似系数
在线阅读 下载PDF
文本相似性度量中参数相关性与优化配置研究 被引量:11
3
作者 张祖平 徐昕 +1 位作者 龙军 袁鑫攀 《小型微型计算机系统》 CSCD 北大核心 2011年第5期983-988,共6页
针对文本相似性度量中的相似度阈值、准确率、召回率、shingle滑动窗口大小、shingle权重系数和文本属性等参数相互影响、关系复杂的问题,研究了这些参数之间的相关性,并结合实际应用需求,提出各参数可优化配置的建议,分析与设计了相似... 针对文本相似性度量中的相似度阈值、准确率、召回率、shingle滑动窗口大小、shingle权重系数和文本属性等参数相互影响、关系复杂的问题,研究了这些参数之间的相关性,并结合实际应用需求,提出各参数可优化配置的建议,分析与设计了相似度阈值可适应文本篇幅属性的相似性度量算法.通过某基金2009年的7378个项目申请书的比对分析,结果表明:提出的算法不但适用于大规模的文本集合,而且在短小的文本集合中进行相似性度量也具有很高的应用价值,其准确率和召回率均可高达95%以上. 展开更多
关键词 文本相似性度量 算法 邻接词组 参数相关性分析 召回率
在线阅读 下载PDF
一种基于熵的文本相似性计算方法 被引量:13
4
作者 李圣文 凌微 +1 位作者 龚君芳 周长征 《计算机应用研究》 CSCD 北大核心 2016年第3期665-668,共4页
文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法... 文本比较是求解两个文本间相似度的过程,文本间的相似度越高代表两个文本越趋于类似。传统的相似度算法主要从字符的角度度量文本的相似性,忽略了文本内多个共同文本串对于文本相似度的影响。针对此问题提出一种基于熵的相似度求解方法,在对文本间字符信息的提取基础上,建立共同子文本串度量维度,然后采用熵的方法进行相似度度量。实验表明,该方法具有更平滑的相似度曲线,从而验证了算法的有效性和准确性。 展开更多
关键词 文本相似性 字符串匹配 编辑距离算法 最长公共子序列
在线阅读 下载PDF
基于全文索引与余弦公式医学文本相似性分析 被引量:1
5
作者 谢翠萍 陈家益 白金山 《微型电脑应用》 2014年第1期25-27,共3页
医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点。针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式... 医学文本相似性问题是医学文本挖掘中的重要内容,如何能够快速计算出大数据量下的医学文本的相似性情况是医学文本相似性计算的重点。针对基于传统余弦公式医学文本相似性分析算法在性能上的缺陷,提出了一种基于全文索引技术与余弦公式医学文本相似性分析算法,对医学文本相似性进行分析。采用全文索引技术对医学文本数据相关关键词进行索引,并根据若干关键词在索引中检索出部分数据,从而减少计算复杂度,提高效率。实验表明,该方法比基于传统余弦公式医学文本相似性分析算法具有更优的性能。 展开更多
关键词 医学文本相似性 余弦公式 全文索引 文本挖掘 向量空间模型
在线阅读 下载PDF
结合关键词微变和LD算法的文本相似性研究
6
作者 程玉胜 梁辉 +1 位作者 王一宾 任勇 《计算机工程与应用》 CSCD 北大核心 2016年第8期70-73,124,共5页
为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clust... 为了解决基于传统向量空间模型的文本相似性算法没有考虑向量高维及关键词的微变,而导致文本相似性计算结果不够精确的问题,提出了关键词微变情况下基于聚类和LD算法的文本相似性算法TSABCLDA(Text Similarity Algorithm Based on Clustering and LD Algorithm)。对文本进行移除数字、标点符号和停用词等预处理;采用聚类的方法约简文本中的低频词,利用LD算法计算特征词间的相似度,建立文本相似度矩阵;用特征词相似度及其权重构建的空间向量计算文本间的相似度,这样不仅考虑了关键词微变的情况,而且有效地解决了文本向量的高维问题,将其应用于文本挖掘中,能够提高相似文本的挖掘效率。实验结果表明,由于考虑了关键词微变情况,在一定的阈值范围内,该算法文本相似性的准确率得到了明显的提高。 展开更多
关键词 聚类 LD算法 文本相似度矩阵 向量空间模型 文本相似性
在线阅读 下载PDF
文本相似性在抄袭问题中的应用研究 被引量:2
7
作者 丁智斌 霍豫宗 杜念 《华北科技学院学报》 2013年第1期91-95,共5页
Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究... Internet的高速增长同时带动了信息的高速增长,这些信息基本是以文本形式保存的。文本信息的特点是无结构,即便有也是极其有限的结构。文本相似性是文本挖掘研究的一个重点也是一个难点。从文本特征得到文本相似性信息是本文的主要研究方向。本文采用了PHP+MYSQL的开发环境对文本相似性的计算过程进行了模拟。计算过程采用的是余弦相似度和Jaccard相似度这两种基于向量内积的方法。在实验过程中通过对文本特征的操作来判断文本之间是否相似,另外还实现了将文本转化为简单的字符串集合进行比较来判断文本是否相似的方法。 展开更多
关键词 文本挖掘 文本相似性 文本特征
在线阅读 下载PDF
基于命名实体n-gram图的文本相似性度量
8
作者 于营 周显春 贾树文 《现代计算机》 2022年第2期73-77,共5页
文本比较在自然语言处理中应用广泛。本文提出了一种新的文本相似性度量方法,该方法利用从文本和n-gram图中提取的命名实体信息来表示文档,使用OpenCalais作为命名实体识别服务,使用JInsect工具箱来构造和管理n-gram,使用文本聚类算法k-... 文本比较在自然语言处理中应用广泛。本文提出了一种新的文本相似性度量方法,该方法利用从文本和n-gram图中提取的命名实体信息来表示文档,使用OpenCalais作为命名实体识别服务,使用JInsect工具箱来构造和管理n-gram,使用文本聚类算法k-Means进行文本相似性度量,使用各种聚类有效性指标对生成的聚类进行评估。 展开更多
关键词 自然语言处理 n-gram图 文本聚类 文本相似性度量
在线阅读 下载PDF
利用N-gram和语义分析的维吾尔语文本相似性检测方法 被引量:1
9
作者 张莹 亚森·艾则孜 吴顺祥 《计算机应用研究》 CSCD 北大核心 2019年第9期2722-2725,2729,共5页
为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析... 为了实现维吾尔语文本的相似性检测,提出一种基于N-gram和语义分析的相似性检测方法。根据维吾尔语单词特征,采用了N-gram统计模型来获得词语,并根据词语在文本中的出现频率来构建词语-文本关系矩阵,并作为文本模型。采用了潜在语义分析(LSA)来获得词语及其文本之间的隐藏关联,以此解决维吾尔语词义模糊的问题,并获得准确的相似度。在包含重组和同义词替换的剽窃文本集上进行实验,结果表明该方法能够准确有效地检测出相似性。 展开更多
关键词 维吾尔语 文本相似性检测 N-gram统计模型 潜在语义分析
在线阅读 下载PDF
基于相似度融合的中文文本相似性度量方法研究 被引量:2
10
作者 温雨 王琦 严武军 《信息技术与信息化》 2023年第10期36-39,共4页
中文文本之间可能具有复杂的上下文关系,比较容易出现语义混淆、语序混乱等问题,而使用传统的度量文本相似性的方法很难捕捉到这些关系,所以对于中文文本的结构特点等造成度量中文文本相似性存在的不足,采用了一种基于相似度融合的方式... 中文文本之间可能具有复杂的上下文关系,比较容易出现语义混淆、语序混乱等问题,而使用传统的度量文本相似性的方法很难捕捉到这些关系,所以对于中文文本的结构特点等造成度量中文文本相似性存在的不足,采用了一种基于相似度融合的方式计算两个文本的相似度。首先通过提取文本字面特征构建结构相似度模型;然后通过语义特征构建语义相似度模型,根据相应判断文本相似性的逻辑,采用层次分析法确定权重,从而提高中文文本的相似度。经过对比实验结果表明,所提出的模型在短文本方面的准确率达到了81.9665%。 展开更多
关键词 相似度融合 文本相似性 字面特征 语义特征 对比实验 层次分析法
在线阅读 下载PDF
注意力孪生网络在生物医学文本相似性上的应用
11
作者 安宏达 李正光 +1 位作者 吴镝 郑巍 《大连交通大学学报》 CAS 2021年第2期109-113,共5页
将注意力机制引入到孪生网络中,利用注意力机制提取词的权重并影响孪生网络输出的语义特征,降低输入序列的噪音,而加强了两个序列的相互关系,从而提高改进孪生网络的性能.在两个生物医学文本相似性语料上(SICK和DBMI)的实验结果表明,注... 将注意力机制引入到孪生网络中,利用注意力机制提取词的权重并影响孪生网络输出的语义特征,降低输入序列的噪音,而加强了两个序列的相互关系,从而提高改进孪生网络的性能.在两个生物医学文本相似性语料上(SICK和DBMI)的实验结果表明,注意力机制的孪生网络对评估文本相似性的性能有大幅度的提升(在SICK和DBMI数据集上,皮尔森相关系数相对于基线分别提升了0.23和0.7). 展开更多
关键词 文本相似性 孪生网络 注意力机制 词嵌入
在线阅读 下载PDF
基于文本相似性检索技术解决命题中重题检测问题的实践——以北京市自学考试命题为例
12
作者 沈钢 《中国考试》 2018年第3期38-42,共5页
本文阐述试题查重系统的设计原理、基本框架和工作流程,以北京市自学考试命题数据为基础,进行试题查重系统测试并分析数据结果。实验结果表明,试题查重系统在重题和相似题的判断上具有很高的准确率和查全率,可以有效地控制自学考试复本... 本文阐述试题查重系统的设计原理、基本框架和工作流程,以北京市自学考试命题数据为基础,进行试题查重系统测试并分析数据结果。实验结果表明,试题查重系统在重题和相似题的判断上具有很高的准确率和查全率,可以有效地控制自学考试复本试卷间的试题重复率。 展开更多
关键词 重题检测 文本相似性检索 自学考试 命题
在线阅读 下载PDF
文本相似度指标分析及文本相似性分析方法研究 被引量:2
13
作者 张自锋 周育忠 陶秀杰 《信息系统工程》 2019年第4期147-147,共1页
近些年来国家为了能够有效地提高企业的科研能力,对企业所申报的科技项目都会给予一定程度上的拨款支持。为此避免将科研经费浪费在重复申报的低质量企业科技项目上,企业的领导往往需要对所申报的科技项目进行文本相似性分析。基于上述... 近些年来国家为了能够有效地提高企业的科研能力,对企业所申报的科技项目都会给予一定程度上的拨款支持。为此避免将科研经费浪费在重复申报的低质量企业科技项目上,企业的领导往往需要对所申报的科技项目进行文本相似性分析。基于上述背景,论文将对文本相似度指标分析及文本相似性分析方法进行深入研究,以期望能够有效地提高对企业对相似科技项目的甄别率。 展开更多
关键词 文本相似度指标 文本相似性 分析
在线阅读 下载PDF
短文本相似性的改进及其在电商评论推荐中的应用 被引量:2
14
作者 潘浩 高英铭 潘尔顺 《工业工程与管理》 CSSCI 北大核心 2019年第5期132-137,145,共7页
在常用评论特征的基础上,提出了一种基于搜索引擎(如百度)的文本相似性方法获取评论与产品标题之间的相似性,并作为新的评论特征建立评论推荐模型。实验证明,引入评论与产品相似性特征可明显改进评论推荐机制的有效性,同时文本相似性评... 在常用评论特征的基础上,提出了一种基于搜索引擎(如百度)的文本相似性方法获取评论与产品标题之间的相似性,并作为新的评论特征建立评论推荐模型。实验证明,引入评论与产品相似性特征可明显改进评论推荐机制的有效性,同时文本相似性评价的准确性可以借助搜索引擎得到较大提升。 展开更多
关键词 评论推荐 文本相似性 搜索引擎 点互信息 指派问题
原文传递
基于文本内容相似性的网络用户群分析
15
作者 景永霞 苟和平 符传谊 《佳木斯大学学报(自然科学版)》 CAS 2017年第5期843-845,共3页
在研究社交网络用户相关网络信息的基础上,提出一种基于微博博文或论坛帖子内容分析的用户群行为特征分析方法,通过用户所发表博文或帖子内容的相似性比较,根据用户之间博文或帖子的相似性来判断用户的相似性,进而建立用户群,提取群内... 在研究社交网络用户相关网络信息的基础上,提出一种基于微博博文或论坛帖子内容分析的用户群行为特征分析方法,通过用户所发表博文或帖子内容的相似性比较,根据用户之间博文或帖子的相似性来判断用户的相似性,进而建立用户群,提取群内用户的行为特征。实践证明此方法能够有效地分析社交网络中具有相同用户行为特征的用户群。 展开更多
关键词 社交网络 文本相似性 行为特征 用户群
在线阅读 下载PDF
年报文本信息相似性对审计收费的影响 被引量:1
16
作者 李世刚 鲁逸楠 《财会月刊》 北大核心 2021年第16期111-119,共9页
年报文本信息的披露通常会受到管理层的影响,并产生相应的披露后果。以2004~2017年上市公司为研究对象,借助计算机文本信息处理技术,实证检验年报文本信息相似性对审计师定价决策的影响。研究发现:年报文本信息相似性越高,审计师投入的... 年报文本信息的披露通常会受到管理层的影响,并产生相应的披露后果。以2004~2017年上市公司为研究对象,借助计算机文本信息处理技术,实证检验年报文本信息相似性对审计师定价决策的影响。研究发现:年报文本信息相似性越高,审计师投入的资源越少,感知的信息风险越低,从而要求的收费水平越低;企业内部控制强化了上述影响,但审计师行业专长则弱化了年报文本信息相似性与审计收费之间的负相关关系强度。通过机制研究发现:年报文本信息相似性越高,审计师资源投入越少且感知的风险水平越低,具体表现为审计时间投入越少,上市公司信息违规风险越低,越被倾向于出具标准无保留审计意见。上述研究对加强审计师年报文本信息披露执业关注和审计师执业准则建设具有重要的参考价值。 展开更多
关键词 年报文本信息相似性 审计收费 内部控制 审计师行业专长
在线阅读 下载PDF
基于话题相似性改进的K-means新闻话题聚类 被引量:7
17
作者 陈龙 徐建 +1 位作者 于亚男 胡建洪 《计算机与数字工程》 2017年第8期1560-1565,共6页
新闻话题聚类在舆情监督、热点话题发现、突发事件实时追踪等领域有着重要的应用。基于K-means的文本聚类算法由于算法简单易实现,时空复杂度低,聚类效果优异等特点被广泛用作新闻话题聚类算法。但传统的K-means算法又具有其局限性,如... 新闻话题聚类在舆情监督、热点话题发现、突发事件实时追踪等领域有着重要的应用。基于K-means的文本聚类算法由于算法简单易实现,时空复杂度低,聚类效果优异等特点被广泛用作新闻话题聚类算法。但传统的K-means算法又具有其局限性,如对初始中心点的选择敏感和用户必须自定义分组K等,导致算法收敛于局部最优而无法得到全局最优解。针对传统的K-means算法中初始聚类中心点随机选择导致聚类结果不稳定的问题,提出了一种改进的K-means算法用于新闻话题检测,该算法基于新闻报道相似性选择初始聚类中心点,保证各新闻话题集群具有很好的区分度。并在此基础上,根据新闻话题覆盖率自动确定话题集群个数K。实验结果表明,改进后的算法能够生成稳定的,高质量的话题集群。 展开更多
关键词 K-MEANS算法 新闻话题检测 舆情监督 文本相似性 话题覆盖率
在线阅读 下载PDF
应用于电网资产模型搜索的交叉权积文本相似度计算方法
18
作者 赵增涛 张豪 余益龙 《水利水电技术(中英文)》 北大核心 2020年第S02期209-214,共6页
电网资产模型搜索中对搜索结果的排序,采用了按综合得分由高到低排列的方法。综合得分由多字段综合文本相似度得分、过滤条件匹配度得分、关注热度得分,按照一定的占比计算得到。多字段综合文本相似度算法的基础是短文本的相似度计算方... 电网资产模型搜索中对搜索结果的排序,采用了按综合得分由高到低排列的方法。综合得分由多字段综合文本相似度得分、过滤条件匹配度得分、关注热度得分,按照一定的占比计算得到。多字段综合文本相似度算法的基础是短文本的相似度计算方法,需要根据电网资产模型中各个不同领域数据的特点进行灵活调整。设计出具有一定可调节性的短文本相似性计算方法。算法构建两个与需要计算相似度的两个短文本字符长度相同的权重数组并赋予初识权重值,再遍历其中一个字符串中的字符,根据字符是否在另外一个字符串中是否存在调整其权重值,之后对单字匹配、连续匹配的字符计算权重交叉乘积获得文本相似性权重,与原始权重积相除获得文本相似度值。应用交叉权积相似性算法的电网资产模型搜索,在搜索结果的准确性方面更贴近电力专业用户的期望。 展开更多
关键词 电网资产模型 搜索 文本相似性 文本权重 交叉权积
在线阅读 下载PDF
新闻相似性模型设计及实现
19
作者 曹大军 杨倪智 +1 位作者 高宏旭 梁筱彤 《移动信息》 2021年第2期184-186,共3页
移动新闻客户端已经成为新闻资讯主要获取通道,其传播快、内容丰富,但是带来海量资讯的同时也会影响阅读资讯的效果,不利于人们寻找自己感兴趣的新闻。几乎新闻客户端都提供了新闻关联性推荐,在用户阅读新闻时推荐相似或者相关联的新闻... 移动新闻客户端已经成为新闻资讯主要获取通道,其传播快、内容丰富,但是带来海量资讯的同时也会影响阅读资讯的效果,不利于人们寻找自己感兴趣的新闻。几乎新闻客户端都提供了新闻关联性推荐,在用户阅读新闻时推荐相似或者相关联的新闻,满足用户广度和深度阅读。本文提出基于新闻标题、内容构建相似性模型和基于卷积神经网络构建新闻分类模型,融合这两个因素构建相似新闻推荐系统。 展开更多
关键词 卷积神经网络 文本相似性 文本分类
在线阅读 下载PDF
“一带一路”倡议海外传播分析——基于对主要国际媒体的文本挖掘方法 被引量:12
20
作者 李倩倩 李瑛 刘怡君 《情报杂志》 CSSCI 北大核心 2019年第3期121-126,132,共7页
[目的/意义]了解国际主流媒体如何建构"一带一路"倡议,有利于把握"一带一路"倡议在国际传播的议程设置方向。[方法/过程]以CNN、BBC、半岛电视台(AJ)、今日俄罗斯(RT)关于倡议的新闻报道为研究对象,利用主题模型、... [目的/意义]了解国际主流媒体如何建构"一带一路"倡议,有利于把握"一带一路"倡议在国际传播的议程设置方向。[方法/过程]以CNN、BBC、半岛电视台(AJ)、今日俄罗斯(RT)关于倡议的新闻报道为研究对象,利用主题模型、文档相似性等文本挖掘方法,探析国际主流媒体的报道重点和相似关联性。[结果/结论]发现:在内容上,国际媒体更多关注倡议落实过程中面临的严峻挑战和对国际社会上产生的影响;在参与度上,国际媒体援引中国国家主流媒体信源的内容不多,中国智库和研究者的声音比较薄弱;在相似性上,CNN、BBC、AJ享有更多的相似议程设置,而RT则相对独立。最后,提出增强"一带一路"倡议海外传播能力的建议。 展开更多
关键词 "一带一路"倡议 海外传播 文本挖掘 主题模型 文本相似性
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部