期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
平行语料库的相似语句去重算法 被引量:4
1
作者 申文明 黄家裕 刘连芳 《广西科学院学报》 2009年第4期248-250,256,共4页
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平... 尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。 展开更多
关键词 去重 相似句子 平行语料库 类KMP
在线阅读 下载PDF
基于概率模型的汉语和越南语的人名音译方法 被引量:1
2
作者 申文明 刘连芳 +1 位作者 黄家裕 温家凯 《广西科学院学报》 2010年第4期439-442,共4页
利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。
关键词 汉越人名翻译 音译 概率模型 音译知识
在线阅读 下载PDF
基于网页正文主题和摘要的网页去重算法 被引量:5
3
作者 周小平 黄家裕 +2 位作者 刘连芳 梁一平 申文明 《广西科学院学报》 2009年第4期251-253,共3页
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分... 针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。 展开更多
关键词 去重 网页 分词 相似度 元搜索
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部