-
题名平行语料库的相似语句去重算法
被引量:4
- 1
-
-
作者
申文明
黄家裕
刘连芳
-
机构
广西大学计算机与电子信息学院
南宁平方软件新技术有限公司
-
出处
《广西科学院学报》
2009年第4期248-250,256,共4页
-
基金
宁市人才小高地基金项目(No.2007007)资助
-
文摘
尝试对平行语料库中需要去重的中文句子相似情况作分类,利用整体相似因子和局部相似因子计算句子的相似度,并借鉴KMP算法的匹配跳跃思想,提出中文字符串匹配的类KMP算法,并对算法进行实验验证。结果表明,算法具有较好的效果,能够实现平行语料库中相似句子的去重。算法开放测试的召回率达94%,去重准确率达到84%。算法可以应用于任何长度的语句比对,适用范围广。
-
关键词
去重
相似句子
平行语料库
类KMP
-
Keywords
duplicate removal
similar sentence
parallel corpus
similar KMP
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于概率模型的汉语和越南语的人名音译方法
被引量:1
- 2
-
-
作者
申文明
刘连芳
黄家裕
温家凯
-
机构
广西大学计算机与电子信息学院
南宁平方软件新技术有限公司
-
出处
《广西科学院学报》
2010年第4期439-442,共4页
-
基金
科技部2010年度科技型中小企业创新基金(10C2614502818)资助
-
文摘
利用概率模型训练、学习得到基于字形的汉越音译知识,实现汉语和越南语的人名音译。音译方法简单有效,在汉译越上效果尤为显著,准确率达到97.41%。
-
关键词
汉越人名翻译
音译
概率模型
音译知识
-
Keywords
Chinese-Vietnamese name translation
transliteration
probabilistic model
transliteration information
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网页正文主题和摘要的网页去重算法
被引量:5
- 3
-
-
作者
周小平
黄家裕
刘连芳
梁一平
申文明
-
机构
广西大学计算机与电子信息学院
南宁平方软件新技术有限公司
-
出处
《广西科学院学报》
2009年第4期251-253,共3页
-
基金
国家中小企业创新基金项目(编号:08c26224501313)资助
-
文摘
针对元搜索返回的网页内容相同,别名差异很大的重复网页,提出基于网页正文主题和摘要的网页去重算法,并通过实验对算法进行有效性验证。该算法首先对各成员搜索引擎返回来的网页标题进行有关处理,提取出网页的主题信息,然后对摘要进行分词,再计算摘要的相似度,二者结合能更好地现出文章摘要的内容,实现网页去重。该算法有效,并且比基于传统特征码的算法有明显的优势,更接近人工统计结果。
-
关键词
去重
网页
分词
相似度
元搜索
-
Keywords
duplicate detection
Web pages
Chinese word segmentation
repetition rate
meta search engine
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-