-
题名基于“松弛尺度”的短语翻译对抽取方法
被引量:6
- 1
-
-
作者
何彦青
周玉
宗成庆
王霞
-
机构
中国科学院自动化研究所模式识别国家重点实验室
诺基亚(中国)研究中心
-
出处
《中文信息学报》
CSCD
北大核心
2007年第5期91-95,共5页
-
基金
国家自然科学基金资助项目(60575043
60121302)
+1 种基金
国家863计划资助项目(2006AA01Z194)
诺基亚(中国)研究中心合作项目的资助
-
文摘
短语对抽取是基于短语统计机器翻译方法的关键技术。当前广泛使用的Och提出的短语对抽取方法,过于依赖词对齐结果,因而只能抽取与词对齐完全相容的短语对。本文给出一种基于"松弛尺度"的短语抽取方法,对不能完全相容的短语对,结合词性标注信息和词典信息来判断是否进行抽取,放松"完全相容"的限制,可以保证为更多的源短语找到目标短语。实验表明,该抽取方法的性能比Och的方法有明显的改善和提高。
-
关键词
人工智能
机器翻译
短语对抽取
统计机器翻译
松弛尺度
-
Keywords
artificial intelligence
machine translation
phrase pair extraction
statistical machine translation
flexible scale
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉英短语翻译对的自动抽取
被引量:3
- 2
-
-
作者
刘颖
铁铮
余畅
-
机构
清华大学中国语言文学系
-
出处
《计算机应用与软件》
CSCD
北大核心
2012年第7期69-72,共4页
-
基金
教育部留学归国基金项目(20101021603)
-
文摘
介绍从平行语料库中如何抽取双语短语翻译对。首先用统计模型正则期望从汉语专利语料库中抽取汉语短语。抽取的短语利用统计知识和语言学知识来过滤,使得过滤后汉语短语的正确率较高;其次,利用词对齐工具Giza++从汉英平行语料库中抽取词汇对齐,在词汇对齐的基础上利用开源工具Moses抽取汉英短语对齐,根据短语对齐与抽取出的高质量汉语短语的交集来抽取候选的汉英互译的源语言短语;接着使用停用词、对数似然估计法LLR和上下文熵来对英语短语翻译进行过滤。实验结果表明,过滤后,抽取的汉语短语准确率为97.6%,汉英短语翻译对的准确率为92.4%。
-
关键词
抽取
过滤
汉英短语翻译对
-
Keywords
extract filtrate chinese-english phrase translation pair
-
分类号
TP181
[自动化与计算机技术—控制理论与控制工程]
-
-
题名统计机器翻译中汉维短语对抽取的研究
被引量:4
- 3
-
-
作者
任高举
吐尔根.伊布拉音
艾山.吾买尔
-
机构
新疆大学信息科学与工程学院
-
出处
《新疆大学学报(自然科学版)》
CAS
2010年第3期349-352,共4页
-
基金
国家自然科学基金项目(60663006
60763006)
-
文摘
双语短语对抽取是基于短语的统计机器翻译中短语翻译模型训练的关键步骤,但由于汉维平行语料库规模有限,数据稀疏问题严重.本文提出了一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维吾尔语词的情况(包括不连续),然后利用Och方法抽取短语对,最后考虑维吾尔语SOV语序结构特点,抽取双语短语.实验表明,该算法能够较准确地且尽可能多地抽取汉维短语对,从而提高翻译模型的质量.
-
关键词
统计机器翻译
短语抽取
汉维短语对
-
Keywords
Statistical Machine translation
phrase extraction
Chinese-Uyghur phrase pairs
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-
-
题名基于短语的统计机器翻译中汉维短语对抽取算法改进
- 4
-
-
作者
任高举
吐尔根.伊布拉音
艾山.吾买尔
-
机构
新疆大学信息科学与工程学院
-
出处
《现代计算机》
2010年第5期9-11,共3页
-
基金
国家自然科学基金(No.60663006
60763006)
-
文摘
提出一种改进的短语抽取算法,该算法首先考虑词对齐矩阵中一个汉语词对齐到多个维语词的情况(包括不连续),然后采用Och方法进行判断。如果满足条件则进行短语抽取。试验结果表明,改进后的短语抽取算法能够抽取出更多汉维短语对,提高短语翻译对抽取的效果。
-
关键词
基于短语的统计机器翻译
短语抽取
汉维短语对
翻译模型
-
Keywords
phrase-Based Statistical Machine translation
phrase extraction
Chinese-Uyghur phrase pairs
translation Model
-
分类号
TP391.2
[自动化与计算机技术—计算机应用技术]
-