-
题名向上学习方法改进移进-归约中文句法分析
被引量:2
- 1
-
-
作者
朱慕华
王会珍
朱靖波
-
机构
东北大学自然语言处理实验室
-
出处
《中文信息学报》
CSCD
北大核心
2015年第2期33-39,共7页
-
基金
国家自然科学基金(61073140
61100089)
+1 种基金
中央高校基本科研业务费专项资金(N110404012)
高等学校博士学科点专项科研基金(20100042110031)
-
文摘
基于移进-归约的句法分析系统具有线性的时间复杂度,因此在大规模句法分析任务中具有特别实际的意义。然而目前移进-归约句法分析系统的性能远低于领域内最好的句法分析器,例如,伯克利句法分析器。该文研究如何利用向上学习和无标注数据改进移进-归约句法分析系统,使之尽可能接近伯克利句法分析器的性能。我们首先应用伯克利句法分析器对大规模的无标注数据进行自动分析,然后利用得到的自动标注数据作为额外的训练数据改进词性标注系统和移进-归约句法分析器。实验结果表明,向上学习方法和无标注数据使移进-归约句法分析的性能提高了2.3%,达到82.4%。这个性能与伯克利句法分析器的性能可比。与此同时,该文最终得到的句法分析系统拥有明显的速度优势(7倍速度于伯克利句法分析器)。
-
关键词
中文句法分析
移进-归约分析
伯克利句法分析器
向上学习
无标注数据
-
Keywords
Chinese syntactic parsing
shift-reduce parsing
Berkeley parser
uptraining
unlabeled data
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名汉语概念复合块的自动分析
被引量:2
- 2
-
-
作者
仵永栩
吕学强
周强
关晓炟
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
清华信息科学与技术国家实验室(筹)
-
出处
《中文信息学报》
CSCD
北大核心
2016年第2期1-11,共11页
-
基金
国家重点基础研究发展计划资助项目(2013CB329304)
国家自然科学基金(61373075
+2 种基金
61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目(KZ201311232037)
北京市优秀人才培养资助青年骨干项目(2014000020124G099)
-
文摘
为解决句法分析任务中的块边界识别和块内结构分析问题,该文基于概念复合块描述体系进行了块分析探索。通过概念复合块与以往的基本块和功能块描述体系的对比分析,深入挖掘了概念复合块自动分析的主要难点所在,提出了一种基于"移进-归约"模型的汉语概念复合块自动分析方法。在从清华句法树库TCT中自动提取的概念复合块标注库上,多层次、多角度对概念复合块自动分析性能进行了纵向与横向评估,初步实验结果证明了该分析方法对简单概念复合块分析的有效性,为后续进行更复杂的概念复合块的句法语义分析研究打下了很好的基础。
-
关键词
句法分析
块识别
概念复合块
移进-归约分析
-
Keywords
syntactic parsing
chunk recognition
concept compound chunk
shift-reduce parsing
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-