针对论文引用预测方法在特征稀疏时性能下降的问题,提出了基于异构特征融合的方法,可同时利用定长特征、引文网络特征和引文时序特征,有效提升了引用预测方法的精度。本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模...针对论文引用预测方法在特征稀疏时性能下降的问题,提出了基于异构特征融合的方法,可同时利用定长特征、引文网络特征和引文时序特征,有效提升了引用预测方法的精度。本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模;提出了面向异构特征融合的论文引用预测方法,使用图神经网络处理定长特征和引文网络特征,使用循环神经网络处理引文时序特征,基于多头注意力机制对提取到的异构特征进行融合并预测被引次数。在大规模真实数据集上的实验表明,本文方法可以有效利用多种异构特征并缓解数据稀疏问题,均方根误差(Root mean squatr error,RMSE)比最好的基准方法降低了0.31。展开更多
随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,...随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。展开更多
在清华大学973汉语树库的基础上,根据汉语词汇的句法功能分布状况,构建了句法功能分布知识库。在构建的句法功能分布知识库基础上,使用CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)聚类算法,从中挖掘了汉语词汇的类...在清华大学973汉语树库的基础上,根据汉语词汇的句法功能分布状况,构建了句法功能分布知识库。在构建的句法功能分布知识库基础上,使用CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)聚类算法,从中挖掘了汉语词汇的类别知识,并对这些类别知识逐一进行了分析。展开更多
文摘针对论文引用预测方法在特征稀疏时性能下降的问题,提出了基于异构特征融合的方法,可同时利用定长特征、引文网络特征和引文时序特征,有效提升了引用预测方法的精度。本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模;提出了面向异构特征融合的论文引用预测方法,使用图神经网络处理定长特征和引文网络特征,使用循环神经网络处理引文时序特征,基于多头注意力机制对提取到的异构特征进行融合并预测被引次数。在大规模真实数据集上的实验表明,本文方法可以有效利用多种异构特征并缓解数据稀疏问题,均方根误差(Root mean squatr error,RMSE)比最好的基准方法降低了0.31。
文摘随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。
文摘在清华大学973汉语树库的基础上,根据汉语词汇的句法功能分布状况,构建了句法功能分布知识库。在构建的句法功能分布知识库基础上,使用CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)聚类算法,从中挖掘了汉语词汇的类别知识,并对这些类别知识逐一进行了分析。