期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
面向古文自然语言处理生成任务的大语言模型评测研究 被引量:2
1
作者 朱丹浩 赵志枭 +4 位作者 张一平 孙光耀 刘畅 胡蝶 王东波 《信息资源管理学报》 CSSCI 2024年第5期45-58,共14页
大语言模型的频繁发布为大语言模型的评测研究带来了机遇与挑战,针对通用领域大语言模型的评测体系日趋成熟,而面向垂直领域的大语言模型评测仍在起步阶段,本文以古文领域评测为切入点,从语言和知识两个维度构建了一批古籍领域评测任务... 大语言模型的频繁发布为大语言模型的评测研究带来了机遇与挑战,针对通用领域大语言模型的评测体系日趋成熟,而面向垂直领域的大语言模型评测仍在起步阶段,本文以古文领域评测为切入点,从语言和知识两个维度构建了一批古籍领域评测任务,并选取当前各大榜单中性能较为优越的13个通用领域大语言模型进行评测。评测结果显示,ERNIE-Bot在古籍领域知识方面遥遥领先于其他模型,而GPT-4模型在语言能力方面表现出最佳性能,在开源模型中,ChatGLM系列模型表现最为出色。通过构建评测任务和数据集,制定了一套适用于古籍领域的大语言模型评测标准,为古籍领域大语言模型性能评测提供了参考,也为后续古籍大语言模型训练过程中的基座模型选取提供了依据。 展开更多
关键词 大语言模型 生成式任务 大模型评测 古籍 领域知识
在线阅读 下载PDF
基于领域大语言模型的古籍分词研究 被引量:3
2
作者 朱丹浩 赵志枭 +3 位作者 吴娜 王希羽 孙光耀 王东波 《科技情报研究》 CSSCI 2024年第2期11-20,共10页
[目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1... [目的/意义]文章以古籍自动分词为切入点,引入“荀子”系列大语言模型,对大语言模型在古籍文本分词任务上的表现进行了探讨。[方法/过程]文章基于《左传》分词语料,进行了数据清洗和整理,构建了指令数据集,在此基础上,从数据集中抽取了1 000条作为测试数据,并分别使用500、1 000、2 000、5 000条数据作为训练数据进行指令微调,并测试其性能。[结果/结论]实验结果表明,只需要少量的数据,大语言模型就可以有较为理想的表现,在微调数据量达到5 000条数据时,Xunzi-Qwen-7B模型表现出了最优性能,F1值达到84.54%。 展开更多
关键词 “荀子”大模型 《左传》 分词 指令微调
在线阅读 下载PDF
领域大语言模型下的古籍词性标注应用研究 被引量:4
3
作者 朱丹浩 赵志枭 +3 位作者 胡蝶 赵文华 孙光耀 王东波 《科技情报研究》 CSSCI 2024年第2期21-29,共9页
[目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据... [目的/意义]大语言模型的发展为古籍文本挖掘带来了新的思路,将大语言模型与古籍数字化、智能化相结合是新时代古籍工作的必经之路。[方法/过程]文章使用《左传》词性标注语料,通过数据清洗和预处理,构建了一批高质量的词性标注指令数据,在此基础上,分别使用500、1 000、2 000、5 000条数据对大语言模型进行指令微调,并在另外1 000条数据上进行性能测试。[结果/结论]实验结果表明,“荀子”系列模型在古籍文本词性标注任务上性能优于通用领域模型,在微调数据量达到5 000时,Xunzi-Baichuan2-7B模型表现出了最优性能,F1值达到81.67%。 展开更多
关键词 大语言模型 “荀子”大模型 《左传》 词性标注 指令微调
在线阅读 下载PDF
新工科背景下实训课程教学改革研究 被引量:1
4
作者 李俊瑶 叶东 +1 位作者 李宗辰 朱丹浩 《创新教育研究》 2024年第2期637-643,共7页
针对当前公安院校实训课程教学现状,以学生能力培养、素质提升为导向,进行实训课程教学改革研究。引入评价量规手段,进一步完善评分标准,提出了一种立体化、多维度的考核方式,丰富考核主体,将考核贯穿实训教学全过程,有效提升了学生实... 针对当前公安院校实训课程教学现状,以学生能力培养、素质提升为导向,进行实训课程教学改革研究。引入评价量规手段,进一步完善评分标准,提出了一种立体化、多维度的考核方式,丰富考核主体,将考核贯穿实训教学全过程,有效提升了学生实训积极性,取得了良好的教学效果。 展开更多
关键词 实训课程 多元化考核 全过程考核
在线阅读 下载PDF
知识组织视角下关键词网络中的小世界现象 被引量:15
5
作者 朱丹浩 王东波 +1 位作者 Saeed-Ul Hassan Peter Haddawy 《图书与情报》 CSSCI 北大核心 2013年第6期19-22,72,共5页
文章基于Scopus中2008年的11144个关键词构成的网络,结合复杂网络的相应知识,基于小世界网络的平均度和聚集系数这两个特征,通过统计和计算,揭示出关键词网络呈现出小世界的效应。基于由关键词构建的网络,文章初步探讨了通过关键词网络... 文章基于Scopus中2008年的11144个关键词构成的网络,结合复杂网络的相应知识,基于小世界网络的平均度和聚集系数这两个特征,通过统计和计算,揭示出关键词网络呈现出小世界的效应。基于由关键词构建的网络,文章初步探讨了通过关键词网络的中介度来确定学科知识点的方法,并与基于词频确定知识点的方法进行了简单的对比。 展开更多
关键词 关键词网络 小世界现象 聚集系数 中介度
在线阅读 下载PDF
基于异构特征融合的论文引用预测方法 被引量:1
6
作者 朱丹浩 黄肖宇 《数据采集与处理》 CSCD 北大核心 2022年第5期1134-1144,共11页
针对论文引用预测方法在特征稀疏时性能下降的问题,提出了基于异构特征融合的方法,可同时利用定长特征、引文网络特征和引文时序特征,有效提升了引用预测方法的精度。本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模... 针对论文引用预测方法在特征稀疏时性能下降的问题,提出了基于异构特征融合的方法,可同时利用定长特征、引文网络特征和引文时序特征,有效提升了引用预测方法的精度。本文针对论文引用预测任务定义了引文属性网络,对3类异构特征进行建模;提出了面向异构特征融合的论文引用预测方法,使用图神经网络处理定长特征和引文网络特征,使用循环神经网络处理引文时序特征,基于多头注意力机制对提取到的异构特征进行融合并预测被引次数。在大规模真实数据集上的实验表明,本文方法可以有效利用多种异构特征并缓解数据稀疏问题,均方根误差(Root mean squatr error,RMSE)比最好的基准方法降低了0.31。 展开更多
关键词 引用预测 循环神经网络 图神经网络 异构特征 注意力
在线阅读 下载PDF
国内公安学科研究内容分析——基于(1998—2013)论文关键词的研究 被引量:1
7
作者 朱丹浩 纪蔚蔚 《净月学刊》 2014年第5期111-116,共6页
基于(1998—2013)公安学科的论文关键词,运用文献计量学的词频分析法对公安学科15年来的主要研究内容、研究方法和研究热点进行统计分析,并使用共词分析法构建关键词相关距离矩阵,对频次≥10的2 687个关键词进行聚类分析,得到7个主要聚... 基于(1998—2013)公安学科的论文关键词,运用文献计量学的词频分析法对公安学科15年来的主要研究内容、研究方法和研究热点进行统计分析,并使用共词分析法构建关键词相关距离矩阵,对频次≥10的2 687个关键词进行聚类分析,得到7个主要聚类。根据以上计算结果,对公安学科的学术规范、政治和社会敏感性、研究范式等多方面进行研究和探讨。 展开更多
关键词 公安学科 内容分析 共词分析法 K-medoids
在线阅读 下载PDF
基于深度学习的长语音口音识别研究
8
作者 朱丹浩 王震 +2 位作者 黄肖宇 马壮 徐杰 《南京师大学报(自然科学版)》 CAS CSCD 北大核心 2022年第4期110-118,共9页
普通话口音识别是物证鉴定的重要技术之一.目前普通话口音识别技术主要基于传统机器学习方法建立,也未针对长语音做专门设计,识别精度不高.针对以上问题,本文提出了基于深度学习的长语音口音识别方法.该方法首先将长语音切分为句子级别... 普通话口音识别是物证鉴定的重要技术之一.目前普通话口音识别技术主要基于传统机器学习方法建立,也未针对长语音做专门设计,识别精度不高.针对以上问题,本文提出了基于深度学习的长语音口音识别方法.该方法首先将长语音切分为句子级别的多个短语音,然后使用经过预训练的X-vectors模型提取特征,再基于不同方法对句子特征进行融合,最后采用Amsoftmax最大化口音类别间隔并进行分类.在真实的物证口音识别数据集上的实验结果显示,本文方法的识别精确率为94.1%,比非深度学习的基准方法和基于X-vectors的基准方法分别提升了21.6%和2.1%,验证了本文方法的有效性和针对长语音的口音识别能力. 展开更多
关键词 深度学习 口音识别 长语音 普通话
在线阅读 下载PDF
不同特征下的学术文本结构功能自动识别研究 被引量:24
9
作者 王东波 高瑞卿 +2 位作者 叶文豪 周鑫 朱丹浩 《情报学报》 CSSCI CSCD 北大核心 2018年第10期997-1008,共12页
随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,... 随着大量科研论文全文本的出现,如何从中挖掘相应的知识不仅有利于学术文献的深度知识组织而且有益于学术文献的精准检索。而识别学术文本的结构是进行上述探究的基础,因为结构的识别有助于从更深层次或者偏重语义的角度理解学术文本,从而促进学术文本挖掘研究的发展。本文以学术文本的不同结构功能为研究对象,以Journal of the Association for Information Science and Technology(JASIST)上发表的1579篇论文为数据集,进行双向长短时记忆神经网络、支持向量机和条件随机场三种模型上的预实验,并对比实验结果的性能,最终确定利用条件随机场模型做进一步探究。利用条件随机场模型,本文将学术文本结构功能识别问题转化为对句子单元的序列标注问题,寻找最优识别模型并探究不同特征对结构功能识别的影响,最终获得开放测试的调和平均值为92.88%的结构整体识别效果。实验结果表明,章节标题中词汇信息和章节内容的特征词汇信息对学术文本的功能结构识别起到巨大作用,可以达到令人满意的效果,而结构的长度特征则干扰条件随机场方法的性能。在最后,本文对学术文本结构功能识别出错原因进行总结,指出进一步探讨的问题和方向。 展开更多
关键词 文本分类 条件随机场 篇章结构 深度学习
在线阅读 下载PDF
面向情报学课程设置的数据科学技能素养自动抽取及分析研究 被引量:13
10
作者 王东波 高瑞卿 +1 位作者 苏新宁 朱丹浩 《情报理论与实践》 CSSCI 北大核心 2018年第12期61-66,共6页
情报课程是情报学教学体系的核心和灵魂,是新的情报学人才培养模式的基础。在大数据、数据科学、人工智能发展的大环境下,数据学科与情报学之间存在很多共同点和交叉点,尤其是在对相应工作者所具有的技能素养上。文章通过对数据科学招... 情报课程是情报学教学体系的核心和灵魂,是新的情报学人才培养模式的基础。在大数据、数据科学、人工智能发展的大环境下,数据学科与情报学之间存在很多共同点和交叉点,尤其是在对相应工作者所具有的技能素养上。文章通过对数据科学招聘信息中出现的人才技能素养实体的抽取,探究指导情报学学科紧跟时代发展潮流的课程设计内容。通过对招聘网站中数据科学相关工作岗位公告的抓取,经人工标注10534条公告数据,构建了基于预训练字嵌入的BI-LSTM-CRF神经网络的技能素养实体自动抽取模型,并在开发集中取得最高调和平均值85. 04%的效果。文章利用最优模型在11508条招聘公告中进行实体自动抽取,分析抽取结果,并围绕数据科学技能素养要求为情报学课程发展提出了适当建议。 展开更多
关键词 情报学课程 数据科学 深度学习 自动抽取
原文传递
基于支持向量机的医学期刊文章自动分类研究 被引量:12
11
作者 王东波 苏新宁 +1 位作者 朱丹浩 年洪东 《情报理论与实践》 CSSCI 北大核心 2011年第4期115-118,共4页
基于支持向量机学习模型,使用万方期刊数据库中医学、卫生的有关标题和摘要数据,对医学、卫生大类下的R7中的9个小类进行了自动分类研究。在中文信息处理知识和技术的基础上选取分类特征,在分类过程中主要采取了基于低密度多特征的训练... 基于支持向量机学习模型,使用万方期刊数据库中医学、卫生的有关标题和摘要数据,对医学、卫生大类下的R7中的9个小类进行了自动分类研究。在中文信息处理知识和技术的基础上选取分类特征,在分类过程中主要采取了基于低密度多特征的训练方法。在互信息、卡方统计、交叉熵和证据权值4个不同的统计特征量的开放测试中,自动分类的查全率和准确率都取得了相对令人满意的结果。 展开更多
关键词 支持向量机 期刊 自动分类
原文传递
洛特卡现象在汉语词汇句法功能分布复杂度中的呈现 被引量:2
12
作者 王东波 朱丹浩 苏新宁 《情报学报》 CSSCI 北大核心 2012年第3期297-302,共6页
本文基于大规模清华树库,从中统计了汉语词汇在句法结构中充当的句法成分,获取了汉语词汇的句法功能分布,并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇句法功能分布复杂度的高低排序后,本文发现两者之间呈... 本文基于大规模清华树库,从中统计了汉语词汇在句法结构中充当的句法成分,获取了汉语词汇的句法功能分布,并给出了汉语词汇句法功能分布复杂度的定义。在对汉语词汇按照汉语词汇句法功能分布复杂度的高低排序后,本文发现两者之间呈现洛特卡现象。本文的这一发现一方面揭示了汉语词汇在句法结构中的分布规律,对于汉语的研究具有重要的促进作用;另一方面对于中文信息处理中的词性标注、自动消歧和句法分析等研究具有重要的影响。 展开更多
关键词 洛特卡现象 汉语词汇 句法功能分布复杂度 清华树库
在线阅读 下载PDF
基于CABOSFV聚类算法的汉语词汇类别知识挖掘研究 被引量:1
13
作者 王东波 朱丹浩 《计算机科学》 CSCD 北大核心 2013年第7期211-215,共5页
在清华大学973汉语树库的基础上,根据汉语词汇的句法功能分布状况,构建了句法功能分布知识库。在构建的句法功能分布知识库基础上,使用CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)聚类算法,从中挖掘了汉语词汇的类... 在清华大学973汉语树库的基础上,根据汉语词汇的句法功能分布状况,构建了句法功能分布知识库。在构建的句法功能分布知识库基础上,使用CABOSFV(Clustering Algorithm Based On Sparse Feature Vector)聚类算法,从中挖掘了汉语词汇的类别知识,并对这些类别知识逐一进行了分析。 展开更多
关键词 973汉语树库 句法分布功能 知识库 CABOSFV
在线阅读 下载PDF
公安信息资源整合中的统一检索自动加权系统研究
14
作者 刘莉 朱丹浩 《江苏警官学院学报》 2014年第2期110-116,共7页
统一检索平台对异构数据源进行了整合,减轻了用户检索的负担和获取知识的难度。但检索规模的扩大也伴随着新的问题,用户更难从反馈的结果中找到最满足需求的数据结果。本文基于超参数的统计概率机器学习模型,面向用户的个性化需求,建立... 统一检索平台对异构数据源进行了整合,减轻了用户检索的负担和获取知识的难度。但检索规模的扩大也伴随着新的问题,用户更难从反馈的结果中找到最满足需求的数据结果。本文基于超参数的统计概率机器学习模型,面向用户的个性化需求,建立了自动加权系统。该系统具有参数量小、运算快、实时性和松耦合等优点,据此,本文依托公安科技信息资源整合和服务平台,实现了资源来源特征模型和资源学科特征模型,并论证了新系统在查准度、查全度和醒目度指标上的优越性。 展开更多
关键词 统一检索 加权 个性化
在线阅读 下载PDF
基于深度学习的中文地名识别研究 被引量:18
15
作者 沈思 朱丹浩 《北京理工大学学报》 EI CAS CSCD 北大核心 2017年第11期1150-1155,共6页
基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高... 基于深度学习的循环神经网络方法,面向中文字和词的特点,重新定义了地名标注的输入和输出,提出了汉字级别的循环网络标注模型.以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文地名识别的准确率、召回率和F值均有明显提高,其中F值提高了2.88%.在包含罕见词时提高更为明显,F值提高了26.41%. 展开更多
关键词 地名识别 循环神经网络 深度学习
在线阅读 下载PDF
国家社科基金哲学领域项目成果及热点分析——以1991-2015年所立项目及论文成果为研究对象 被引量:15
16
作者 朱丹浩 王东波 华康 《西南民族大学学报(人文社会科学版)》 CSSCI 北大核心 2016年第5期235-240,共6页
以1991-2015年国家社会科学基金哲学所立项目及论文学术成果为研究对象,在统计和文献计量学方法的基础上,从基金数量、基金负责人、基金承担单位分布和基金类型成果分布、成果期刊分布和基金研究热点等几个方面完成对国家社科基金的统... 以1991-2015年国家社会科学基金哲学所立项目及论文学术成果为研究对象,在统计和文献计量学方法的基础上,从基金数量、基金负责人、基金承担单位分布和基金类型成果分布、成果期刊分布和基金研究热点等几个方面完成对国家社科基金的统计与分析。在哲学社会科学研究热点分析过程中,通过高频关键词的聚类,获取到了哲学研究热点的分布情况。 展开更多
关键词 社科基金 哲学 文献计量
原文传递
基于深度学习的中文机构名识别研究——一种汉字级别的循环神经网络方法 被引量:22
17
作者 朱丹浩 杨蕾 王东波 《现代图书情报技术》 CSSCI 2016年第12期36-43,共8页
【目的】中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中... 【目的】中文机构名结构复杂、罕见词多,识别难度大,对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network,RNN)方法,面向中文汉字和词的特点,重新定义了机构名标注的输入和输出,提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准,本文提出的字级别模型在中文机构名识别的准确率、召回率和F值均有明显提高,其中F值提高了1.54%。在包含罕见词时提高更为明显,F值提高了11.05%。【局限】在解码时直接使用了贪心策略,易于陷入局部最优,如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单,能利用到汉字级别的特征来进行建模,比只使用词特征取得了更好的结果。 展开更多
关键词 机构名识别 循环神经网络 深度学习
原文传递
基于条件随机场的介宾结构自动识别 被引量:4
18
作者 朱丹浩 王东波 谢靖 《现代图书情报技术》 CSSCI 北大核心 2010年第7期79-83,共5页
基于条件随机场对介宾结构进行自动识别的研究。为有效地识别介宾结构,基于清华树库统计介宾结构的外部和内部语言学特征。基于条件随机场,结合介宾结构的语言学特征,使用复杂特征模板对无嵌套介宾结构和有嵌套介宾结构进行自动识别。... 基于条件随机场对介宾结构进行自动识别的研究。为有效地识别介宾结构,基于清华树库统计介宾结构的外部和内部语言学特征。基于条件随机场,结合介宾结构的语言学特征,使用复杂特征模板对无嵌套介宾结构和有嵌套介宾结构进行自动识别。在开放测试中,F值最高分别达到90.29%和89.99%。 展开更多
关键词 条件随机场 介宾结构 特征模板 自动识别
原文传递
我国社会学期刊的h指数分析——基于CSSCI(2000-2007年度)数据 被引量:2
19
作者 朱丹浩 《西南民族大学学报(人文社会科学版)》 CSSCI 北大核心 2009年第9期82-85,共4页
本文利用CSSCI(1998-2007)的引文数据,计算了24种社会学CSSCI来源期刊的h指数,并从h指数排名、与被引篇次的对比、与影响因子的对比、Hirsch核心等方面对计算结果进行深入分析。
关键词 H指数 期刊评价 社会学
原文传递
基于深度学习的数据科学招聘实体自动抽取及分析研究 被引量:15
20
作者 王东波 胡昊天 +1 位作者 周鑫 朱丹浩 《图书情报工作》 CSSCI 北大核心 2018年第13期64-73,共10页
[目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大... [目的/意义]数据科学作为一个融合诸多领域的新兴交叉学科正在快速形成。从数据科学招聘的公告信息中,抽取出相应的实体知识不仅有助于从市场的角度了解数据科学的发展动态,而且有助于改进数据科学教学的内容。[方法/过程]基于各大招聘网站职位招聘公告,结合情报学的数据获取、标注和组织方法,构建数据科学招聘语料库并从中抽取相应的实体进行分析与研究。[结果/结论]在搜集到的11000篇经过标注的职位招聘公告语料的基础上,基于Bi-LSTM-CRF、CRF和Bi—LSTM模型,对数据科学招聘实体的抽取任务进行性能的对比,确定最终的数据科学招聘实体自动抽取模型,设计数据科学招聘实体自动抽取平台,并构建数据科学招聘实体网络。 展开更多
关键词 数据科学 条件随机场 深度学习 Bi-LSTM-CRF
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部