期刊文献+
共找到12篇文章
< 1 >
每页显示 20 50 100
汉语国际教育汉语文本分级及难度测查对比研究 被引量:2
1
作者 王鸿滨 《云南师范大学学报(对外汉语教学与研究版)》 2020年第6期1-14,共14页
针对通用型汉语国际教育用语料,目前已有的且开发较为完善的分级及难度测评工具有“中文助教TM”“国际汉语教材编写指南”和“汉语文本指难针”等。文章以经贸类材料为例,从功能特点、测查指标及依据、测查效果等方面对其中两套汉语文... 针对通用型汉语国际教育用语料,目前已有的且开发较为完善的分级及难度测评工具有“中文助教TM”“国际汉语教材编写指南”和“汉语文本指难针”等。文章以经贸类材料为例,从功能特点、测查指标及依据、测查效果等方面对其中两套汉语文本难度测查系统进行对比分析,为商务汉语语言难易度测查及读物分级系统的建立提供一定参考。 展开更多
关键词 汉语国际教育学习资源 文本分级 测查工具 难度测查
在线阅读 下载PDF
基于事件结构的叙事性阅读文本智能分级评测探索
2
作者 张文彦 卢玉梅 《昆明学院学报》 2024年第2期35-44,共10页
叙事性阅读文本筛选对于阅读学习的有效开展有着重要作用。在事件-状态语义模型的基础上,文章从篇章层面出发,对于叙事性文本的事件结构进行了本体和应用的研究,包括定义事件结构,并归纳其特点和类型,形式化描写事件结构,以部编版语文... 叙事性阅读文本筛选对于阅读学习的有效开展有着重要作用。在事件-状态语义模型的基础上,文章从篇章层面出发,对于叙事性文本的事件结构进行了本体和应用的研究,包括定义事件结构,并归纳其特点和类型,形式化描写事件结构,以部编版语文教材中叙事型文本作样本,抽取叙事文本常用事件结构特征,以1047篇叙事性文本作为文本库,分析叙事性文本、事件结构和事件层级等特征,发掘叙事型文本相关特征在阅读活动开展过程中的分布规律,探讨其对叙事性文本分级的影响。 展开更多
关键词 事件-状态语义模型 事件结构 形式化 文本分级
在线阅读 下载PDF
基于多层级语言特征融合的中文文本可读性分级模型
3
作者 谭可人 兰韵诗 +1 位作者 张杨 丁安琪 《中文信息学报》 CSCD 北大核心 2024年第5期41-52,共12页
中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、... 中文文本可读性分级任务的目标是将中文文本按照其可读性划分到相应的难度等级。近年来研究表明,语言特征与深度语义特征在表征文章难度上体现出互补性。但已有的工作仅对两类特征进行浅层融合,尚未考虑将语言特征和深度模型进行深层、多层级融合。因此,该文在基于BERT的传统文本可读性分级模型的基础上,设计多层级语言特征融合方法,考虑到不同语言特征和网络层结构的交互,将汉字、词汇和语法的语言特征与模型的嵌入层和自注意力层进行融合。实验结果显示,该文的方法在中文文本可读性分级任务上的效果超过了所有基线模型,并在测试集上达到94.2%的准确率。 展开更多
关键词 中文文本可读性分级 多层级特征融合 深度模型
在线阅读 下载PDF
面向信息处理的《古籍汉字分级字表(7000字)》的研制
4
作者 余雪 冯敏萱 李斌 《辞书研究》 2024年第6期66-80,I0002,共16页
分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉... 分级字表是文本难度分级的重要基础资源。文章基于大规模古籍文本语料库,在统计构建《古籍汉字通用字表》的基础上,通过挖掘古籍汉字在字形、字音、字义以及应用层面的11个分级计量特征,设计了古籍汉字学习优先级的分级评价体系,将各汉字表示为基于计量特征学习优先级的字向量,借助相似度计算,实现了古籍汉字学习优先级别的3级划分,得到《古籍汉字分级字表(7000字)》。该字表包括甲级字1516个、乙级字2421个,丙级字3063个,能够从文字层面为古汉语文本难度分级提供必要的基础字表,有助于古汉语文本分级研究,助力面向辞书编撰的语言文字信息化平台建设,进而为古文读写能力水平测试、古文篇章的自动分级等研究奠定基础。 展开更多
关键词 信息处理 古籍汉字 分级字表 古文文本分级
在线阅读 下载PDF
基于《国际中文教育中文水平等级标准》的中文文本难度自动分级研究——以HSK中高级阅读文本为例 被引量:1
5
作者 丁安琪 张杨 兰韵诗 《首都师范大学学报(社会科学版)》 CSSCI 北大核心 2023年第6期81-92,共12页
文本难度自动分级是指通过一系列计算机自动计算,实现对文本难度级别自动识别。该研究依托2021年发布的《国际中文教育中文水平等级标准》,提取其基本汉字、词汇、语法特征,使用基于BERT的神经网络预训练模型来提取文本语义特征,融合以... 文本难度自动分级是指通过一系列计算机自动计算,实现对文本难度级别自动识别。该研究依托2021年发布的《国际中文教育中文水平等级标准》,提取其基本汉字、词汇、语法特征,使用基于BERT的神经网络预训练模型来提取文本语义特征,融合以上两类特征构建多维特征集,并对比多种特征组合方式以及多种机器学习算法对于HSK中高级阅读文本的难度分级效果。实验结果表明:随机森林算法对HSK中高级阅读文本分级效果最优;单一维度中,语义特征对文本难度识别精确率最高,词汇次之;《国际中文教育中文水平等级标准》对HSK中高级阅读文本具有较强指导意义。 展开更多
关键词 文本难度分级 HSK 《国际中文教育中文水平等级标准》 BERT
在线阅读 下载PDF
中小学汉语阅读文本自动分级技术研究报告
6
作者 吴边 肖敏 《上海课程教学研究》 2020年第1期63-68,共6页
为实现文本的自动化分级,引入当前自然语言处理领域中流行的神经网络语言模型进行文本难易度指标研究。通过采用长短期记忆单元所组成的循环神经网络和语文教材文本训练集构建语言模型,得到测试集的平均语句复杂度指标。最终对所得到的... 为实现文本的自动化分级,引入当前自然语言处理领域中流行的神经网络语言模型进行文本难易度指标研究。通过采用长短期记忆单元所组成的循环神经网络和语文教材文本训练集构建语言模型,得到测试集的平均语句复杂度指标。最终对所得到的指标与文本难度等级进行相关性分析,以研究其对文本难易度的描述能力。实验结果表明:该指标与文本难度等级存在着很强的相关性,语句复杂度对于文本难度等级有着很强的指导性价值,同时语句复杂度对于文本可读性评估任务来说是一个拥有良好指向性的指标。 展开更多
关键词 汉语文本自动分级 文本难易度标定 深度学习 语句复杂度评估
在线阅读 下载PDF
我国开展儿童分级阅读研究的探讨 被引量:3
7
作者 安卫华 《科技情报开发与经济》 2014年第16期101-104,共4页
对比分析了中美儿童分级阅读在研究主体、研究方法、研究应用上的差异,总结出我国儿童分级阅读的研究现状及出现的问题。提出了借鉴美国经验、立足我国国情开展儿童分级阅读的途径,包括组成多学科研究团队、制定科学的分级标准、全方位... 对比分析了中美儿童分级阅读在研究主体、研究方法、研究应用上的差异,总结出我国儿童分级阅读的研究现状及出现的问题。提出了借鉴美国经验、立足我国国情开展儿童分级阅读的途径,包括组成多学科研究团队、制定科学的分级标准、全方位深入应用到儿童阅读教育中。 展开更多
关键词 儿童分级阅读 文本分级 分级阅读标准
在线阅读 下载PDF
文本复杂度人工判断维度及其运用 被引量:2
8
作者 叶丽新 《上海课程教学研究》 2020年第1期57-62,共6页
文本复杂度是文本分级中的重要指标。文本复杂度的判断,目前以人工为主,判断指标主要有内容与主题、结构、语言、阅读所需知识背景等。在计算机探索文本复杂度计算方法的过程中,文本复杂度的人工判断主要用于校准计算机实验结果,调整计... 文本复杂度是文本分级中的重要指标。文本复杂度的判断,目前以人工为主,判断指标主要有内容与主题、结构、语言、阅读所需知识背景等。在计算机探索文本复杂度计算方法的过程中,文本复杂度的人工判断主要用于校准计算机实验结果,调整计算方法等。当然,文本复杂度的人工判断维度及其运用研究,对日常教学也有启发意义,譬如加深对于文本的认识,提升文本选择的意识和能力,丰富对于学生阅读素养的观察视角等。 展开更多
关键词 文本分级 文本复杂度 分级阅读
在线阅读 下载PDF
网络新闻敏感信息识别与风险分级方法研究 被引量:13
9
作者 李瀛 王冠楠 《情报理论与实践》 CSSCI 北大核心 2022年第4期105-112,共8页
[目的/意义]正确处理网络新闻带来的安全风险是保障互联网信息安全的关键。当前网络敏感信息研究主要基于网络评论语境,识别过滤以关键词形式出现的不良信息,对敏感信息的敏感程度不能进行精细计算。[方法/过程]针对现有方法的缺陷,文... [目的/意义]正确处理网络新闻带来的安全风险是保障互联网信息安全的关键。当前网络敏感信息研究主要基于网络评论语境,识别过滤以关键词形式出现的不良信息,对敏感信息的敏感程度不能进行精细计算。[方法/过程]针对现有方法的缺陷,文章从网络新闻敏感信息的语义内涵出发,通过传统敏感词方法识别出新闻中的敏感信息,然后将BERT模型方法和语义分析方法相结合衡量新闻的敏感程度,进而评估新闻的风险水平。[结果/结论]实验表明,文章实现了网络新闻敏感信息识别和敏感程度计算,能够根据计算结果对新闻进行风险分级,提出有针对性的风险处理策略,对于有效应对网络新闻带来的安全隐患具有积极意义。 展开更多
关键词 敏感信息识别 BERT 词库构建 语义依存分析 文本风险分级
原文传递
Automatic character detection and segmentation in natural scene images 被引量:12
10
作者 ZHU Kai-hua QI Fei-hu +1 位作者 JIANG Ren-jie XU Li 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2007年第1期63-71,共9页
We present a robust connected-component (CC) based method for automatic detection and segmentation of text in real-scene images. This technique can be applied in robot vision, sign recognition, meeting processing and ... We present a robust connected-component (CC) based method for automatic detection and segmentation of text in real-scene images. This technique can be applied in robot vision, sign recognition, meeting processing and video indexing. First, a Non-Linear Niblack method (NLNiblack) is proposed to decompose the image into candidate CCs. Then, all these CCs are fed into a cascade of classifiers trained by Adaboost algorithm. Each classifier in the cascade responds to one feature of the CC. Proposed here are 12 novel features which are insensitive to noise, scale, text orientation and text language. The classifier cascade allows non-text CCs of the image to be rapidly discarded while more computation is spent on promising text-like CCs. The CCs passing through the cascade are considered as text components and are used to form the segmentation result. A prototype system was built, with experimental results proving the effectiveness and efficiency of the proposed method. 展开更多
关键词 Text detection and segmentation ADABOOST NLNiblack decomposition method Attentional cascade
在线阅读 下载PDF
An improved TF-IDF approach for text classification 被引量:5
11
作者 张云涛 龚玲 王永成 《Journal of Zhejiang University-Science A(Applied Physics & Engineering)》 SCIE EI CAS CSCD 2005年第1期49-55,共7页
This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synony... This paper presents a new improved term frequency/inverse document frequency (TF-IDF) approach which uses confidence, support and characteristic words to enhance the recall and precision of text classification. Synonyms defined by a lexicon are processed in the improved TF-IDF approach. We detailedly discuss and analyze the relationship among confidence, recall and precision. The experiments based on science and technology gave promising results that the new TF-IDF approach improves the precision and recall of text classification compared with the conventional TF-IDF approach. 展开更多
关键词 Term frequency/inverse document frequency (TF-IDF) Text classification CONFIDENCE SUPPORT Characteristic words
在线阅读 下载PDF
Design and implementation of a large-scale multi-class text classifier
12
作者 于水 张亮 马范援 《Journal of Harbin Institute of Technology(New Series)》 EI CAS 2005年第6期690-695,共6页
Although, researchers in the ATC field have done a wide range of work based on SVM, almost all existing approaches utilize an empirical model of selection algorithms. Their attempts to model automatic selection in pra... Although, researchers in the ATC field have done a wide range of work based on SVM, almost all existing approaches utilize an empirical model of selection algorithms. Their attempts to model automatic selection in practical, large-scale, text classification systems have been limited. In this paper, we propose a new model selection algorithm that utilizes the DDAG learning architecture. This architecture derives a new large-scale text classifier with very good performance. Experimental results show that the proposed algorithm has good efficiency and the necessary generalization capability while handling large-scale multi-class text classification tasks. 展开更多
关键词 model selection DAGSVM automatic text classification
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部