期刊文献+
共找到520篇文章
< 1 2 26 >
每页显示 20 50 100
技术增强学习环境中的编排教学国际研究进展与启示——基于系统文献综述法
1
作者 孙彧 江毓君 +1 位作者 白雪梅 张玲 《数字教育》 2025年第1期77-84,共8页
技术增强学习是学习科学与教育技术领域研究者关注的重要话题之一。技术增强学习环境中的编排教学是国际研究者关注的重要话题之一。该研究采用系统文献综述法,对国际上关于技术增强学习环境中的编排教学研究进行了梳理、分析和归纳,发... 技术增强学习是学习科学与教育技术领域研究者关注的重要话题之一。技术增强学习环境中的编排教学是国际研究者关注的重要话题之一。该研究采用系统文献综述法,对国际上关于技术增强学习环境中的编排教学研究进行了梳理、分析和归纳,发现在技术增强学习环境中,编排教学相关研究主要集中在5个方面:编排框架、学习分析对编排教学的支持、编排教学支持工具、教师编排教学能力、编排教学实践成效。最后,基于研究发现,从5个方面就未来我国相关实践与研究提出了针对性建议,以期为数字化转型背景下编排教学相关实践与研究提供借鉴。 展开更多
关键词 技术增强学习 编排教学 学习分析 学习设计
在线阅读 下载PDF
增强学习方式自我认知程度对学生学业表现的影响
2
作者 伊文超 范亚蓓 +5 位作者 戴文骏 肖悦 肖剑秋 於伟 张健 许光旭 《中国康复医学杂志》 CAS CSCD 北大核心 2024年第7期1032-1034,共3页
新冠疫情发生以来,医学教育方式面临着巨大的改革和挑战,如何有效提高学生的自我学习和成长能力成为教育者不得不关注和思考的问题。在传统面对面授课时,教师可根据学生的学习方式偏好,调整教学方式,以尽量满足多数学生的偏好,提高教学... 新冠疫情发生以来,医学教育方式面临着巨大的改革和挑战,如何有效提高学生的自我学习和成长能力成为教育者不得不关注和思考的问题。在传统面对面授课时,教师可根据学生的学习方式偏好,调整教学方式,以尽量满足多数学生的偏好,提高教学质量[1]。 展开更多
关键词 自我认知 医学教育 增强学习 教学方式 学业表现 自我学习 学生的学习 教育者
在线阅读 下载PDF
基于增强学习的D2D用户和蜂窝用户传输功率的联合优化
3
作者 徐义晗 《电子器件》 CAS 2024年第2期458-463,共6页
针对D2D用户与蜂窝用户间的干扰问题,提出基于深度增强学习的传输功率优化算法(DTPO)。DTPO算法通过调整传输设备的传输功率,缓解干扰。先将功率分配问题构建成基于线性约束的联合优化问题,再利用深度增强算法求解,获取D2D用户和蜂窝用... 针对D2D用户与蜂窝用户间的干扰问题,提出基于深度增强学习的传输功率优化算法(DTPO)。DTPO算法通过调整传输设备的传输功率,缓解干扰。先将功率分配问题构建成基于线性约束的联合优化问题,再利用深度增强算法求解,获取D2D用户和蜂窝用户的传输功率,进而最大化和速率。仿真结果表明,DTPO算法的性能逼近于穷尽搜索算法的性能。 展开更多
关键词 支持D2D通信的蜂窝通信系统 干扰 传输功率 深度增强学习 和速率
在线阅读 下载PDF
基于增强学习与主成分提取的资源信息分析技术
4
作者 章丹 胡茂亮 +2 位作者 霍骋 罗长 陈迎 《电子设计工程》 2024年第20期125-129,共5页
针对从海量数据中难以获取有效信息的问题,设计了一种基于增强学习和主成分分析的信息推荐系统模型。该模型通过分析用户的行为偏好并从中挑选相关特征,再利用核主成分分析法进行降维,同时使用基于增强学习的用户特定深度Q学习方法,根... 针对从海量数据中难以获取有效信息的问题,设计了一种基于增强学习和主成分分析的信息推荐系统模型。该模型通过分析用户的行为偏好并从中挑选相关特征,再利用核主成分分析法进行降维,同时使用基于增强学习的用户特定深度Q学习方法,根据其状态来获得最优策略,以实现对用户兴趣数据的精准推荐。在电力人力资源数据集上进行的实验表明,所设计模型对于人力资源数据的推荐精准率可达到93.3%,召回率和F1值则分别为90.7%及91.2%,与其他推荐算法模型相比,该模型的综合性能较为理想,能够实现海量数据的精准信息提取与分析推荐。 展开更多
关键词 大数据 增强学习 主成分分析 深度Q网络
在线阅读 下载PDF
基于深度增强学习技术的智慧图书馆可视化信息搜索机制研究
5
作者 尹九成 孟欢欢 《中文科技期刊数据库(文摘版)图书情报》 2024年第7期0151-0158,共8页
文章在概述深度增强学习技术、可视化信息检索的基础上,从可视化信息源、可视化信息资源特征抽取与集成、可视化信息资源特征迭代优化3个方面论述了基于深度增强学习技术的智慧图书馆可视化信息交互和集成,从系统离线学习和读者在线检... 文章在概述深度增强学习技术、可视化信息检索的基础上,从可视化信息源、可视化信息资源特征抽取与集成、可视化信息资源特征迭代优化3个方面论述了基于深度增强学习技术的智慧图书馆可视化信息交互和集成,从系统离线学习和读者在线检索两个环节论述了基于深度增强学习技术的可视化信息检索机制的构成,从数据采集和预处理、生成读者情境特征向量和可视化信息数据集、深度增强学习神经网络输出字段主题向量、计算向量相似度生成字段主题检索推荐列表4个方面分析了智慧图书馆可视化信息检索机制中深度增强学习网络的运行流程,最后以本馆的馆藏资源和部分网络资源作为检索的数据源,以“红色文化空间”作为检索主题进行了实例验证,旨在提升智慧图书馆可视化信息检索服务效能。 展开更多
关键词 深度增强学习技术 智慧图书馆 可视化信息
在线阅读 下载PDF
基于增强学习的机械臂轨迹跟踪控制 被引量:20
6
作者 刘卫朋 邢关生 +1 位作者 陈海永 孙鹤旭 《计算机集成制造系统》 EI CSCD 北大核心 2018年第8期1996-2004,共9页
为了提高机器臂轨迹跟踪控制器的工作性能,提出基于增强学习的机械臂轨迹跟踪控制方法。介绍了增强学习的基本原理,提出基于SARSA算法的增强学习补偿控制策略。利用比例—微分(PD)控制器完成了基本的稳定任务后,再利用增强学习算法实现... 为了提高机器臂轨迹跟踪控制器的工作性能,提出基于增强学习的机械臂轨迹跟踪控制方法。介绍了增强学习的基本原理,提出基于SARSA算法的增强学习补偿控制策略。利用比例—微分(PD)控制器完成了基本的稳定任务后,再利用增强学习算法实现了对未知干扰因素的补偿,提升了对不同未知情况的适应能力。实验结果验证了自适应离散化增强学习方法在机械臂轨迹跟踪问题中的可行性和有效性,明显提高了控制器的学习速度。 展开更多
关键词 机器人 增强学习 轨迹跟踪 比例-微分控制器 前馈神经网络
在线阅读 下载PDF
基于k-最近邻分类增强学习的除冰机器人抓线控制 被引量:8
7
作者 魏书宁 王耀南 +1 位作者 印峰 杨易旻 《控制理论与应用》 EI CAS CSCD 北大核心 2012年第4期470-476,共7页
输电线柔性结构特性给除冰机器人越障抓线控制带来极大困难.本文提出了一种结合k–最近邻(k-nearest neighbor,KNN)分类算法和增强学习算法的抓线控制方法.利用基于KNN算法的状态感知机制选择机器人当前状态k个最邻近状态并且对之加权.... 输电线柔性结构特性给除冰机器人越障抓线控制带来极大困难.本文提出了一种结合k–最近邻(k-nearest neighbor,KNN)分类算法和增强学习算法的抓线控制方法.利用基于KNN算法的状态感知机制选择机器人当前状态k个最邻近状态并且对之加权.根据加权结果决定当前最优动作.该方法可以得到机器人连续状态的离散表达形式,从而有效解决传统连续状态泛化方法带来的计算收敛性和维数灾难问题.借助增强学习算法探测和适应环境的能力,该方法能够克服机器人模型误差和姿态误差,以及环境干扰等因素对抓线控制的影响.文中给出了算法具体实现步骤,并给出了应用此方法控制除冰机器人抓线的仿真实验. 展开更多
关键词 除冰机器人 k–最近邻分类算法 增强学习 维数灾难
在线阅读 下载PDF
增强学习中的直接策略搜索方法综述 被引量:8
8
作者 王学宁 陈伟 +2 位作者 张锰 徐昕 贺汉根 《智能系统学报》 2007年第1期16-24,共9页
对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度算法进行了推广,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法,对于非策略梯度搜索算法的最新... 对增强学习中各种策略搜索算法进行了简单介绍,建立了策略梯度方法的理论框架,并且根据这个理论框架的指导,对一些现有的策略梯度算法进行了推广,讨论了近年来出现的提高策略梯度算法收敛速度的几种方法,对于非策略梯度搜索算法的最新进展进行了介绍,对进一步研究工作的方向进行了展望. 展开更多
关键词 增强学习 策略搜索 策略梯度
在线阅读 下载PDF
机器人足球赛中基于增强学习的任务分工 被引量:9
9
作者 顾冬雷 陈卫东 席裕庚 《机器人》 EI CSCD 北大核心 2000年第6期482-489,共8页
本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average-... 本文研究了机器人足球赛中利用增强学习进行角色分工的问题 ,通过仿真试验和理论分析 ,指出文 [1]中采取无限作用范围衰减奖励优化模型 ( infinite- horizon discounted model)的 Q学习算法对该任务不合适 ,并用平均奖励模型 ( average- reward model)对算法进行了改进 ,实验表明改进后学习的收敛速度以及系统的性能都提高了近一倍 . 展开更多
关键词 机器人足球赛 增强学习 Q算法 任务分工
在线阅读 下载PDF
神经网络增强学习的梯度算法研究 被引量:22
10
作者 徐昕 贺汉根 《计算机学报》 EI CSCD 北大核心 2003年第2期227-233,共7页
针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman... 针对具有连续状态和离散行为空间的Markov决策问题 ,提出了一种新的采用多层前馈神经网络进行值函数逼近的梯度下降增强学习算法 .该算法采用了近似贪心且连续可微的Boltzmann分布行为选择策略 ,通过极小化具有非平稳行为策略的Bellman残差平方和性能指标 ,以实现对Markov决策过程最优值函数的逼近 .对算法的收敛性和近似最优策略的性能进行了理论分析 .通过Mountain Car学习控制问题的仿真研究进一步验证了算法的学习效率和泛化性能 . 展开更多
关键词 神经网络 增强学习 梯度算法 MARKOV决策过程 值函数逼近 机器学习
在线阅读 下载PDF
基于进化-增强学习方法的插电式混合动力公交车能量管理策略 被引量:10
11
作者 陈征 刘亚辉 杨芳 《机械工程学报》 EI CAS CSCD 北大核心 2017年第16期86-93,共8页
插电式混合动力客车越来越多出现在城市公交领域。为了更好地提升车辆的燃油经济性,整车能量管理策略成为一大研究热点。提出一种基于进化-增强学习方法的插电式混合动力公交车能量优化管理策略。首先,给出简化的车辆模型并基于增强学... 插电式混合动力客车越来越多出现在城市公交领域。为了更好地提升车辆的燃油经济性,整车能量管理策略成为一大研究热点。提出一种基于进化-增强学习方法的插电式混合动力公交车能量优化管理策略。首先,给出简化的车辆模型并基于增强学习系统给出能耗的优化目标函数;其次,针对此优化目标函数给出了初始的控制策略种群,并用进化算法求出最优的能量控制策略和最优能耗值;最后,通过仿真分析验证了算法的有效性。提出的新方法相对传统的电量消耗-维持(Charge depleting charge sustaining,CDCS)策略减少了大约12%的花费。 展开更多
关键词 同轴并联 插电式混合动力公交车 能量管理策略 增强学习 进化算法
在线阅读 下载PDF
基于贝叶斯分类的增强学习协商策略 被引量:6
12
作者 孙天昊 陈飞 +1 位作者 朱庆生 曹峰 《计算机科学》 CSCD 北大核心 2011年第9期227-229,247,共4页
为了帮助协商Agent选择最优行动实现其最终目标,提出基于贝叶斯分类的增强学习协商策略。在协商过程中,协商Agent根据对手历史信息,利用贝叶斯分类确定对手类型,并及时动态地调整协商Agent对对手的信念。协商Agent通过不断修正对对手的... 为了帮助协商Agent选择最优行动实现其最终目标,提出基于贝叶斯分类的增强学习协商策略。在协商过程中,协商Agent根据对手历史信息,利用贝叶斯分类确定对手类型,并及时动态地调整协商Agent对对手的信念。协商Agent通过不断修正对对手的信念,来加快协商解的收敛并获得更优的协商解。最后通过实验验证了策略的有效性和可用性。 展开更多
关键词 贝叶斯分类 增强学习 协商策略 协商历史
在线阅读 下载PDF
基于增强学习的多agent自动协商研究 被引量:6
13
作者 杨明 嘉莉 邱玉辉 《计算机工程与应用》 CSCD 北大核心 2004年第33期98-100,117,共4页
该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了... 该文通过对协商协议的引入,对提议形式、协商流程的分析,结合多属性效用理论和连续决策过程,提出了一个开放的、动态的、支持学习机制的形式化多问题自动协商模型。并在模型的基础上分别对评估提议、更新信念、生成提议等协商过程作了详细描述;对传统Q学习进行了扩充,设计了基于agent的当前信念和最近探索盈余的动态Q学习算法。 展开更多
关键词 增强学习 自动协商 Q学习 评估提议
在线阅读 下载PDF
基于深度增强学习的软件定义网络路由优化机制 被引量:16
14
作者 兰巨龙 于倡和 +1 位作者 胡宇翔 李子勇 《电子与信息学报》 EI CSCD 北大核心 2019年第11期2669-2674,共6页
为优化软件定义网络(SDN)的路由选路,该文将深度增强学习原理引入到软件定义网络的选路过程,提出一种基于深度增强学习的路由优化选路机制,用以削减网络运行时延、提高吞吐量等网络性能,实现连续时间上的黑盒优化,减少网络运维成本。此... 为优化软件定义网络(SDN)的路由选路,该文将深度增强学习原理引入到软件定义网络的选路过程,提出一种基于深度增强学习的路由优化选路机制,用以削减网络运行时延、提高吞吐量等网络性能,实现连续时间上的黑盒优化,减少网络运维成本。此外,该文通过实验对所提出的路由优化机制进行评估,实验结果表明,路由优化机制具有良好的收敛性与有效性,较传统路由协议可提供更优的路由方案与实现更稳定的性能。 展开更多
关键词 软件定义网络 路由优化 深度增强学习
在线阅读 下载PDF
基于半自治agent的profit-sharing增强学习方法研究 被引量:3
15
作者 杨克巍 张少丁 +1 位作者 岑凯辉 谭跃进 《计算机工程与应用》 CSCD 北大核心 2007年第15期72-75,97,共5页
在基于半自治agent的系统中应用profit-sharing增强学习方法,并与基于动态规划的Q-learning增强学习方法进行比较,在不确定因素较多的动态环境中,当系统状态变化不是一个马尔科夫过程时profit-sharing方法具有很大优势。根据半自治agen... 在基于半自治agent的系统中应用profit-sharing增强学习方法,并与基于动态规划的Q-learning增强学习方法进行比较,在不确定因素较多的动态环境中,当系统状态变化不是一个马尔科夫过程时profit-sharing方法具有很大优势。根据半自治agent中半自治的特性——受制性,提出了一种面向基于半自治agent的增强学习模型,以战场仿真中安全隐蔽的寻找模型为实例对基于半自治agent的profit-sharing增强学习模型进行了试验分析。 展开更多
关键词 增强学习 半自治agent PROFIT-SHARING Q-LEARNING
在线阅读 下载PDF
基于增强学习的自适应动态防御机制 被引量:5
16
作者 顾泽宇 张兴明 魏帅 《小型微型计算机系统》 CSCD 北大核心 2019年第2期401-406,共6页
动态防御技术通过持续地改变系统配置以构建动态多样性特征,增加攻击者的攻击难度,而其中的安全性与性能冲突问题尚未解决.针对SDN控制器主动防御过程中的防御代价与收益平衡问题,提出一种基于增强学习的自适应防御机制,利用异构冗余控... 动态防御技术通过持续地改变系统配置以构建动态多样性特征,增加攻击者的攻击难度,而其中的安全性与性能冲突问题尚未解决.针对SDN控制器主动防御过程中的防御代价与收益平衡问题,提出一种基于增强学习的自适应防御机制,利用异构冗余控制器架构判决反馈信息,通过量化的安全收益与防御代价提高防御策略的灵活性,实现无监督地适应性防御策略确定.仿真基于网络攻击数据集,从安全性以及防御效率等方面对比分析了不同偏向下的防御性能,验证了自适应防御机制对动态攻击者的防御能力. 展开更多
关键词 动态防御 防御代价 自适应防御 多模判决反馈 增强学习
在线阅读 下载PDF
基于增强学习的代理谈判模型 被引量:7
17
作者 张化祥 黄上腾 《计算机工程》 CAS CSCD 北大核心 2004年第10期137-139,共3页
利用增强学习的Q-learning理论,构造了一个基于时间信念、价格信念和状态期望Q值的代理谈判模型。将代理交互报价的过程看成代理选择报价行动,实现状态的迁移,可以计算出代理在不同状态采取行动的Q值。代理可以通过修改信念函数及时... 利用增强学习的Q-learning理论,构造了一个基于时间信念、价格信念和状态期望Q值的代理谈判模型。将代理交互报价的过程看成代理选择报价行动,实现状态的迁移,可以计算出代理在不同状态采取行动的Q值。代理可以通过修改信念函数及时间贴现率来调整报价。该文实现了谈判模型的报价算法,并从理论和实验数据两方面进行了分析比较。 展开更多
关键词 代理 增强学习 报价 时间信念 价格信念
在线阅读 下载PDF
基于多智能体增强学习的公交驻站控制方法 被引量:6
18
作者 陈春晓 陈治亚 陈维亚 《计算机工程与应用》 CSCD 北大核心 2015年第17期8-13,27,共7页
车辆驻站是减少串车现象和改善公交服务可靠性的常用且有效控制策略,其执行过程需要在随机交互的系统环境中进行动态决策。考虑实时公交运营信息的可获得性,研究智能体完全合作环境下公交车辆驻站增强学习控制问题,建立基于多智能体系... 车辆驻站是减少串车现象和改善公交服务可靠性的常用且有效控制策略,其执行过程需要在随机交互的系统环境中进行动态决策。考虑实时公交运营信息的可获得性,研究智能体完全合作环境下公交车辆驻站增强学习控制问题,建立基于多智能体系统的单线公交控制概念模型,描述学习框架下包括智能体状态、动作集、收益函数、协调机制等主要元素,采用hysteretic Q-learning算法求解问题。仿真实验结果表明该方法能有效防止串车现象并保持单线公交服务系统车头时距的均衡性。 展开更多
关键词 驻站 多智能体增强学习 多智能体系统 控制策略
在线阅读 下载PDF
采用核增强学习方法的多机器人编队控制 被引量:3
19
作者 吴军 徐昕 +1 位作者 连传强 黄岩 《机器人》 EI CSCD 北大核心 2011年第3期379-384,共6页
提出一种分布式的核增强学习方法来优化多机器人编队控制性能.首先,通过添加虚拟领队机器人,结合分布式的跟随控制策略,实现基本的多机器人编队控制;其次,提出结合最小二乘策略迭代和策略评测的核增强学习方法,即利用基于核的最小二乘... 提出一种分布式的核增强学习方法来优化多机器人编队控制性能.首先,通过添加虚拟领队机器人,结合分布式的跟随控制策略,实现基本的多机器人编队控制;其次,提出结合最小二乘策略迭代和策略评测的核增强学习方法,即利用基于核的最小二乘策略迭代算法离线获取初始的编队优化控制策略,再利用基于核的最小二乘策略评测算法实现编队控制策略的在线优化.最后,编队实验结果显示算法能够实现自适应优化控制,提高多机器人的编队控制性能. 展开更多
关键词 多机器人 编队控制 增强学习 策略评测 策略迭代 核方法
在线阅读 下载PDF
基于局部加权k近邻的多机器人系统异步互增强学习 被引量:2
20
作者 杨月全 韩飞 +3 位作者 金露 倪春波 曹志强 张天平 《东南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2012年第A01期208-211,共4页
针对多机器人系统的增强学习问题,为提高机器人的学习速度和充分利用通信范围内其他机器人的增强学习的经验和结果,给出了2类基于局部加权k近邻时间差分的多机器人系统的交互式学习策略.对于机器人之间通信无时滞情形,基于环境感测和任... 针对多机器人系统的增强学习问题,为提高机器人的学习速度和充分利用通信范围内其他机器人的增强学习的经验和结果,给出了2类基于局部加权k近邻时间差分的多机器人系统的交互式学习策略.对于机器人之间通信无时滞情形,基于环境感测和任务信息状态描述的局部加权k近邻状态选择方法,机器人通过对自身和通信范围内其他机器人Q值表的比较和分析,对其自身的Q值表进行优化迭代更新.在此基础上,分别给出了基于全局通信条件下和局部通信条件下多机器人系统的异步的互增强学习方案.最后,通过仿真实验进一步验证了所提方案的可行性和有效性. 展开更多
关键词 多机器人系统 增强学习 K近邻 运动控制
在线阅读 下载PDF
上一页 1 2 26 下一页 到第
使用帮助 返回顶部