期刊文献+
共找到51篇文章
< 1 2 3 >
每页显示 20 50 100
面向YOLO神经网络的数据流架构优化研究
1
作者 穆宇栋 李文明 +5 位作者 范志华 吴萌 吴海彬 安学军 叶笑春 范东睿 《计算机学报》 北大核心 2025年第1期82-99,共18页
YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行... YOLO目标检测算法具有速度快、精度高、结构简单、性能稳定等优点,因此在多种对实时性要求较高的场景中得到广泛应用。传统的控制流架构在执行YOLO神经网络时面临计算部件利用率低、功耗高、能效较低等挑战。相较而言,数据流架构的执行模式与神经网络算法匹配度高,更能充分挖掘其中的数据并行性。然而,在数据流架构上部署YOLO神经网络时面临三个问题:(1)数据流架构的数据流图映射并不能结合YOLO神经网络中卷积层卷积核较小的特点,造成卷积运算数据复用率过低的问题,并进一步降低计算部件利用率;(2)数据流架构在算子调度时无法利用算子间结构高度耦合的特点,导致大量数据重复读取;(3)数据流架构上的数据存取与执行高度耦合、串序执行,导致数据存取延迟过高。为解决这些问题,本文设计了面向YOLO神经网络的数据流加速器DFU-Y。首先,结合卷积嵌套循环的执行模式,本文分析了小卷积核卷积运算的数据复用特征,并提出了更有利于执行单元内部数据复用的数据流图映射算法,从而整体提升卷积运行效率;然后,为充分利用结构耦合的算子间的数据复用,DFU-Y提出数据流图层次上的算子融合调度机制以减少数据存取次数、提升神经网络运行效率;最后,DFU-Y通过双缓存解耦合数据存取与执行,从而并行执行数据存取与运算,掩盖了程序间的数据传输延迟,提高了计算部件利用率。实验表明,相较数据流架构(DFU)和GPU(NVIDIA Xavier NX),DFU-Y分别获得2.527倍、1.334倍的性能提升和2.658倍、3.464倍的能效提升;同时,相较YOLO专用加速器(Arria-YOLO),DFU-Y在保持较好通用性的同时,达到了其性能的72.97%、能效的87.41%。 展开更多
关键词 YOLO算法 数据流架构 数据流图优化 卷积神经网络 神经网络加速
在线阅读 下载PDF
面向处理器微架构设计空间探索的加速方法综述
2
作者 王铎 刘景磊 +4 位作者 严明玉 滕亦涵 韩登科 叶笑春 范东睿 《计算机研究与发展》 北大核心 2025年第1期22-57,共36页
中央处理器是目前最重要的算力基础设施.为了最大化收益,架构师在设计处理器微架构时需要权衡性能、功耗、面积等多个目标.但处理器运行负载的指令多,单个微架构设计点的评估耗时从10 min到数十小时不等.加之微架构设计空间巨大,全设计... 中央处理器是目前最重要的算力基础设施.为了最大化收益,架构师在设计处理器微架构时需要权衡性能、功耗、面积等多个目标.但处理器运行负载的指令多,单个微架构设计点的评估耗时从10 min到数十小时不等.加之微架构设计空间巨大,全设计空间暴力搜索难以实现.近些年来许多机器学习辅助的设计空间探索加速方法被提出,以减少需要探索的设计空间或加速设计点的评估,但缺少对加速方法的全面调研和系统分类的综述.对处理器微架构设计空间探索的加速方法进行系统总结及分类,包含软件设计空间的负载选择、负载指令的部分模拟、设计点选择、模拟工具、性能模型5类加速方法.对比了各加速方法内文献的异同,覆盖了从软件选择到硬件设计的完整探索流程.最后对该领域的前沿研究方向进行了总结,并放眼于未来的发展趋势. 展开更多
关键词 处理器微架构设计 设计空间探索 性能模型 负载选择 软件模拟
在线阅读 下载PDF
NUMA感知的云平台负载调度系统
3
作者 娄杰 段宏键 +1 位作者 曹华伟 叶笑春 《高技术通讯》 北大核心 2025年第1期20-36,共17页
随着互联网的高速发展,云计算逐渐走向了云原生时代。在云原生领域中,对容器进行调度与编排的标准系统是Kubernetes。Kubernetes有着开源、可扩展、部署难度低等诸多优点,然而,随着容器化应用的多样化和底层资源的多元化,Kubernetes在... 随着互联网的高速发展,云计算逐渐走向了云原生时代。在云原生领域中,对容器进行调度与编排的标准系统是Kubernetes。Kubernetes有着开源、可扩展、部署难度低等诸多优点,然而,随着容器化应用的多样化和底层资源的多元化,Kubernetes在以非统一存储访问(non-uniform memory access,NUMA)资源为代表的细粒度资源调度方面仍然存在不足,集群中计算资源利用率低、使用不均衡、系统关键资源争用等情况常常发生。本文以Kubernetes系统为基础,探究以NUMA为代表的细粒度资源的优化调度机制,具体研究点如下:(1)建立缓存管理器,对集群中基于容器的典型应用进行性能的建模与特征分析;(2)设计NUMA管理器,实现细粒度资源划分;(3)优化面向细粒度资源调度的算法,细粒度分配NUMA资源。通过NUMA感知的调度优化,本文所提方案提高了系统的关键资源利用率,提升了应用的运行速度,减少了集群中资源的争用以及资源使用上不均衡的现象。 展开更多
关键词 云计算 容器云平台 负载调度 非统一存储访问 资源划分
在线阅读 下载PDF
处理器片上渗透缓存蕴含的时间与空间及时局部性
4
作者 胡九川 程建聪 +3 位作者 万良易 吴楠士 叶笑春 严龙 《电子学报》 EI CAS CSCD 北大核心 2024年第10期3589-3599,共11页
处理器片上寄存器的分布形态与数量规模对处理器的整体计算性能有直接影响,这种影响表面上看是波及处理器片上缓存结构的改进和优化,本质上是时间要素与空间要素交织在一起的综合反映.因此,从时间和空间上确保处理器内核对片上缓存的局... 处理器片上寄存器的分布形态与数量规模对处理器的整体计算性能有直接影响,这种影响表面上看是波及处理器片上缓存结构的改进和优化,本质上是时间要素与空间要素交织在一起的综合反映.因此,从时间和空间上确保处理器内核对片上缓存的局部化访问必将进一步提高处理器的整体计算性能.为了认识处理器片上缓存中存在的时间与空间及时局部性,以由传统缓存耦合而成的渗透缓存为工具来分析处理器内核访问片上缓存的时间与空间局部性,仿真实验表明渗透缓存因具备容纳时间与空间局部性的结构提高了处理器访问片上缓存的命中率,客观上缩短访存延迟,从而为提高处理器性能创造了有利条件. 展开更多
关键词 渗透缓存 时间局部性 空间局部性 片上数据流转
在线阅读 下载PDF
面向多核CPU与GPU平台的图处理系统关键技术综述 被引量:1
5
作者 张园 曹华伟 +5 位作者 张婕 申玥 孙一鸣 敦明 安学军 叶笑春 《计算机研究与发展》 EI CSCD 北大核心 2024年第6期1401-1428,共28页
图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处... 图计算作为分析与挖掘关联关系的一种关键技术,已在智慧医疗、社交网络分析、金融反欺诈、地图道路规划、计算科学等领域广泛应用.当前,通用CPU与GPU架构的并行结构、访存结构、互连结构及同步机制的不断发展,使得多核CPU与GPU成为图处理加速的常用平台.但由于图处理具有处理数据规模大、数据依赖复杂、访存计算比高等特性,加之现实应用场景下的图数据分布不规则且图中的顶点与边呈现动态变化,给图处理的性能提升和高可扩展性带来严峻挑战.为应对上述挑战,大量基于多核CPU与GPU平台的图处理系统被提出,并在该领域取得显著成果.为了让读者了解多核CPU与GPU平台上图处理优化相关技术的演化,首先剖析了图数据、图算法、图应用特性,并阐明图处理所面临的挑战.然后分类梳理了当前已有的基于多核CPU与GPU平台的图处理系统,并从加速图处理设计的角度,详细、系统地总结了关键优化技术,包括图数据预处理、访存优化、计算加速和数据通信优化等.最后对已有先进图处理系统的性能、可扩展性等进行分析,并从不同角度对图处理未来发展趋势进行展望,希望对从事图处理系统研究的学者有一定的启发. 展开更多
关键词 多核CPU与GPU平台 图处理系统 图数据表示 负载均衡 不规则访存 动态图处理
在线阅读 下载PDF
HSEGRL:一种分层可自解释的图表示学习模型
6
作者 李平 宋舒寒 +3 位作者 张园 曹华伟 叶笑春 唐志敏 《计算机研究与发展》 EI CSCD 北大核心 2024年第8期1993-2007,共15页
近年来,随着图神经网络(graph neural network,GNN)技术在社交、信息、化学、生物等领域的广泛应用,GNN可解释性也受到广泛的关注.然而,现有的解释方法无法捕获层次化的解释信息,同时,这些层次信息未能被充分利用以提升图分类任务的准确... 近年来,随着图神经网络(graph neural network,GNN)技术在社交、信息、化学、生物等领域的广泛应用,GNN可解释性也受到广泛的关注.然而,现有的解释方法无法捕获层次化的解释信息,同时,这些层次信息未能被充分利用以提升图分类任务的准确率.基于这一问题,提出了一种层次化自解释的图表示学习(hierarchical self-explanation graph representation learning,HSEGRL)模型,该模型通过发现图结构中的层次信息进行图分类预测的同时,输出层次化的模型自解释结果.具体而言,针对图层次信息的发现设计了提取信息的基本单元——解释子,该解释子由提取节点特征的编码器获取层次化解释感知子图的池化层和抽取高阶解释信息的解码器组成.其中,为了准确提取层次化的解释子图,针对该模型的池化操作进行了解释感知优化设计,该设计通过评估模型的拓扑及特征重要性,层次化地筛选解释子图,实现分层自解释的同时完成图分类任务.HSEGRL是一个功能完备且便于迁移的图表示学习自解释模型,可以层次化综合考虑模型的拓扑信息与节点特征信息.在模型有效性验证层面,分别在分子、蛋白质和社交数据集上进行大量实验,实验结果表明所提模型在图分类任务中的分类准确率高于已有的先进的GNN自解释模型和GNN模型,并通过可视化分层解释结果的信息证明了该解释方法可信. 展开更多
关键词 图表示学习 图神经网络 可自解释模型 图拓扑 消息传递机制
在线阅读 下载PDF
蛋白质序列比对算法在众核结构上的并行优化 被引量:3
7
作者 叶笑春 林伟 +1 位作者 范东睿 张浩 《软件学报》 EI CSCD 北大核心 2010年第12期3094-3105,共12页
在生物信息学中,蛋白质序列比对是最为重要的算法之一,生物技术的发展使得已知的序列库变得越来越庞大,这类算法本身又具有计算密集型的特点,这导致进行序列比对所消耗的时间也越来越长,目前的单核或者数量较少的多核系统均已经难以满... 在生物信息学中,蛋白质序列比对是最为重要的算法之一,生物技术的发展使得已知的序列库变得越来越庞大,这类算法本身又具有计算密集型的特点,这导致进行序列比对所消耗的时间也越来越长,目前的单核或者数量较少的多核系统均已经难以满足对计算速度的要求.Godson-T是一个包含诸多创新结构的众核平台,在该系统上实现了对一种蛋白质序列比对算法的并行化,并且结合蛋白质比对算法以及Godson-T结构的特征,针对同步开销、存储访问竞争以及负载均衡3个方面对算法进行了细致的优化,最终并行部分整体也获得了更优的、接近线性的加速比,并且实际性能远远优于基于AMD Opteron处理器的工作站平台. 展开更多
关键词 序列比对算法 众核 并行 优化
在线阅读 下载PDF
高通量众核处理器设计
8
作者 叶笑春 李文明 +3 位作者 张洋 张浩 王达 范东睿 《数据与计算发展前沿》 2020年第1期70-84,共15页
【目的】随着云计算、物联网以及人工智能等新型高通量应用的迅速兴起,高性能计算的主要应用从传统的科学与工程计算为主逐步演变为以新兴数据处理为核心,这给传统处理器带来了巨大的挑战,而高通量众核处理器作为面向此类应用的新型处... 【目的】随着云计算、物联网以及人工智能等新型高通量应用的迅速兴起,高性能计算的主要应用从传统的科学与工程计算为主逐步演变为以新兴数据处理为核心,这给传统处理器带来了巨大的挑战,而高通量众核处理器作为面向此类应用的新型处理器结构成为重要的研究方向。【方法】针对上述问题,本文分析了高通量典型应用特征,从数据处理端、传输端以及存储端三个核心环节开展了高通量众核处理器关键技术设计探讨,包括实时任务动态调度、高密度片上网络设计、片上存储层次优化等。【结果】实验结果显示上述机制可以有效确保任务的服务质量,提升网络的数据吞吐率,以及简化片上存储层次。【结论】随着万物互联时代对高并发强实时处理的迫切需求,高通量众核处理器有望成为未来数据中心的核心处理引擎。 展开更多
关键词 高通量计算 众核处理器 数据通路
在线阅读 下载PDF
一种面向科学计算的数据流优化方法 被引量:9
9
作者 申小伟 叶笑春 +7 位作者 王达 张浩 王飞 谭旭 张志敏 范东睿 唐志敏 孙凝晖 《计算机学报》 EI CSCD 北大核心 2017年第9期2181-2196,共16页
传统数据流结构通过多上下文来隐藏指令等待源操作数的延迟,然而这种隐藏方式只能部分提高数据流处理器执行单元的利用率.在面向例如Stencil、FFT和矩阵乘法等典型科学应用时,传统数据流结构的执行单元利用率仍然较低.科学计算中的核心... 传统数据流结构通过多上下文来隐藏指令等待源操作数的延迟,然而这种隐藏方式只能部分提高数据流处理器执行单元的利用率.在面向例如Stencil、FFT和矩阵乘法等典型科学应用时,传统数据流结构的执行单元利用率仍然较低.科学计算中的核心程序一般是对不同数据进行相同的操作,而且这些操作可以并行执行,数据之间没有直接依赖关系.传统数据流结构是面向通用计算的,通常采用循环来实现对不同数据的相同操作.在这些循环中,迭代是按照顺序依次执行的,这导致了传统数据流结构没有利用科学计算的并行性来提高性能.所以传统数据流结构在处理这些规则的科学应用时没有协调好数据流计算模式和科学计算特征,而数据流计算是非常适合科学计算这种类型的规则计算.基于科学计算的这些特征,该文提出了一种面向科学计算的数据流结构优化方法:循环流水优化方法.循环流水优化方法利用科学计算的分块和并行处理特征,对传统数据流结构中的上下文控制逻辑进行了改进,将科学计算中的循环采用硬件自迭代的方式实现,并将上下文切换逻辑进行了流水化,使数据流结构中的上下文以流水线方式进入执行单元阵列,从而提高计算单元的利用率.面对这种循环流水优化后的数据流结构,传统数据流结构上的指令映射算法不再适用.通过分析循环流水优化后的结构特征,该文进一步提出了一种改进的指令映射算法:LBC(Load Balance Centric)指令映射算法.LBC算法按照深度优先顺序依次映射数据流图中的所有指令,对每条指令分别计算执行单元阵列中所有位置的代价,取最小代价的位置作为最佳映射位置.LBC算法以执行单元负载均衡为核心,同时将定点指令和浮点指令分开处理,保证执行单元上的定点部件和浮点部件的负载均衡.每当映射一条指令时,LBC算法采用相邻节点传输延迟与已经映射的该类型指令数量的乘积作为负载代价,来实现计算部件的负载均衡.另外,LBC算法将网络拥堵也作为指令映射的影响因素.LBC算法将节点与所有父节点的距离之和作为传输代价,使指令间传输消息的路径最短,从而减小片上网络消息传递的跳数.实验结果表明,在处理典型科学应用时,相比于传统数据流结构,循环流水的优化方法将数据流结构的性能平均提高了4.6%.相比于传统指令映射算法SPDI和SPS,在循环流水优化后的数据流结构上,LBC指令映射算法将性能分别平均提升了182.6%和158.1%. 展开更多
关键词 指令映射 数据流 循环流水 科学计算处理器 高性能计算
在线阅读 下载PDF
BDSim:面向大数据应用的组件化高可配并行模拟框架 被引量:5
10
作者 李文明 叶笑春 +5 位作者 张洋 宋风龙 王达 唐士斌 范东睿 谢向辉 《计算机学报》 EI CSCD 北大核心 2015年第10期1959-1975,共17页
大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决... 大规模并行模拟是研究大数据体系结构的重要方法,对大数据应用及众核体系结构的发展有着不可替代的推动作用.然而,目前的模拟技术不能满足大数据体系结构研究的需求,主要体现在模拟速度慢、配置过程复杂以及可扩展性差等方面.为了解决此问题,评估面向大数据应用的高通量众核体系结构的性能与功耗,该文提出了面向大数据应用的并行模拟框架——BDSim.该框架基于组件化思想,将功能组件与框架服务单元组成并行功能单元,并可根据负载情况,自由配置组件与框架服务单元之间的映射关系.为了提高组件之间的通信和同步效率,该文提出了一种非阻塞无锁通信优化方法,和一种CMB保守同步算法的优化算法——NMTRT-CMB同步算法.模拟不同并发规模的基于2D-Mesh网络的众核系统的实验结果表明,与基于锁的并行通信方法相比,框架采用的非阻塞无锁通信优化方法可以提高并行模拟速度约10%,该算法与CMB同步算法相比,NMTRT-CMB同步算法可以减少空消息数量达90%以上. 展开更多
关键词 组件化并行模拟框架 并行离散事件模拟 非阻塞无锁通信 CMB算法 高可配 大数据
在线阅读 下载PDF
通用处理器的高带宽访存流水线研究 被引量:6
11
作者 张浩 林伟 +2 位作者 周永彬 叶笑春 范东睿 《计算机学报》 EI CSCD 北大核心 2009年第1期142-151,共10页
存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的... 存储器访问速度的发展远远跟不上处理器运算速度的发展,日益严峻的访存速度问题严重制约了处理器速度的进一步发展.降低load-to-use延迟是提高处理器访存性能的关键,在其他条件确定的情况下,增加访存通路的带宽是降低load-to-use延迟的最有效途径,但增加带宽意味着增加访存通路的硬件逻辑复杂度,势必会增加访存通路的功耗.文中的工作立足于分析程序固有的访存特性,探索高带宽访存流水线的设计和优化空间,分析程序访存行为的规律性,并根据这些规律性给出高带宽访存流水线的低复杂度、低延迟、低功耗解决方案.文中的工作大大简化了高带宽访存流水线的设计,降低了关键路径的时延和功耗,被用于指导Godsonx处理器的访存设计.在处理器整体面积增加1.7%的情况下,将访存流水线的带宽提高了一倍,处理器的整体性能平均提高了8.6%. 展开更多
关键词 高带宽 访存流水 高速缓存 TLB
在线阅读 下载PDF
高压变压器局部放电脉冲提取的新方法 被引量:9
12
作者 王祁 钟升 +1 位作者 孟凡根 叶笑春 《高电压技术》 EI CAS CSCD 北大核心 1996年第1期50-53,共4页
尝试了小波变换在高压变压器放电脉冲提取中的应用。针对载波干扰等去除问题,提出了二次小波变换与外推修正的提取方法及行量提取方法有效性的概念。数值模拟实验给出了很好的结果。
关键词 局部放电 脉冲提取 试验 高压 变压器
在线阅读 下载PDF
众核处理器中使用写掩码实现混合写回/写穿透策略 被引量:5
13
作者 林伟 叶笑春 +1 位作者 宋风龙 张浩 《计算机学报》 EI CSCD 北大核心 2008年第11期1918-1928,共11页
高速缓存采用写回策略,能极大地节省对片上网络和访存带宽的消耗,这对于片上众核(大于16核)的结构尤为重要.与通常多核系统中基于目录/总线的写无效或写更新协议不同,文中给出了片上实现域一致性存储模型和基于硬件锁的缓存一致性协... 高速缓存采用写回策略,能极大地节省对片上网络和访存带宽的消耗,这对于片上众核(大于16核)的结构尤为重要.与通常多核系统中基于目录/总线的写无效或写更新协议不同,文中给出了片上实现域一致性存储模型和基于硬件锁的缓存一致性协议的方案并提出了在L1高速缓存保存写掩码的方法,用以记录本地更新缓存块的字节位置,解决了写回策略下伪共享带来的缓存一致性问题.文中还进一步提出两种优化掩码存储空间开销的新方法:通过设定程序中较少出现的、长度为1-3字节的写指令为写穿透,在L1中每4字节设置一位写掩码,将写掩码的芯片面积开销压缩到字节粒度的27.9%;设计项数为L1缓存块总数12.5%的多路写掩码缓存,在不损失性能的情况下,将面积开销压缩到字节粒度的17.7%.搭建的众核平台Godson-T采用域一致性存储模型,使用写掩码实现混合写回/写穿透缓存策略(临界区内写穿透,临界区外写回).实验使用splash2的3个程序和2个生物计算程序进行评估.结果表明,相对于完全写穿透,混合写回策略在32和64线程的配置下普遍获得24%以上的性能提升,性能略优于完全写回,并且采用两种优化空间开销的新方法后性能无损失. 展开更多
关键词 众核 写掩码 写掩码缓存 域一致性 伪共享 写无效 写更新
在线阅读 下载PDF
LU分解在众核结构仿真器上的指令级调度研究 被引量:5
14
作者 余磊 刘志勇 +1 位作者 宋风龙 叶笑春 《系统仿真学报》 CAS CSCD 北大核心 2011年第12期2603-2610,共8页
随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了... 随着集成电路工艺的发展,众核处理器体系结构逐渐成为计算机体系结构设计者的研究热点。众核体系结构通过任务级的并行来提升整个处理器的性能。然而,指令级的并行性仍然是众核设计者需要认真考虑的问题。对浮点运算效率和加速比进行了形式化描述,验证了进行指令级调度的必要性。对处理器核内流水线进行详细分析,指出了指令级调度的一般性问题。提出了在众核结构上使用指令级调度和软件流水的方法。针对Splash2程序集里的LU分解算法,使用众核结构的硬件支持,在Scratched Pad Memory(SPM)上给出了调度指令的方案。在众核仿真器Godson-T上仿真了经过指令级调度后的算法,当使用64个线程处理512×512的矩阵时,程序性能达到调度前性能的4倍。 展开更多
关键词 计算机体系结构 众核 加速比 指令级并行 LU分解
在线阅读 下载PDF
众核处理器片上网络的层次化全局自适应路由机制 被引量:2
15
作者 张洋 王达 +4 位作者 叶笑春 朱亚涛 范东睿 李宏亮 谢向辉 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1211-1220,共10页
Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适... Mesh和环拓扑结构以其实现简单、易于扩展的特点成为众核处理器片上网络应用最为广泛的拓扑结构.应用于Mesh结构中的健忘型路由算法在网络流量较大时影响片上网络的负载均衡,表现在降低吞吐量和增大数据包延迟.自适应算法中的本地自适应算法和区域自适应算法均存在不同程度的短视现象,不适合大规模的Mesh结构,而目前全局自适应算法又由于路由计算量大而速度缓慢.提出一种新的层次化全局自适应路由机制,包括一个全局拥塞信息传播网络Roof-Mesh和一个层次化全局自适应路由算法(global hierarchical adaptive routing algorithm,GHARA).通过全局拥塞信息传播网络得到拥塞信息,GHARA采用全网分区逐级计算路由的方式,减少了全局路由的计算步骤,从而减少了平均数据包延迟、提升了饱和带宽.实验结果表明GHARA表现优于其他区域和全局自适应路由算法.在人工注入通信模式下,8×8 Mesh平均饱和带宽比全局自适应算法GCA提高10.7%,16×16Mesh平均饱和带宽比全局自适应算法GCA提高14.7%.在运行真实测试程序集SPLASH-2模式下,数据包延迟最高比GCA提高40%,平均提升14%. 展开更多
关键词 众核处理器 片上网络 负载均衡 全局拥塞信息传播网络 层次化全局自适应路由算法 Roof-Mesh
在线阅读 下载PDF
面向低精度神经网络的数据流体系结构优化 被引量:2
16
作者 范志华 吴欣欣 +4 位作者 李文明 曹华伟 安学军 叶笑春 范东睿 《计算机研究与发展》 EI CSCD 北大核心 2023年第1期43-58,共16页
数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问... 数据流架构的执行方式与神经网络算法具有高度匹配性,能充分挖掘数据的并行性.然而,随着神经网络向更低精度的发展,数据流架构的研究并未面向低精度神经网络展开,在传统数据流架构部署低精度(INT8,INT4或者更低)神经网络时,会面临3个问题:1)传统数据流架构的计算部件数据通路与低精度数据不匹配,无法体现低精度神经网络的性能和能效优势;2)向量化并行计算的低精度数据在片上存储中要求顺序排列,然而它在片外存储层次中是分散排列的,使得数据的加载和写回操作变得复杂,传统数据流架构的访存部件无法高效支持这种复杂的访存模式;3)传统数据流架构中使用双缓冲机制掩盖数据的传输延迟,但是,当传输低精度数据时,传输带宽的利用率显著降低,导致计算延迟无法掩盖数据传输延迟,双缓冲机制面临失效风险,进而影响数据流架构的性能和能效.为解决这3个问题,设计了面向低精度神经网络的数据流加速器DPU_Q.首先,设计了灵活可重构的计算单元,根据指令的精度标志位动态重构数据通路,一方面能高效灵活地支持多种低精度数据运算,另一方面能进一步提高计算并行性和吞吐量.另外,为解决低精度神经网络复杂的访存模式,设计了Scatter引擎,该引擎将在低层次或者片外存储中地址空间离散分布的低精度数据进行拼接、预处理,以满足高层次或者片上存储对数据排列的格式要求.同时,Scatter引擎能有效解决传输低精度数据时带宽利用率低的问题,解决了双缓冲机制失效的问题.最后,从软件方面提出了基于数据流执行模式的低精度神经网络映射算法,兼顾负载均衡的同时能对权重、激活值数据进行充分复用,减少了访存和数据流图节点间的数据传输开销.实验表明,相比于同精度的GPU(Titan Xp)、数据流架构(Eyeriss)和低精度神经网络加速器(BitFusion),DPU_Q分别获得3.18倍、6.05倍、1.52倍的性能提升和4.49倍、1.6倍、1.13倍的能效提升. 展开更多
关键词 数据流架构 低精度神经网络 量化 可重构架构 直接内存访问
在线阅读 下载PDF
一种支持数据渗透迁移的片上缓存模型研究 被引量:5
17
作者 胡九川 范东睿 +2 位作者 李丹萍 严龙 叶笑春 《北京交通大学学报》 CAS CSCD 北大核心 2017年第5期1-9,共9页
分析一种支持数据在处理器片上如流水般浸润迁移的渗透缓存层次模型,以及片上数据渗透迁移的基本算法.为了仿真验证渗透缓存模型的有效性、分析该模型及其上的数据迁移算法的性质,本文给出了描述渗透迁移模型基本结构的构成关系、渗透... 分析一种支持数据在处理器片上如流水般浸润迁移的渗透缓存层次模型,以及片上数据渗透迁移的基本算法.为了仿真验证渗透缓存模型的有效性、分析该模型及其上的数据迁移算法的性质,本文给出了描述渗透迁移模型基本结构的构成关系、渗透迁移数据的形式化方法.仿真实验结果表明:该模型在改进处理器访存的命中率方面具有明显优势. 展开更多
关键词 缓存结构 渗透数据迁移 及时局部性
在线阅读 下载PDF
基于网络负载特征感知的数据流指令调度机制研究 被引量:2
18
作者 冯煜晶 欧焱 +3 位作者 叶笑春 范东睿 谭旭 唐志敏 《高技术通讯》 EI CAS 北大核心 2018年第11期885-898,共14页
研究了数据流架构的指令调度策略,基于当前普遍采用的数据流指令调度机制,提出了支持模式切换的动态指令调度机制。由于数据流架构执行模式具有并行化特点,同一时刻存在大量并行传递的数据和并行的计算,网络传输负载呈现出非均匀的分布... 研究了数据流架构的指令调度策略,基于当前普遍采用的数据流指令调度机制,提出了支持模式切换的动态指令调度机制。由于数据流架构执行模式具有并行化特点,同一时刻存在大量并行传递的数据和并行的计算,网络传输负载呈现出非均匀的分布模式。局部网络传输压力过大导致数据流节点中的处理单元内部出现流水线停顿,片上网络(NoC)的局部传输效率降低,从而影响数据流架构的网络传输延迟、计算部件的利用率和整体的执行效率,因此针对原有的指令调度策略提出改进方案。针对网络负载的动态变化实时调整指令调度策略,从而达到缓解网络局部拥塞,提高网络传输效率的目的。本研究使用数据流模拟器对提出的机制进行验证,实验结果表明,采用本文提出的指令调度机制,数据流网络的传输延迟平均降低了12. 8%,计算部件的利用率平均提高了14. 4%,数据流架构的整体性能平均提高了14. 7%。 展开更多
关键词 数据流架构 动态指令调度 片上网络(NoC) 网络负载 单元利用率
在线阅读 下载PDF
LFF:一种面向大数据应用的众核处理器访存公平性调度机制 被引量:2
19
作者 张洋 李文明 +5 位作者 叶笑春 王达 范东睿 李宏亮 唐志敏 孙凝晖 《高技术通讯》 北大核心 2017年第2期103-111,共9页
研究了众核处理器的访存公平性问题。针对众核处理器距离访存资源较近的处理单元拥有较大的访存带宽而造成的访存公平性问题,提出了一种面向大数据应用的众核处理器访存公平性调度机制:最少最远(LFF)优先访存。这种机制的原理如下:依据... 研究了众核处理器的访存公平性问题。针对众核处理器距离访存资源较近的处理单元拥有较大的访存带宽而造成的访存公平性问题,提出了一种面向大数据应用的众核处理器访存公平性调度机制:最少最远(LFF)优先访存。这种机制的原理如下:依据处理单元距离访存资源的距离以及处理单元访存的次数来调度访存顺序,以保证各个处理单元的公平性。首先,访问次数较少的节点被赋予更高的访存优先权。其次,在具有相同访问次数的节点中,距离更远的节点优先访存。再次,在相同距离的节点中,已被选中优先次数少的有优先级。实验评估表明,该调度机制能够有效解决众核处理器的访存公平性问题,其公平性调度效果优于FR-FCFS,PAR-BS、ATLAS。在1024核情况下,系统异步率由FR-FCFS的15.5%降低到1.89%。 展开更多
关键词 大数据 众核处理器 公平性 调度
在线阅读 下载PDF
数据流计算研究进展与概述 被引量:2
20
作者 范志华 李文明 +1 位作者 叶笑春 范东睿 《数据与计算发展前沿》 CSCD 2021年第5期65-81,共17页
【目的】本文追溯数据流计算的起源,就数据流计算理论和系统的相关研究背景、关键技术展开介绍。【文献范围】本文整理上世纪60年代至今数据流计算相关的研究文献。【方法】从数据流的起源、软件系统、硬件架构研究进展三个方面介绍了... 【目的】本文追溯数据流计算的起源,就数据流计算理论和系统的相关研究背景、关键技术展开介绍。【文献范围】本文整理上世纪60年代至今数据流计算相关的研究文献。【方法】从数据流的起源、软件系统、硬件架构研究进展三个方面介绍了数据流计算的重要工作和关键技术。【结果】对数据流计算的发展趋势和挑战进行了分析与总结。【结论】本文将对未来数据流计算的研究提供参考,希望给该领域的研究人员带来一定的启发。 展开更多
关键词 数据流执行模型 数据流软件系统 数据流硬件架构
在线阅读 下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部