期刊文献+
共找到27篇文章
< 1 2 >
每页显示 20 50 100
基于拉丁方的短消息全交换通信算法
1
作者 刘勇 刘丽 何王全 《计算机工程》 CAS CSCD 北大核心 2010年第24期12-14,共3页
并行算法中的全交换通信类似于方阵转置变换,拉丁方在这个变换中可起着重要的承接作用。为此,提出一种基于拉丁方有效实现短消息全交换通信的软件方法。利用拉丁方将全交换通信划分为本地内存拷贝和集合消息2个部分。通过模型分析出短... 并行算法中的全交换通信类似于方阵转置变换,拉丁方在这个变换中可起着重要的承接作用。为此,提出一种基于拉丁方有效实现短消息全交换通信的软件方法。利用拉丁方将全交换通信划分为本地内存拷贝和集合消息2个部分。通过模型分析出短消息全交换通信优于直接通信的消息量的上界。实验验证了该方法的有效性。 展开更多
关键词 拉丁方 全交换 短消息
在线阅读 下载PDF
面向国产异构众核系统的Parallel C语言设计与实现 被引量:10
2
作者 何王全 刘勇 +2 位作者 方燕飞 魏迪 漆锋滨 《软件学报》 EI CSCD 北大核心 2017年第4期764-785,共22页
异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、... 异构众核架构具有超高的性能功耗比,已成为超级计算机体系结构的重要发展方向.但众核系统更为复杂的并行层次和存储层次,给编程和优化带来了极大的挑战.因此,研究面向众核系统的并行编程技术,对于降低国产众核系统并行应用的编程难度、提升并行程序的性能都具有重要的意义.提出统一架构的多模式并行编程模型,包括异构融合的加速运算模型和按同构方式编程的自主运算模型,根据编程模型设计了Parallel C语言,能够有效地描述国产众核系统的异构并行性.与其他众核系统上MPI+X的使用模式相比,编程和系统优化都具有全局视角,在多级局部性描述、单边消息、兼容已有多核应用等方面具有特色;基于Open64构建了Parallel C编译系统,全面支持加速运算模型和自主运算模型,提出并实现了数据布局与自动DMA、编译指导的线程代理和拓扑位置感知的集合通信等优化.Micro Benchmark和实际应用在神威太湖之光计算机系统上的测试数据结果表明:Parallel C语言和编译系统具有良好的性能和可扩展性,能够有效支撑大型应用. 展开更多
关键词 异构众核 编程模型 并行语言 PARALLEL C 编译器 消息传递
在线阅读 下载PDF
基于排队理论的动态任务调度模型及容错 被引量:1
3
作者 何王全 魏迪 +2 位作者 权建校 吴伟 漆锋滨 《计算机研究与发展》 EI CSCD 北大核心 2016年第6期1271-1280,共10页
高效的动态任务调度和容错机制是高性能计算面临的挑战之一,已有的方法难以高效扩展到大规模环境.针对该问题,提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关... 高效的动态任务调度和容错机制是高性能计算面临的挑战之一,已有的方法难以高效扩展到大规模环境.针对该问题,提出了基于N层排队理论的高可扩展动态任务调度模型,为程序员提供简洁的并行编程框架,有效降低了编程负担;使用泊松过程相关理论分析了任务申请的平均等待时间,通过给定的阈值进行决策分层;结合局部感知的轻量级降级模型,可有效降低大规模并行课题的容错开销,提高系统的可用性.Micro Benchmark在神威蓝光32 768核环境下测试表明,对于平均执行时间为3.4s的短任务,基于N层排队理论的动态任务调度模型可扩展性很好,调度开销是传统模型的7.2%;药物软件DOCK在16 384核环境下的整体性能比该软件原有的任务调度提升34.3%;局部感知的轻量级降级模型具有故障后损失小的特点,DOCK的测试表明比传统容错方法执行时间减少3.75%~5.13%. 展开更多
关键词 排队理论 动态任务调度 编程框架 容错 轻量级降级
在线阅读 下载PDF
Parallel C语言级容错机制的设计与实现
4
作者 何王全 方燕飞 +2 位作者 魏迪 董恩铭 漆锋滨 《计算机工程与应用》 CSCD 北大核心 2018年第17期41-49,61,共10页
大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针... 大规模异构众核计算机系统具有计算能力强、性能功耗比高等突出优点,已成为超级计算机的发展方向,但其复杂的异构结构和庞大的系统规模,也使系统的可用性面临巨大挑战,因此研究面向大规模异构众核系统的轻量级容错技术具有重要意义。针对传统基于检查点的系统级容错开销过大的问题,在Parallel C语言中设计并实现了故障局部感知的轻量级降级、编译指导与自动分析的检查点等语言支持的容错机制,兼顾了好用性和高效性。局部故障感知的轻量级降级结合动态任务调度框架实现,支持众核系统,可扩展到百万以上并行规模;编译指导与自动分析的检查点通过程序员插入简单的编译指示,由编译器进行分析,提示不需要保留的数据,可有效降低保留恢复的数据量。神威太湖之光超级计算机上的测试数据表明,两种容错措施相对于传统容错方法效果良好,轻量级降级的容错开销小于1%,相对于传统回卷容错方法单次故障执行时间可减少3.5%以上,编译指导与自动分析的检查点在典型应用中最多可将保留量降低至1/10,具有很好的实用性。 展开更多
关键词 容错 降级 检查点 PARALLEL C语言
在线阅读 下载PDF
F2^m上并行Pollard rho算法的优化实现
5
作者 何王全 漆锋滨 韩文报 《计算机应用与软件》 CSCD 北大核心 2005年第12期15-18,38,共5页
并行Pollard rho算法是目前攻击椭圆曲线密码体制(E lliptic Curve Cryptosystem,简称ECC)的最好算法,国内外的研究十分活跃。本文首先介绍了攻击F2m上ECC的并行Pollard rho算法及我们的实现流程,然后给出了核心基本运算(包括求逆、一... 并行Pollard rho算法是目前攻击椭圆曲线密码体制(E lliptic Curve Cryptosystem,简称ECC)的最好算法,国内外的研究十分活跃。本文首先介绍了攻击F2m上ECC的并行Pollard rho算法及我们的实现流程,然后给出了核心基本运算(包括求逆、一般乘法、平方、求模等)的优化算法。实验数据表明,根据本文优化算法编制的MPI并行程序在多机上加速比良好,运算速度优于互联网上公开的程序。 展开更多
关键词 ECC 并行Pollard rho算法 F2^m上的乘法 平方和逆
在线阅读 下载PDF
NERC在循环流化床燃烧技术领域的研究与开发 被引量:8
6
作者 李光华 徐正泉 +6 位作者 何王全 吕怀安 马丽锦 高洪培 蒋敏华 孙献斌 张敏 《热力发电》 CAS 北大核心 1999年第2期10-14,共5页
简述电站锅炉煤清洁燃烧国家工程研究中心(NERC)近年来对循环流化床(CFB)燃烧技术的研究概况。对其开发工作、试验研究和工业装置设计的技术关键进行了较详细的介绍,并对已进行的国产CFB锅炉的启动调试和试验研究概况及... 简述电站锅炉煤清洁燃烧国家工程研究中心(NERC)近年来对循环流化床(CFB)燃烧技术的研究概况。对其开发工作、试验研究和工业装置设计的技术关键进行了较详细的介绍,并对已进行的国产CFB锅炉的启动调试和试验研究概况及CFB锅炉大型化技术未来的开发步骤作了阐述。 展开更多
关键词 循环流化床 燃烧技术 NERC 锅炉 CFB锅炉
在线阅读 下载PDF
循环流化床传热特性的试验研究 被引量:9
7
作者 孙献斌 何王全 +8 位作者 吕怀安 张敏 徐正泉 高洪培 肖平 潘栋 张康道 马丽锦 张清莲 《热力发电》 北大核心 2000年第1期20-21,57,共3页
在 1MW循环流化床燃烧试验台上对炉内水冷壁的传热特性进行了试验研究 ,分析了循环床运行参数对传热的影响规律 。
关键词 循环流化床锅炉 传热 水冷壁 试验
在线阅读 下载PDF
国产化100MW CFB锅炉的设计研究 被引量:4
8
作者 孙献斌 蒋敏华 +12 位作者 李光华 张敏 吕怀安 肖平 高洪培 何王全 袁颖 于龙 林旭东 马明华 张缦 陈济榕 李文健 《中国电力》 CSCD 北大核心 2000年第2期14-17,47,共5页
循环流化床锅炉(CFB)的大型化发展要求从设计、制造及辅机配套等方面实现国产化。文中介绍哈尔滨锅炉有限责任公司和电站锅炉煤清洁燃烧国家工程研究中心在总结大量试验研究、设计制造经验及消化吸收内江100MW CFB锅炉技... 循环流化床锅炉(CFB)的大型化发展要求从设计、制造及辅机配套等方面实现国产化。文中介绍哈尔滨锅炉有限责任公司和电站锅炉煤清洁燃烧国家工程研究中心在总结大量试验研究、设计制造经验及消化吸收内江100MW CFB锅炉技术的基础上联合设计的100 MW CFB锅炉,对其设计思想、炉型技术特点以及锅炉岛辅机设备的设计进行详细讨论。 展开更多
关键词 循环流化床锅炉 设计 国产化 炉膛
在线阅读 下载PDF
基于多层MD5消息摘要的文件完整性实时检测技术 被引量:8
9
作者 方燕飞 王俊 何王全 《计算机应用与软件》 CSCD 2015年第1期20-23,共4页
在大规模并行系统上,并行应用涉及的文件操作的可靠性和文件数据的完整性验证很重要。基于传统串行MD5摘要的文件验证手段无法满足大规模并行应用的需求,提出一种多层MD5并行摘要思想。基于此实现了文件完整性实时检测接口,并测试了串行... 在大规模并行系统上,并行应用涉及的文件操作的可靠性和文件数据的完整性验证很重要。基于传统串行MD5摘要的文件验证手段无法满足大规模并行应用的需求,提出一种多层MD5并行摘要思想。基于此实现了文件完整性实时检测接口,并测试了串行MD5摘要和多层MD5摘要的性能,以及相应的文件完整性检测技术的性能。 展开更多
关键词 MD5消息摘要 文件完整性 实时检测
在线阅读 下载PDF
国产410t/h循环流化床锅炉底灰处理系统技术研究 被引量:7
10
作者 吕怀安 徐正泉 +6 位作者 马丽锦 张敏 孙献斌 何王全 高洪培 王海涛 蒋敏华 《热力发电》 北大核心 2000年第3期2-5,19,共5页
分析了四川内江高坝电厂 41 0t/h循环流化床 (CFB)锅炉底灰处理系统设计及运行特性 ,总结了FAC - 80 0 0 / 2 0 0型冷渣器设计和现场运行性能 ,在此基础上提出了国产 41
关键词 循环流化床锅炉 冷渣器 底灰处理系统
在线阅读 下载PDF
可重构计算及可重构编译技术研究 被引量:5
11
作者 漆锋滨 王珊珊 +1 位作者 姜小成 何王全 《微电子学与计算机》 CSCD 北大核心 2007年第10期36-38,42,共4页
可重构计算是未来高性能计算的发展趋势,它兼具了通用计算的灵活性和专用计算的高效性,充分利用系统资源的同时,又能发挥应用程序的效率。可重构编译是推广可重构计算的关键技术,可重构编译系统能够为传统的软件编程人员提供一个体系结... 可重构计算是未来高性能计算的发展趋势,它兼具了通用计算的灵活性和专用计算的高效性,充分利用系统资源的同时,又能发挥应用程序的效率。可重构编译是推广可重构计算的关键技术,可重构编译系统能够为传统的软件编程人员提供一个体系结构透明的开发平台,并让用户真正灵活利用可重构计算平台。 展开更多
关键词 可重构计算 可重构编译 可重构编程语言
在线阅读 下载PDF
面向众核多级访存资源的静态数据布局优化模型 被引量:3
12
作者 刘勇 刘丽 何王全 《计算机应用与软件》 CSCD 2011年第7期53-56,共4页
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显示管理应用程序中的数据存储和传输。为此,提出了一种众核多级访存资源的静态数据布局优化模型。... 受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显示管理应用程序中的数据存储和传输。为此,提出了一种众核多级访存资源的静态数据布局优化模型。该模型首先选择应用程序中可进行访存优化的数组变量,对这些变量进行优化收益的评估,然后建立一个类0-1背包优化问题的目标模型,最后针对该优化模型提出了一个实用的近似算法。实验结果验证了该模型的有效性。 展开更多
关键词 SPM 多级访存资源 数据布局 数据传输
在线阅读 下载PDF
OpenCL的动态执行模式在静态编译支持下的实现 被引量:1
13
作者 文延华 何王全 尉红梅 《计算机应用与软件》 CSCD 北大核心 2014年第10期16-19,共4页
OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境... OpenCL的动态执行模式要求底层平台支持device文件的动态生成、编译和加载运行。对于不具备这些特性的平台,必须从软件层面考虑支持方法。通过采用函数更名技术解决同名函数正确识别问题,基于动态执行流的predo策略可以在静态编译环境下实现OpenCL的动态执行模式。 展开更多
关键词 动态执行模式 函数更名技术 执行流 predo策略
在线阅读 下载PDF
一种简便的栈式片上内存动态管理方法 被引量:1
14
作者 刘勇 陆林生 何王全 《计算机工程与科学》 CSCD 北大核心 2010年第9期111-114,共4页
受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方... 受功耗、面积的限制,高性能众核处理器倾向于将片上SRAM组织成SPM这种非Cache形式,与片外主存构成多级存储架构。这种存储架构需要软件显式管理应用程序中的数据存储和传输。为此,本文提出了一种简便的栈式片上内存动态管理方法。该方法首先选择应用程序中可进行访存优化的数组变量,分析这些数组变量的生存周期,根据生存周期相干情况提出一种栈式的动态片上内存管理方法,将更多的数组变量动态存储在片上内存中,同时结合数组变量的优化收益评估将那些访存密度高的变量有限布局在片上内存中。实验结果验证了该方法的有效性。 展开更多
关键词 SPM 栈式内存动态分配 访存优化
在线阅读 下载PDF
内江410 t/h CFB示范锅炉技术研究 被引量:2
15
作者 张敏 蒋敏华 +9 位作者 孙献斌 何王全 吕怀安 李光华 徐正泉 马丽锦 高洪培 肖平 张康道 潘栋 《锅炉制造》 2000年第2期12-16,共5页
通过对内江高坝发电厂410 t/h引进锅炉技术资料的分析,现场实际设备和运行情况的考查及相关的试验研究,完成了对引进锅炉设备关键技术的消化吸收工作。其研究成果可供国内研制发展 100 MW
关键词 CFB 发电厂 燃煤锅炉
在线阅读 下载PDF
神威超级计算机运行时故障定位方法
16
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 众核处理器
在线阅读 下载PDF
用于超大Infiniband网络的负载均衡多播路由 被引量:5
17
作者 陈淑平 周慧霖 +1 位作者 何王全 漆锋滨 《计算机工程与应用》 CSCD 北大核心 2022年第5期138-147,共10页
高性能计算中,硬件支持的多播操作对应用程序性能具有至关重要的影响。Infiniband网络中现有的两类多播路由算法中,MINIHOP-MC未考虑路由均衡性问题,导致链路edge forwarding index(EFI)指数很大,严重影响多播消息性能;SSSP-MC虽然部分... 高性能计算中,硬件支持的多播操作对应用程序性能具有至关重要的影响。Infiniband网络中现有的两类多播路由算法中,MINIHOP-MC未考虑路由均衡性问题,导致链路edge forwarding index(EFI)指数很大,严重影响多播消息性能;SSSP-MC虽然部分考虑了路由均衡性问题,但其运行时间很长,不能满足超大规模互连网络的需求。提出一种负载均衡的快速多播路由算法FULB-MC,可用于存在大量多播组的超大规模互连网络环境。该算法采用自底向上的多播树构建方法,并综合利用两种负载均衡策略根据局部负载信息进行多播路由选择。还提出了新的加入/离开多播组机制,避免频繁计算多播路由问题。在各种拓扑结构、各种通信模式下对FULB-MC进行了大量测试。结果表明,在运行时间方面,FULB-MC显著低于SSSP-MC;在链路EFI指数方面,FULB-MC明显优于MINIHOP-MC,而与SSSP-MC基本相当。 展开更多
关键词 多播路由 负载均衡 超大规模互连网络 INFINIBAND
在线阅读 下载PDF
异构多核系统中编译器指导的I/O代理技术 被引量:1
18
作者 王珊珊 魏迪 +1 位作者 文延华 何王全 《计算机工程》 CAS CSCD 北大核心 2011年第21期282-284,共3页
在异构多核系统中,精简设计的从处理器核无法运行操作系统,且不支持终端打印和读写文件等常用I/O操作。为此,提出编译器指导、主处理器代理执行的I/O操作技术,采用信息交互、中断处理等方法,实现聚合代理并优化从处理器代码中的I/O操作... 在异构多核系统中,精简设计的从处理器核无法运行操作系统,且不支持终端打印和读写文件等常用I/O操作。为此,提出编译器指导、主处理器代理执行的I/O操作技术,采用信息交互、中断处理等方法,实现聚合代理并优化从处理器代码中的I/O操作功能。实验证明,编译器指导的I/O代理性能比系统级I/O代理高5倍以上。 展开更多
关键词 异构多核系统 I/O代理 聚合优化 编译器指导 主处理器 从处理器
在线阅读 下载PDF
一种基于深度学习的性能分析框架设计与实现 被引量:5
19
作者 冯赟龙 刘勇 何王全 《计算机工程与科学》 CSCD 北大核心 2018年第6期984-991,共8页
高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带... 高性能计算系统的体系结构日益复杂和现有性能分析工具的智能程度不足,导致高性能计算应用的程序性能分析和优化的成本代价日益高昂。所幸,人工智能领域目前取得了重要进展,其中深度学习技术发挥了重要作用,它给性能分析工具的智能化带来了契机。提出一种基于深度学习的程序性能智能分析框架,其核心思想是将程序的性能分析问题抽象成可用机器学习技术描述的分类问题,使用处理器支持的PMU采集分类所需的性能数据并标准化,使用簇评估技术结合簇的实际含义确定性能问题类别,通过稀疏编码自动学习性能数据特征并构建性能问题分类模型。在神威太湖之光超级计算机上实现了程序性能分析框架原型。实验结果表明,该性能分析方法能够直观地指导程序员快速把握当前应用最为突出的性能瓶颈问题,提高应用优化的效率,降低用户调优代码的成本。 展开更多
关键词 性能分析 深度学习 神威太湖之光
在线阅读 下载PDF
胖树拓扑中高效实用的定制多播路由算法 被引量:1
20
作者 陈淑平 李祎 +1 位作者 何王全 漆锋滨 《计算机研究与发展》 EI CSCD 北大核心 2022年第12期2689-2707,共19页
在高性能计算领域,多播路由算法对硬件集合操作的性能具有至关重要的影响.随着系统规模的不断扩大,多播组的个数急剧增加,可能会超过硬件支持的多播表条目数,而现有的多播路由算法要么没有给出解决方案,要么存在时间开销大、多播路由经... 在高性能计算领域,多播路由算法对硬件集合操作的性能具有至关重要的影响.随着系统规模的不断扩大,多播组的个数急剧增加,可能会超过硬件支持的多播表条目数,而现有的多播路由算法要么没有给出解决方案,要么存在时间开销大、多播路由经常变化等问题.为此,首先对胖树中的无冲突多播生成树数量进行了量化研究,并以此为基础提出了一种适用于胖树的高效实用的定制多播路由算法(customized multicast routing for limited multicast forwarding table size,C-MR4LMS).C-MR4LMS在构建多播树时,根据多播组的MGID(multicast global identification)静态地将多播组映射到1棵生成树中,从而快速完成多播树的构建;而在合并多播树时,仅需合并使用同一生成树的多播组,且不会改变被合并多播组的路由.然后提出了2种减少多播树冲突的方法:一是分层的MGID分配策略,以避免出现同一终端节点使用同一颜色加入多个多播组的情况;二是相互无干扰的作业节点分配策略,保证2个作业的多播组互不干扰.最后,在ibsim模拟器及神威E级原型机上对C-MR4LMS进行了测试,该多播路由算法计算多播路由的时间比现有的多播路由算法有了显著下降,最大下降了94%. 展开更多
关键词 多播路由算法 胖树拓扑 有限多播表条目数 集合操作 高性能计算
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部