期刊文献+
共找到15篇文章
< 1 >
每页显示 20 50 100
基于FPGA的高精度科学计算加速器研究 被引量:10
1
作者 雷元武 窦勇 郭松 《计算机学报》 EI CSCD 北大核心 2012年第1期112-122,共11页
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基... 探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗. 展开更多
关键词 四精度浮点算术 LU分解 MGS-QR分解 FPGA 硬件加速器 E量级计算
在线阅读 下载PDF
DSP芯片中的高能效FFT加速器 被引量:12
2
作者 雷元武 陈小文 彭元喜 《计算机研究与发展》 EI CSCD 北大核心 2016年第7期1438-1446,共9页
快速傅里叶变换(fast Fourier transform,FFT)是数字信号处理(digital signal processing,DSP)领域中最耗时的核心算法,该算法的计算性能和计算效率将影响整个应用的执行效率.因此,在DSP芯片上设计实现了一个基于矩阵转置操作的高能效... 快速傅里叶变换(fast Fourier transform,FFT)是数字信号处理(digital signal processing,DSP)领域中最耗时的核心算法,该算法的计算性能和计算效率将影响整个应用的执行效率.因此,在DSP芯片上设计实现了一个基于矩阵转置操作的高能效可变长度FFT加速器,采用多种并行策略开发批量小规模FFT算法与大规模Cooley-Tukey FFT算法中指令级和任务级并行.设计"乒乓"多体数据存储器,重叠数据搬移和FFT计算之间的开销,提高FFT加速器计算效率.并基于此存储器,提出基于基本块的快速矩阵转置算法,从而避免对数据矩阵的列访问;提出混合旋转因子产生策略,结合查表和基于CORDIC算法在线计算方式,最大限度降低旋转因子产生的硬件开销.实验结果表明:FFT加速器原型的峰值能效为146GFLOPs/W,相比Intel Xeon CPU上的多线程FFTW实现,取得2个数量级的能效提升. 展开更多
关键词 快速傅里叶变换 加速器 高能效 矩阵转置 数字信号处理
在线阅读 下载PDF
并行CORDIC算法的研究及FPGA实现 被引量:6
3
作者 雷元武 周杰 +1 位作者 葛颖增 窦勇 《计算机工程与科学》 CSCD 2008年第8期75-78,共4页
本文讨论旋转模式下CORDIC算法的符号预测和迭代计算问题,采用并行计算方法来加速CORDIC算法。文中提出分段符号预测和增加校正迭代的符号预测机制,使用分段迭代展开和三输入加法树来完成CORDIC算法的迭代计算,有效地减少了计算的级数... 本文讨论旋转模式下CORDIC算法的符号预测和迭代计算问题,采用并行计算方法来加速CORDIC算法。文中提出分段符号预测和增加校正迭代的符号预测机制,使用分段迭代展开和三输入加法树来完成CORDIC算法的迭代计算,有效地减少了计算的级数和硬件开销,提高了计算性能。最后,在Altera的StratixII芯片上实现了并行CORDIC结构。 展开更多
关键词 CORDIC 符号预测 FPGA
在线阅读 下载PDF
基于高精度乘累加的LU分解加速器的设计 被引量:2
4
作者 雷元武 窦勇 +2 位作者 郭松 李鑫 国庆 《计算机工程与科学》 CSCD 北大核心 2009年第11期33-36,共4页
本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验... 本文首先分析LU分解中舍入误差的积累过程,建立精度损失与矩阵规模的关系模型来预测大规模LU分解的精度;然后,根据定点加法的简单、快速、无精度损失的特点,设计高精度乘累加器(HPMAcc),并基于此实现一个细粒度并行LU分解加速器。实验结果表明,和高精度软件库QD或MPFR相比,4PE结构的LU分解加速器能够取得100倍的加速比,同时取得90多位的计算精度。 展开更多
关键词 舍入误差 LU分解 高精度乘累加
在线阅读 下载PDF
定制VLIW结构实现四精度浮点基本函数 被引量:1
5
作者 雷元武 窦勇 +1 位作者 倪时策 周杰 《电子学报》 EI CAS CSCD 北大核心 2012年第9期1715-1722,共8页
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算... 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率. 展开更多
关键词 四精度浮点算术 超长指令字 基本函数 CORDIC算法
在线阅读 下载PDF
一种自主设计的面向E级高性能计算的异构融合加速器 被引量:12
6
作者 刘胜 卢凯 +9 位作者 郭阳 刘仲 陈海燕 雷元武 孙海燕 杨乾明 陈小文 陈胜刚 刘必慰 鲁建壮 《计算机研究与发展》 EI CSCD 北大核心 2021年第6期1234-1237,共4页
高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达... 高性能计算(high performance computing,HPC)是推动科学技术发展的基础性领域之一,当前,作为超级计算机系统“下一个明珠”的E级高性能计算时代已经来临.面向E级高性能计算的加速器领域成为了全球高端芯片的竞技场.国际上,AMD、英伟达和英特尔公司已经占据这一领域多年.作为国内最早开始自主处理器设计的优势单位之一,国防科技大学一直以来都是高性能加速器领域强有力的竞争者.主要对国防科技大学自主设计的面向E级高性能计算的加速器芯片进行介绍,该芯片采用了CPU+GPDSP的异构融合架构,具备高性能、高效能和高可编程性的特点,有望成为新一代E级超算系统的核心计算芯片. 展开更多
关键词 高性能计算 加速器 异构融合体系结构 自主设计 高效能
在线阅读 下载PDF
海洋环流数值模式POP的GPU并行优化 被引量:3
7
作者 郭松 窦勇 雷元武 《计算机工程与科学》 CSCD 北大核心 2012年第8期147-153,共7页
POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU... POP是一种全球海洋环流模式,广泛应用于海洋研究和气候预测。但是,随着模式分辨率的提高,POP对计算能力的需求呈几何级数增长,从而限制了POP模式的发展。本文在分析POP原理和特征的基础上,采用CUDA Fortran编程模型将POP模式移植到GPU平台上,并采用了网格块间并行和网格块内并行相结合的多层次并行实现全局存储器合并访问,减少局部存储器的使用,利用寄存器提高数据重用度和增大GPU端代码以减少CPU与GPU间的通信等优化策略。实验结果表明,与运行在Intel Xeon X56756核处理器上的串行程序和6进程并行程序相比,GPUPOP可以分别获得8.47倍和1.5倍的加速效果。 展开更多
关键词 CUDA GPU POP模式 GPUPOP CUDA FORTRAN
在线阅读 下载PDF
优化的JPEG2000算术编码器结构 被引量:1
8
作者 李宝峰 窦勇 雷元武 《计算机工程与科学》 CSCD 北大核心 2009年第11期13-16,共4页
各种并行位平面编码算法极大提高了上下文/符号数据对的产生速度,与此同时,算术编码算法的串行本质却严重限制了这些数据对的编码速度。因此,算术编码器(AE)已经成为JPEG2000系统的瓶颈问题。本文分析了现存各种算术编码器结构的缺陷,... 各种并行位平面编码算法极大提高了上下文/符号数据对的产生速度,与此同时,算术编码算法的串行本质却严重限制了这些数据对的编码速度。因此,算术编码器(AE)已经成为JPEG2000系统的瓶颈问题。本文分析了现存各种算术编码器结构的缺陷,并提出了一种优化的单输入三级流水线结构。FPGA实现结果表明,本文结构以最小的硬件代价(1100 ALUTs和365 registers)获得了最优的实际数据吞吐率((133N)/(N+2))。 展开更多
关键词 JPEG2000 算术编码器 流水线结构 FPGA
在线阅读 下载PDF
可选主元LU分解流水线算法设计与FPGA实现
9
作者 牛新 周杰 +1 位作者 窦勇 雷元武 《高技术通讯》 EI CAS CSCD 北大核心 2009年第5期511-518,共8页
提出了一种可以进行列主元选取的细粒度LU分解流水线算法并在现场编程门阵列(FPGA)上得到了实现。该算法可以在进行列主元选取的同时,充分利用数据的重用性,以减少数据读写次数。对其中的关键运算实现了细粒度全流水,提高了分解性能。与... 提出了一种可以进行列主元选取的细粒度LU分解流水线算法并在现场编程门阵列(FPGA)上得到了实现。该算法可以在进行列主元选取的同时,充分利用数据的重用性,以减少数据读写次数。对其中的关键运算实现了细粒度全流水,提高了分解性能。与Celeron(R) 3.07GHz通用处理器主机相比可以得到平均6到7倍的加速比。与其他在FP-GA上实现的LU分解算法相比,该算法在占用相对较少资源和保持高分解效率的前提下提高了计算的精确度和稳定性。 展开更多
关键词 LU 分解 流水线 并行算法 列主元选取 现场编程门阵列(FPGA)
在线阅读 下载PDF
基于Goldschmidt算法的高性能双精度浮点除法器设计 被引量:3
10
作者 何婷婷 彭元喜 雷元武 《计算机应用》 CSCD 北大核心 2015年第7期1854-1857,1887,共5页
针对双精度浮点除法通常运算过程复杂、延时较大这一问题,提出一种基于Goldschmidt算法设计支持IEEE-754标准的高性能双精度浮点除法器方法。首先,分析Goldschmidt算法运算除法的过程以及迭代运算产生的误差;然后,提出了控制误差的方法... 针对双精度浮点除法通常运算过程复杂、延时较大这一问题,提出一种基于Goldschmidt算法设计支持IEEE-754标准的高性能双精度浮点除法器方法。首先,分析Goldschmidt算法运算除法的过程以及迭代运算产生的误差;然后,提出了控制误差的方法;其次,采用了较节约面积的双查找表法确定迭代初值,迭代单元采用并行乘法器结构以提高迭代速度;最后,合理划分流水站,控制迭代过程使浮点除法可以流水执行,从而进一步提高除法器运算速率。实验结果表明,在40 nm工艺下,双精度浮点除法器采用14位迭代初值流水结构,其综合cell面积为84 902.261 8μm2,运行频率可达2.2 GHz;相比采用8位迭代初值流水结构运算速度提高了32.73%,面积增加了5.05%;计算一条双精度浮点除法的延迟为12个时钟周期,流水执行时,单条除法平均延迟为3个时钟周期,与其他处理器中基于SRT算法实现的双精度浮点除法器相比,数据吞吐率提高了3~7倍;与其他处理器中基于Goldschmidt算法实现的双精度浮点除法器相比,数据吞吐率提高了2~3倍。 展开更多
关键词 浮点除法器 Goldschmidt算法 倒数查找表 高性能除法器 数字信号处理
在线阅读 下载PDF
基于FPGA的细粒度并行K-means算法加速器的设计与实现 被引量:2
11
作者 倪时策 窦勇 +1 位作者 雷元武 赵建勋 《计算机工程与科学》 CSCD 北大核心 2009年第A01期64-67,共4页
本文在深入分析K-means算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略,实现了处理单元间的负载平衡,采用数据驱动的流水线隐藏片外存储访问,设计了一种基... 本文在深入分析K-means算法计算特征的基础上,基于FPGA平台提出并实现了一种细粒度的并行浮点K-means算法。设计采用了阵列多PE并行处理的任务划分策略,实现了处理单元间的负载平衡,采用数据驱动的流水线隐藏片外存储访问,设计了一种基于脉动阵列结构的主从多PE并行计算阵列,并在单片FPGA(XC5VLX330)上成功集成了4个PE。实验结果表明,我们提出的K-means算法加速器结构具备良好的可扩展性。通过实验测试,我们的实现方案相对于Pentium 4 2.66 GHz单处理器程序达到了15倍的加速比。 展开更多
关键词 K-MEANS算法 FPGA 硬件加速器 浮点实现
在线阅读 下载PDF
支持多种传输模式的双通路串行RapidIO设计与实现 被引量:2
12
作者 郭欣童 雷元武 郭阳 《计算机工程与科学》 CSCD 北大核心 2019年第2期233-239,共7页
传统的串行RapidIO2.1接口支持3种通道模式(1×、2×、4×)。在2×或1×模式下,4条物理链路只有2条或1条在进行数据传输,其余链路被闲置,造成带宽浪费;另外,一个RapidIO接口只能与一个目的端互连。基于传统的串行Ra... 传统的串行RapidIO2.1接口支持3种通道模式(1×、2×、4×)。在2×或1×模式下,4条物理链路只有2条或1条在进行数据传输,其余链路被闲置,造成带宽浪费;另外,一个RapidIO接口只能与一个目的端互连。基于传统的串行RapidIO2.1接口协议,设计了一种支持双通路传输的串行RapidIO接口,通过PCS层的可配置交叉开关共实现14种传输模式,双通路模式下可同时和两个串行RapidIO接口互连。双通路RapidIO提高了RapidIO系统互连的灵活性和传输带宽。实验结果表明,在1×或2×模式下,双通路传输的传输带宽是传统设计的两倍;4×模式下,双通路RapidIO的有效带宽与传统单通路RapidIO的相同。 展开更多
关键词 串行RAPIDIO 通道模式 双通路 互连灵活性 传输带宽
在线阅读 下载PDF
一种基于SRT-8算法的SIMD浮点除法器的设计与实现
13
作者 邓子椰 陈书明 +1 位作者 彭元喜 雷元武 《计算机工程与科学》 CSCD 北大核心 2014年第5期797-803,共7页
在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT-8除法算法,设计一个SIMD结构的IEEE-754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT-... 在科学计算、数字信号处理、通信和图像处理等应用中,除法运算是常用的基本操作之一。基于SRT-8除法算法,设计一个SIMD结构的IEEE-754标准浮点除法器,在同一硬件平台上能够实现双精度浮点除法和两个并行的单精度浮点除法。通过优化SRT-8迭代除法结构,提出商选择和余数加法的并行处理,并采用商数字存储技术降低迭代除法的计算延时,提高频率。同时,采用复用策略减少硬件资源开销,节省面积。实验表明,在40nm工艺下,本设计综合cell面积为18 601.968 1μm2,运行频率可达2.5GHz,相对传统的SRT-8实现关键延迟减少了23.81%。 展开更多
关键词 SRT-8 浮点除法器 双精度浮点 SIMD单精度浮点
在线阅读 下载PDF
高效众核DSP仿真调试结构的设计与实现
14
作者 潘奇 王慧丽 +1 位作者 雷元武 吴虎成 《计算机与数字工程》 2020年第6期1524-1528,共5页
在众核芯片中,因为核数过多,JTAG串联链路过长,导致在仿真调试时存在效率低下,用户界面卡顿的问题。文章提出一种高效的基于分组共享策略的众核DSP仿真调试结构。该结构采用一种新型的总-分JTAG调试通路,在芯片顶层以菊花链串联的方式... 在众核芯片中,因为核数过多,JTAG串联链路过长,导致在仿真调试时存在效率低下,用户界面卡顿的问题。文章提出一种高效的基于分组共享策略的众核DSP仿真调试结构。该结构采用一种新型的总-分JTAG调试通路,在芯片顶层以菊花链串联的方式设置多个JTAG控制器,单个JTAG控制器则负责多个单核的仿真调试工作。由单个JTAG控制器负责的多个单核为并行关系,不插入JTAG扫描链路。该结构可高效完成芯片内核的流水线控制,资源访问等仿真调试。在X-DSP中,相比所有单核进入JTAG串联链路的设计,X-DSP的JTAG串行链路长度降低94%,并且通过软硬件联合的优化技术,对存储体的大批量读操作所需时间降低为原来的56%。FPGA板上调试结果显示,在进行流水线调试及资源访问时,用户调试界面无明显卡顿。 展开更多
关键词 众核DSP 仿真调试 软硬件联合优化
在线阅读 下载PDF
A Unified Co-Processor Architecture for Matrix Decomposition 被引量:1
15
作者 窦勇 周杰 +3 位作者 邬贵明 姜晶菲 雷元武 倪时策 《Journal of Computer Science & Technology》 SCIE EI CSCD 2010年第4期874-885,共12页
QR and LU decompositions are the most important matrix decomposition algorithms. Many studies work on accelerating these algorithms by FPGA or ASIC in a case by case style. In this paper, we propose a unified framewor... QR and LU decompositions are the most important matrix decomposition algorithms. Many studies work on accelerating these algorithms by FPGA or ASIC in a case by case style. In this paper, we propose a unified framework for the matrix decomposition algorithms, combining three QR decomposition algorithms and LU algorithm with pivoting into a unified linear array structure. The QR and LU decomposition algorithms exhibit the same two-level loop structure and the same data dependency. Utilizing the similarities in loop structure and data dependency of matrix decomposition, we unify a fine-grained algorithm for all four matrix decomposition algorithms. Furthermore, we present a unified co-processor structure with a scalable linear array of processing elements (PEs), in which four types of PEs are same in the structure of memory channels and PE connections, but the only difference exists in the internal structure of data path. Our unified co-processor, which is IEEE 32-bit floating-point precision, is implemented and mapped onto a Xilinx Virtex5 FPGA chip. Experimental results show that our co-processors can achieve speedup of 2.3 to 14.9 factors compared to a Pentium Dual CPU with double SSE threads. 展开更多
关键词 co-processor matrix decomposition fine-grained parallel FPGA
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部