期刊文献+
共找到229篇文章
< 1 2 12 >
每页显示 20 50 100
长向量处理器高效RNN推理方法 被引量:1
1
作者 苏华友 陈抗抗 杨乾明 《国防科技大学学报》 EI CAS CSCD 北大核心 2024年第1期121-130,共10页
模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方... 模型深度的不断增加和处理序列长度的不一致对循环神经网络在不同处理器上的性能优化提出巨大挑战。针对自主研制的长向量处理器FT-M7032,实现了一个高效的循环神经网络加速引擎。该引擎采用行优先矩阵向量乘算法和数据感知的多核并行方式,提高矩阵向量乘的计算效率;采用两级内核融合优化方法降低临时数据传输的开销;采用手写汇编优化多种算子,进一步挖掘长向量处理器的性能潜力。实验表明,长向量处理器循环神经网络推理引擎可获得较高性能,相较于多核ARM CPU以及Intel Golden CPU,类循环神经网络模型长短记忆网络可获得最高62.68倍和3.12倍的性能加速。 展开更多
关键词 多核DSP 长向量处理器 循环神经网络 并行优化
在线阅读 下载PDF
MVSim:面向VLIW多核向量处理器的快速、可扩展和精确的体系结构模拟器
2
作者 刘仲 李程 +3 位作者 田希 刘胜 邓让钰 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第2期191-199,共9页
设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟... 设计了一个面向VLIW多核向量处理器的快速、可扩展、精确的体系结构模拟器MVSim。设计了可扩展的VLIW多核向量处理器模型、多级存储体系结构模型和多核性能模型;实现了指令集架构的节拍精准模拟,Cache、DMA和多核同步部件的高效功能模拟,采用多线程技术实现了多核处理器的高效和可扩展模拟。实验结果表明,MVSim能够准确模拟多核处理器的目标程序执行,模拟结果完全正确,具有良好的可扩展性。MVSim的平均模拟速度分别是RTL模拟和CCS的227倍和5倍,平均性能误差约为2.9%。 展开更多
关键词 体系结构模拟器 VLIW 多核向量处理器模型 性能模型 节拍精准模拟器
在线阅读 下载PDF
NM-SpMM:面向国产异构向量处理器的半结构化稀疏矩阵乘算法
3
作者 姜晶菲 何源宏 +2 位作者 许金伟 许诗瑶 钱希福 《计算机工程与科学》 CSCD 北大核心 2024年第7期1141-1150,共10页
深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产... 深度神经网络在自然语言处理、计算机视觉等领域取得了优异的成果,由于智能应用处理数据规模的增长和大模型的快速发展,对深度神经网络的推理性能要求越来越高,N∶M半结构化稀疏化技术成为平衡算力需求和应用效果的热点技术之一。国产异构向量处理器FT-M7032为智能模型处理中的数据并行和指令并行开发提供了较大空间。针对N∶M半结构化稀疏模型计算稀疏模式多样性,提出了一种面向FT-M7032的可灵活配置的稀疏矩阵乘算法NM-SpMM。NM-SpMM设计了一种高效的压缩偏移地址稀疏编码格式COA,避免了半结构化参数配置对稀疏数据访存计算的影响。基于COA编码,NM-SpMM对不同维度稀疏矩阵计算进行了细粒度优化。在FT-M7032单核上的实验结果表明,相较于稠密矩阵乘,NM-SpMM能获得1.73~21.00倍的加速,相较于采用CuSPARSE稀疏计算库的NVIDIA V100 GPU,能获得0.04~1.04倍的加速。 展开更多
关键词 深度神经网络 图形处理器 向量处理器 稀疏矩阵乘 流水线
在线阅读 下载PDF
基于无裁剪图形流水线的三维图形处理器 被引量:1
4
作者 赵皓宇 王重熙 +1 位作者 宋鹏皓 章隆兵 《高技术通讯》 CAS 北大核心 2024年第7期681-691,共11页
传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采... 传统的三维图形处理器通过裁剪操作获取三角形的可见区域。然而,裁剪操作的延迟长且硬件开销高,大量的裁剪操作会降低图形处理器的性能。本文设计了一款基于OpenGL ES 2.0标准的三维图形处理器芯片,采用了统一渲染架构。该图形处理器采用高效的无裁剪图形流水线结构,消除了裁剪所带来的硬件开销和性能损耗。此外,本文为该图形处理器设计了一个符合IEEE-754标准的三维向量内积(DP3)计算单元,用于固定功能流水线,以提高图形处理器的性能,并消除图形渲染过程中浮点乘加操作的误差,增强了图形处理器的图形渲染鲁棒性。该三维图形处理器每秒能够处理500 M个顶点和8 G个纹素,功耗为1000 mW,采用了28 nm工艺,面积为7.92 mm^(2)。实现结果表明,与之前的工作相比,本文设计的图形处理器的性能-功耗比提高了27.8%。 展开更多
关键词 三维图形处理器 图形流水线 裁剪 向量内积
在线阅读 下载PDF
基于向量表的RISC-V处理器普通中断与NMI优化设计 被引量:1
5
作者 高嘉轩 刘鸿瑾 +2 位作者 施博 年嘉伟 高鑫 《微电子学与计算机》 2024年第4期112-122,共11页
针对有实时性需求的精简指令集计算机(Reduced Instruction Set Computer,RISC)-V处理器中断响应延迟过长的问题,本文改进了中断响应中中断服务程序跳转地址计算的方式,扩展了不可屏蔽中断(Non-Maskable Interrupt,NMI)响应时的控制寄存... 针对有实时性需求的精简指令集计算机(Reduced Instruction Set Computer,RISC)-V处理器中断响应延迟过长的问题,本文改进了中断响应中中断服务程序跳转地址计算的方式,扩展了不可屏蔽中断(Non-Maskable Interrupt,NMI)响应时的控制寄存器,提出了硬件矢量中断以及NMI相关控制寄存器扩展。硬件矢量中断提高了中断的响应速度,减少了中断响应的延迟。NMI扩展控制寄存器减少了NMI的响应延迟,减少了软件需要进行的保存现场操作。利用VCS仿真验证了中断优化的正确性以及性能。仿真结果表明,硬件矢量中断响应时间缩短了84.4%,响应速度提高为原本的6倍,NMI扩展控制寄存器减少了31个时钟周期的响应时间以及32个时钟周期的返回时间。 展开更多
关键词 RISC-V 处理器 中断优化 向量表 控制寄存器 NMI
在线阅读 下载PDF
基于DSP高速信号处理器的空间电压矢量PWM技术的研究与实现 被引量:21
6
作者 王晶晶 徐国卿 +2 位作者 徐铁柱 程曙 王麾 《电力系统及其自动化学报》 CSCD 2002年第6期27-31,共5页
本文详述了空间电压矢量 PWM的原理 ,并对每一扇区矢量作用时间进行推导 ,最后在 TI公司生产的TMS3 2 0 F2 40 DSP高速信号处理器上进行了实现 。
关键词 电力电子逆变技术 正弦脉宽调制 DSP 高速信号处理器 空间电压矢量 PWM技术
在线阅读 下载PDF
面向多核向量处理器的矩阵乘法向量化方法 被引量:9
7
作者 刘仲 田希 《计算机学报》 EI CSCD 北大核心 2018年第10期2251-2264,共14页
稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值... 稠密矩阵乘法是大规模科学计算中许多算法的核心计算之一,文中提出一种高效的面向多核向量处理器的矩阵乘法向量化方法.提出一种按行计算的矩阵乘法向量化方法,该向量化方法的基本思想是每次同时计算C矩阵的一行元素,C矩阵第i行元素的值由k次向量乘累加完成,每次计算都是先将A矩阵第i行的第j个元素扩展为值相同的向量,再与B矩阵的第j行向量进行乘累加计算,每一次的向量乘累加计算是在各个VPE上并行进行,计算的源数据和结果数据均保存在VPE的本地寄存器上,每个计算结果涉及的乘累加计算均在同一个VPE上完成,并且A、B、C三个矩阵的数据均是按行顺序读取,访存效率高,在k循环结束时,同时完成C矩阵第i行元素值的计算.该方法能充分开发向量处理器的标量、向量协同数据加载能力,有效减少对DDR的存储带宽需求,能够避免低效的对乘数矩阵列向量数据的访问和各个VPE间的浮点归约求和计算,取得最优的内核计算性能;将处理器的一级数据缓存和阵列存储配置为SRAM访问模式,能够避免由于Cache数据不命中而导致的存储访问延迟,提高核心计算访问一级数据缓存和阵列存储的效率,采用组播DMA传输矩阵数据,能够显著提高从DDR读取矩阵数据的效率;提出依据向量处理单元VPE数量、VPE的FMAC运算单元数量、向量存储器的容量和矩阵元素的数据类型等向量处理器体系结构特点设计最优的核心子块矩阵分块参数设计方法,能够充分开发向量处理器的多核间数据并行、核内的多VPE间的向量SIMD并行、VPE内的多个FMAC单元并行、VPE内的标、向量指令级并行等多级并行性,并根据FMAC指令延迟槽进行完全循环展开,让内核始终以峰值速度运行;提出基于两级DMA双缓冲数据搬移策略,优化和平滑多级存储结构间的数据传输,使得DMA的数据搬移时间完全重叠于内核的计算时间中,让整个矩阵计算以接近内核计算的速度运行,实现最优的计算性能和效率.在MATRIX2上的实验结果表明,提出的双精度矩阵乘法的性能达到1106.88GFLOPS,效率为96.08%,核心计算的效率达到99.39%. 展开更多
关键词 多核向量处理器 高性能计算 矩阵乘法 分块矩阵 向量化
在线阅读 下载PDF
支持原位计算的高效三角矩阵乘法向量化方法 被引量:3
8
作者 刘仲 田希 陈磊 《国防科技大学学报》 EI CAS CSCD 北大核心 2014年第6期7-11,47,共6页
向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,... 向量化算法映射是向量处理器的难点问题。提出一种高效的支持原位计算的三角矩阵乘法向量化方法:将L1D配置为SRAM模式,用双缓冲的乒乓方式平滑多级存储结构的数据传输,使得内核的计算与DMA数据搬移完全重叠,让内核始终以峰值速度运行,从而取得最佳的计算效率;将不规则的三角矩阵乘法计算均衡分布到各个向量处理单元,充分开发向量处理器的多级并行性;将结果矩阵保存在乘数矩阵中,实现原位计算,节省了存储空间。实验结果表明,提出的向量化方法使三角矩阵乘法性能达到1053.7GFLOPS,效率为91.47%。 展开更多
关键词 三角矩阵乘法 原位计算 向量化 向量处理器
在线阅读 下载PDF
使用融合乘加加速快速傅里叶变换计算的向量化方法 被引量:3
9
作者 刘仲 陈海燕 向宏卫 《国防科技大学学报》 EI CAS CSCD 北大核心 2015年第2期72-78,共7页
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作... 融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。 展开更多
关键词 快速傅里叶变换 融合乘加 向量化 向量处理器
在线阅读 下载PDF
并行计算机与并行算法述评 被引量:5
10
作者 赵晖 赵仕波 张志华 《成都理工大学学报(自然科学版)》 CAS CSCD 1996年第S1期117-123,共7页
并行计算是大规模科学工程计算和数据处理的一个重要工具和必然趋势,本文从并行计算机系统和并行算法两个方面论述了并行处理的基本原理和方法。
关键词 并行处理 向量机 并行处理机 并行算法
在线阅读 下载PDF
一种在线时间序列预测的核自适应滤波器向量处理器 被引量:2
11
作者 庞业勇 王少军 +1 位作者 彭宇 彭喜元 《电子与信息学报》 EI CSCD 北大核心 2016年第1期53-62,共10页
针对信息物理融合系统中的在线时间序列预测问题,该文选择计算复杂度低且具有自适应特点的核自适应滤波器(Kernel Adaptive Filter,KAF)方法与FPGA计算系统相结合,提出一种基于FPGA的KAF向量处理器解决思路。通过多路并行、多级流水线... 针对信息物理融合系统中的在线时间序列预测问题,该文选择计算复杂度低且具有自适应特点的核自适应滤波器(Kernel Adaptive Filter,KAF)方法与FPGA计算系统相结合,提出一种基于FPGA的KAF向量处理器解决思路。通过多路并行、多级流水线技术提高了处理器的计算速度,降低了功耗和计算延迟,并采用微码编程提高了设计的通用性和可扩展性。该文基于该向量处理器实现了经典的KAF方法,实验表明,在满足计算精度要求的前提下,该向量处理器与CPU相比,最高可获得22倍计算速度提升,功耗降为1/139,计算延迟降为1/26。 展开更多
关键词 核自适应滤波器 现场可编程逻辑门阵列 向量处理器 微码
在线阅读 下载PDF
无刷直流电动机直接驱动系统动态特性分析 被引量:8
12
作者 杨贵杰 孙力 +2 位作者 孙立志 陆永平 高苏华 《电机与控制学报》 EI CSCD 2000年第1期1-5,9,共6页
在推导了转子表面安装永磁体无刷直流电动机的数学模型的基础上,介绍了一种以集成数字信号处理器 ADMC 331为核心全数字矢量控制无刷直流电动机直接驱动系统。着重分析了电流参考信号超前角(滞后角)、系统参数和驱动方式对无... 在推导了转子表面安装永磁体无刷直流电动机的数学模型的基础上,介绍了一种以集成数字信号处理器 ADMC 331为核心全数字矢量控制无刷直流电动机直接驱动系统。着重分析了电流参考信号超前角(滞后角)、系统参数和驱动方式对无刷直流电动机系统动态性能的影响。仿真及试验结果证明超前(或滞后)角的存在都会使系统的动态性能变差,无刷直流电动机系统处于磁场定向控制的情况下,电机的输出转矩最大,系统的动态性能最好;增大电流比例调节器增益和功率逆变驱动电路放大倍数可以使系统获得更好的动态性能;采用正弦波加三次、五次谐波的复合驱动方式时,系统的动态性能得到提高。 展开更多
关键词 无刷直流电动机 动态特性 驱动系统 电机
在线阅读 下载PDF
基于SVPWM的电机变频调速系统的研究与实现 被引量:14
13
作者 徐小品 杨家强 黄进 《机电工程》 CAS 2004年第1期34-38,共5页
在分析电压空间矢量调制的原理基础上 ,给出了一种基于DSP的数字化算法 ,并设计了以DSP为控制核心的变频调速系统的硬件和软件。
关键词 交流电机 变频调速系统 SVPWM 数字化算法 DSP 逆变器 电压空间矢量脉宽调制
在线阅读 下载PDF
应用Petri网模型解决向量处理器流水线冲突 被引量:1
14
作者 郭禾 李文甲 +2 位作者 刘晓飞 邱铁 李强 《系统仿真学报》 CAS CSCD 北大核心 2008年第S2期144-147,共4页
针对自行设计的32位向量处理器流水线中的3种冲突:结构相关、控制相关和数据相关,建立了时延Petri网模型。该模型给出计算流水线所需停顿周期数的具体算法,根据所建模型中使用权的状态得出数据前递需要具备的条件。应用该算法计算流水... 针对自行设计的32位向量处理器流水线中的3种冲突:结构相关、控制相关和数据相关,建立了时延Petri网模型。该模型给出计算流水线所需停顿周期数的具体算法,根据所建模型中使用权的状态得出数据前递需要具备的条件。应用该算法计算流水线所需停顿周期数来消解冲突,并通过对向量处理器指令仿真时序图的分析验证了结果的正确性。 展开更多
关键词 向量处理器 PETRI网 流水线冲突 指令时序仿真
在线阅读 下载PDF
基于TMS320F28335的SVPWM实现方法 被引量:15
15
作者 任先文 王坤 +1 位作者 张俊丰 余志飞 《电力电子技术》 CSCD 北大核心 2010年第7期76-78,共3页
在空间矢量脉宽调制(Space Vector Pulse Width Modulation,简称SVPWM)基本原理的基础上,详细介绍了用数字信号控制器TMS320LF28335生成SVPWM波的控制方法。通过软硬件结合,在DSP调速平台上进行调试和实验验证,并给出波形。实验证明,利... 在空间矢量脉宽调制(Space Vector Pulse Width Modulation,简称SVPWM)基本原理的基础上,详细介绍了用数字信号控制器TMS320LF28335生成SVPWM波的控制方法。通过软硬件结合,在DSP调速平台上进行调试和实验验证,并给出波形。实验证明,利用TMS320LF28335实现SVPWM波据具有控制算法简单,速度快,实现方便等优点,能更好地满足功率器件对驱动信号的不同要求。 展开更多
关键词 脉宽调制 数字信号控制器 空间矢量
在线阅读 下载PDF
基于GCC实现飞腾处理器向量处理单元的编译器后端 被引量:3
16
作者 李春江 杜云飞 +2 位作者 倪晓强 王永文 杨灿群 《计算机科学》 CSCD 北大核心 2013年第12期19-22,共4页
编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌... 编译器后端是针对特定目标机器的编译器实现,不同的指令集体系结构需要实现不同的编译器后端。面向飞腾处理器中向量处理单元(FT-VPU)的体系结构和指令集,基于GCC编译器实现了编译器后端,使GCC能够正确编译面向FT-VPU的SIMD指令的内嵌函数。从四路双精度SIMD指令的机器描述出发,总结了在GCC后端所做的实现工作。其对基于GCC编译器实现面向特定目标机器的编译器后端有较大的参考价值。 展开更多
关键词 飞腾处理器 向量处理单元 GCC 编译器后端
在线阅读 下载PDF
基于DSP的SVPWM的研究 被引量:13
17
作者 赵镜红 张俊洪 杨涛 《电机与控制学报》 EI CSCD 北大核心 2002年第2期108-110,共3页
对空间矢量脉宽调制(SVPWM)的理论进行了较详细的讨论。利用DSP电机控制器TMS320F240分别用硬件和软件方式实现了SVPWM,分析了两种方法的优缺点,并给出了相应的实验结果,该方法速度快,精度高。
关键词 数字信号处理器 空间矢量脉宽调制 逆变器 DSP SVPWM 电机控制
在线阅读 下载PDF
捷联惯导系统算法比较研究 被引量:12
18
作者 雷鸣 蔡体菁 李勇建 《中国惯性技术学报》 EI CSCD 2002年第1期20-24,共5页
运用四子样圆锥补偿现代捷联惯导系统姿态算法,针对船舶的摇摆运动在数字信号处理芯片(DSPs)上进行了仿真,并与三子样圆锥补偿算法、三子样等效转动矢量法和单子样毕卡逼近法的仿真结果进行了比较。结果表明:四子样圆锥补偿能更有效地... 运用四子样圆锥补偿现代捷联惯导系统姿态算法,针对船舶的摇摆运动在数字信号处理芯片(DSPs)上进行了仿真,并与三子样圆锥补偿算法、三子样等效转动矢量法和单子样毕卡逼近法的仿真结果进行了比较。结果表明:四子样圆锥补偿能更有效地抑制不可交换误差,提高姿态精度,且整个导航算法在TMS320C6211 EVM仿真器上运行,所花时间为5.3 毫秒。 展开更多
关键词 捷联惯导系统姿态算法 圆锥补偿 等效转动矢量 数字信号处理 仿真
在线阅读 下载PDF
基于DSP的SVPWM快速算法研究 被引量:19
19
作者 吴凤江 高晗璎 +1 位作者 孙力 王有琨 《电气传动》 北大核心 2006年第9期44-46,共3页
提出一种易于与矢量控制算法接口的SVPWM快速算法。推导了各空间矢量作用时间与αβ坐标系下电压分量的线性矩阵关系表达式,无需在线计算三角函数,只需简单的四则运算即可实现SVPWM。实验结果证明了该算法的正确性和有效性。
关键词 空间矢量脉宽调制(SVPWM) 快速算法 数字信号处理器(DSP) 矢量控制
在线阅读 下载PDF
银河TS-1向量处理及其在量子计算中的应用 被引量:1
20
作者 宋辉 陆洪毅 +2 位作者 鲁建壮 戴葵 王志英 《电子学报》 EI CAS CSCD 北大核心 2002年第12期1828-1831,共4页
量子计算是近年来新出现的计算技术,具有非常好的发展前景,目前量子计算的研究大多通过在经典计算机上模拟实现.向量运算是量子计算模拟的基础,增强向量运算能力,可以提高量子计算模拟的性能和效率.本文以银河TS-1高性能嵌入式微处理器... 量子计算是近年来新出现的计算技术,具有非常好的发展前景,目前量子计算的研究大多通过在经典计算机上模拟实现.向量运算是量子计算模拟的基础,增强向量运算能力,可以提高量子计算模拟的性能和效率.本文以银河TS-1高性能嵌入式微处理器的中的向量处理技术为基础,提出了在向量微处理器上实现量子计算的基本方法,并对其进行了性能模拟,分析了微处理器向量部件设计对量子计算模拟的影响以及改进方法. 展开更多
关键词 银河TS-1 量子计算 微处理器 向量处理器 计算机
在线阅读 下载PDF
上一页 1 2 12 下一页 到第
使用帮助 返回顶部