期刊文献+
共找到34篇文章
< 1 2 >
每页显示 20 50 100
定制VLIW结构实现四精度浮点基本函数 被引量:1
1
作者 雷元武 窦勇 +1 位作者 倪时策 周杰 《电子学报》 EI CAS CSCD 北大核心 2012年第9期1715-1722,共8页
本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算... 本文针对科学应用中基本函数种类多、实现复杂、使用频率低的特点,提出一种定制VLIW结构四精度浮点基本函数协处理器(QPC-Processor).该结构通过显示并行技术挖掘基本函数实现算法的并行性,在同一硬件平台上通过元操作的不同组合来计算多种基本函数.同时,本文还提出基本函数元操作序列到定制VLIW指令的映射算法,指导基本函数的设计.最后,在FPGA平台上进行验证.实验结果表明,相对软件实现,单个QPC-Processor能够取得6倍以上的加速比,而且,QFC-Processor在同一硬件平台上实现多种类型的算法,弥补单一算法的不足,获得较高的硬件资源利用率. 展开更多
关键词 四精度浮点算术 超长指令字 基本函数 CORDIC算法
在线阅读 下载PDF
基于双精度与四精度的重力场解算精度分析 被引量:2
2
作者 朱永超 万晓云 周保兴 《大地测量与地球动力学》 CSCD 北大核心 2020年第1期94-97,110,共5页
基于动力学方法比较分析了双精度与四精度模式下重力场模型的解算精度,主要包括缔合勒让德函数计算、数值积分器及重力场反演结果。结果显示,在勒让德函数计算方面,部分角度在双精度模式下计算至1900阶以后会出现溢出问题,而在四精度模... 基于动力学方法比较分析了双精度与四精度模式下重力场模型的解算精度,主要包括缔合勒让德函数计算、数值积分器及重力场反演结果。结果显示,在勒让德函数计算方面,部分角度在双精度模式下计算至1900阶以后会出现溢出问题,而在四精度模式下任何角度都满足精度要求,并且计算结果比双精度模式高8个量级。数值积分器Adams预测校正法积分1 d的位置和速度误差,在四精度模式下比在双精度模式下高4个量级。在精密轨道反演重力场计算方面,动力学方法在双精度及四精度模式下反演结果一致,统计其计算至60阶的累计大地水准面误差为1.29×10^-5 m,这是因为动力学方法的线性误差相对计算误差而言是主要误差;非线性动力学方法在四精度模式下比在双精度模式下高7个量级,其大地水准面误差分别为8.92×10^-15 m和8.16×10^-8 m。 展开更多
关键词 四精度 勒让德函数 数值积分器 动力学积分法
在线阅读 下载PDF
斜入射下四光幕精度靶着靶位置测量原理误差分析 被引量:1
3
作者 李敬 孙忠辉 +2 位作者 倪晋平 段晨曦 崔长青 《兵工学报》 EI CAS CSCD 北大核心 2024年第6期1965-1973,共9页
为研究飞行弹丸斜入射时着靶坐标测量原理误差的分布规律,根据四光幕精度靶几何结构,建立了斜入射下着靶坐标测量原理误差模型,研究有效探测靶面内不同着靶位置与不同入射角下原理误差分布规律;分析工程应用中发射位置确定下,不同散布... 为研究飞行弹丸斜入射时着靶坐标测量原理误差的分布规律,根据四光幕精度靶几何结构,建立了斜入射下着靶坐标测量原理误差模型,研究有效探测靶面内不同着靶位置与不同入射角下原理误差分布规律;分析工程应用中发射位置确定下,不同散布半径与不同射击距离对测量原理误差的影响,给出着靶坐标测量的修正公式,并进行实弹射击试验。试验结果表明:飞行弹丸斜入射时必然存在原理误差,必须修正着靶坐标;射击距离一定时,发射枪散布半径越大,原理误差越大;散布半径确定时,原理误差随射击距离增加而减小;在发射位置确定下,采用修正公式后,四光幕精度靶测量误差小于1 mm。 展开更多
关键词 外弹道测试 光幕精度 着靶坐标 误差修正
在线阅读 下载PDF
四光幕精度靶工程化模型及测量精度分析 被引量:7
4
作者 高芬 曾祥伟 +1 位作者 倪晋平 安莹 《光子学报》 EI CAS CSCD 北大核心 2015年第8期27-33,共7页
针对现有四光幕精度靶理想化结构模型及测量精度分析无法满足其工程化设计及发展需求的问题,构建了通用的四光幕精度靶工程化结构模型,推导了相应的坐标测量及误差传播公式,仿真分析了着靶位置、靶距、幕面夹角、靶面大小、弹丸斜入射... 针对现有四光幕精度靶理想化结构模型及测量精度分析无法满足其工程化设计及发展需求的问题,构建了通用的四光幕精度靶工程化结构模型,推导了相应的坐标测量及误差传播公式,仿真分析了着靶位置、靶距、幕面夹角、靶面大小、弹丸斜入射角度等多参量对系统坐标测量精度的影响,得到了系列坐标测量误差分析数据.最后给出了一实际四光幕精度靶的结构及理论坐标测量误差估计.实弹射击表明,该系统在1m×1m有效靶面内的X、Y坐标测量误差均小于2mm,与理论仿真分析结果接近,验证了所提工程化测量模型的正确性,测量精度分析有效.研究结果可为实用型四光幕精度靶的设计及测量精度评估提供可靠参考. 展开更多
关键词 测量 光幕精度 建模 着靶坐标 精度分析 弹丸 光幕
在线阅读 下载PDF
GCC后端中四路双精度短向量寄存器的实现 被引量:1
5
作者 李春江 杜云飞 +2 位作者 倪晓强 王永文 杨灿群 《计算机科学》 CSCD 北大核心 2012年第9期292-295,306,共5页
设计和实现一个新的产品化的编译器通常需要几年时间。基于已有的编译器进行修改和扩展,是研发面向新体系结构的编译器的主要途径。GNU编译器集合(GCC)支持多种高级语言和多种目标处理器平台、文档及源代码开放等。基于GCC的Sparc后端,... 设计和实现一个新的产品化的编译器通常需要几年时间。基于已有的编译器进行修改和扩展,是研发面向新体系结构的编译器的主要途径。GNU编译器集合(GCC)支持多种高级语言和多种目标处理器平台、文档及源代码开放等。基于GCC的Sparc后端,实现了支持四路双精度SIMD指令的四路双精度短向量寄存器的描述。在此过程中,定义了新的目标机,扩充了一类向量模式,定义了一类新的寄存器约束,实现了四路双精度寄存器的描述,定义了四路双精度SIMD指令的机器描述。对于面向此类SIMD指令的内嵌函数,GCC编译器能够正确使用该类向量寄存器来生成对应的SIMD指令。 展开更多
关键词 GCC后端 路双精度 向量寄存器
在线阅读 下载PDF
一种新型的四阶精度分段三次插值
6
作者 刘志方 王同科 王凤 《天津师范大学学报(自然科学版)》 CAS 2014年第4期6-9,共4页
针对第一边界条件和周期边界条件的插值问题,给出了一种新的导数恢复格式,并用能量估计法证明了导数恢复格式按照离散L2范数具有四阶收敛精度.利用节点值和恢复出的导数值构造了一种新型的四阶精度分段三次插值函数.数值算例验证了理论... 针对第一边界条件和周期边界条件的插值问题,给出了一种新的导数恢复格式,并用能量估计法证明了导数恢复格式按照离散L2范数具有四阶收敛精度.利用节点值和恢复出的导数值构造了一种新型的四阶精度分段三次插值函数.数值算例验证了理论分析的正确性和插值函数的实用性. 展开更多
关键词 三次插值 导数恢复格式 误差估计 精度
在线阅读 下载PDF
四阶精度显式滤波大涡模拟方法研究
7
作者 席光 辛宝玉 《工程热物理学报》 EI CAS CSCD 北大核心 2007年第z1期93-96,共4页
在传统大涡模拟方法的基础上引入显式滤波技术,有效地控制了最小解析尺度区域的各种数值误差。对有限差分格式的守恒特性进行了研究,发展了适用于三维平板通道大涡模拟的四阶精度守恒格式。分别利用二阶和四阶精度的传统与显式滤波大涡... 在传统大涡模拟方法的基础上引入显式滤波技术,有效地控制了最小解析尺度区域的各种数值误差。对有限差分格式的守恒特性进行了研究,发展了适用于三维平板通道大涡模拟的四阶精度守恒格式。分别利用二阶和四阶精度的传统与显式滤波大涡模拟程序模拟平板通道内的湍流流动,将计算结果与DNS数据进行了对比,得到了合理结果。 展开更多
关键词 大涡模拟 显式滤波 精度 守恒特性
在线阅读 下载PDF
一种高性能四倍精度浮点乘加器的设计与实现 被引量:1
8
作者 何军 黄永勤 朱英 《计算机工程》 CAS CSCD 2014年第2期294-299,共6页
高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全... 高精度、高性能浮点运算部件是高性能微处理器设计的重要部分。通过对传统双精度浮点乘加运算算法的研究,结合四倍精度浮点数据格式特点,设计并实现一种高性能的四倍精度浮点乘加器(QPFMA),该乘加器支持多种浮点运算,运算延迟为7拍,全流水结构。采用双路加法器改进算法结构,优化头零预测和规格化移位逻辑,减小运算延迟和硬件开销。通过参数化设计验证方法,实现高效的正确性验证。逻辑综合结果表明,基于65 nm工艺,该QPFMA频率可达1.2 GHz,比现有的QPFMA设计运算延迟减少3拍,频率提高约11.63%。 展开更多
关键词 浮点运算 乘加 精度 精度 参数化
在线阅读 下载PDF
曲线网格下精确四阶精度有限体积紧致方法
9
作者 廖飞 叶正寅 《西北工业大学学报》 EI CAS CSCD 北大核心 2012年第6期836-840,共5页
研究了一种求解可压缩欧拉方程的精确四阶精度有限体积紧致方法。通过引入坐标变换,构造了精确四阶精度的体平均量近似和面平均量近似方法,以解决有限体积方法中的积分近似问题,并在曲线网格上辅助四阶精度Padé型紧致格式对欧拉方... 研究了一种求解可压缩欧拉方程的精确四阶精度有限体积紧致方法。通过引入坐标变换,构造了精确四阶精度的体平均量近似和面平均量近似方法,以解决有限体积方法中的积分近似问题,并在曲线网格上辅助四阶精度Padé型紧致格式对欧拉方程进行空间离散。构造了积分型高精度紧致滤波方法代替人工粘性耗散,使计算过程收敛。通过计算欧拉圆柱绕流和Ringleb流动,验证了方法的正确性和有效性。 展开更多
关键词 计算流体力学 欧拉方程 有限体积法 积分近似 紧致格式 曲线网格 坐标变换 精确精度
在线阅读 下载PDF
基于SIMD部件的四倍精度浮点乘加器设计
10
作者 何军 黄永勤 朱英 《计算机科学》 CSCD 北大核心 2013年第12期15-18,51,共5页
如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减... 如何减少四倍精度浮点运算的硬件开销和延迟是需要解决的重要问题。为减少四倍精度乘加器的硬件开销,基于支持64位×4的双精度浮点SIMD FMA部件,设计并实现了一种新的四倍精度浮点乘加器(QPFMA),来支持4种浮点乘加运算和乘法、加减法、比较运算,运算延迟为7拍。通过将四倍精度113位×113位尾数乘法器分解为4个57位×57位乘法器来共享双精度浮点SIMD FMA部件的53位×53位乘法器,显著减少了实现QPFMA的硬件开销。基于65nm工艺的逻辑综合结果表明,该QPFMA频率可达1.1GHz,面积是常规QPFMA设计的42.71%,仅与一个双精度浮点乘加器相当。与现有的QPFMA设计相比,相当工艺和频率下,其运算延迟减少了3拍,门数减少了65.96%。 展开更多
关键词 浮点 SIMD部件 乘加 精度 精度
在线阅读 下载PDF
基于FPGA的高精度科学计算加速器研究 被引量:10
11
作者 雷元武 窦勇 郭松 《计算机学报》 EI CSCD 北大核心 2012年第1期112-122,共11页
探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基... 探索了FPGA平台加速高精度科学计算应用的能力和灵活性.首先,研究科学计算中最常用的操作——向量内积,提出基于定点操作的精确向量内积算法.以IEEE 754-2008标准的四精度(Quadruple Precision)浮点算术为例,在FPGA平台上设计了一个基于全展开方法的全流水四精度浮点乘累加单元(QPMAC):提出两级存储策略精确存储乘累加和;采用保留进位累加策略减少定点加法器位宽、简化进位处理、优化关键路径;引入累加和划分策略,实现流水吞吐率.最后,在XC5VLX330FPGA芯片上设计一个LU分解和MGS-QR分解加速器原型来验证QPMAC的性能.实验结果表明,与运行在Intel四核处理器上的基于OpenMP的并行算法相比,集成4个QP-MAC单元的加速器能获得42倍到97倍的性能提升,并且能获得更高结果精度和更低能量消耗. 展开更多
关键词 四精度浮点算术 LU分解 MGS-QR分解 FPGA 硬件加速器 E量级计算
在线阅读 下载PDF
一种低成本128位高精度浮点SIMD乘加单元的设计与实现
12
作者 黄立波 王志英 +1 位作者 沈立 马胜 《计算机工程与科学》 CSCD 北大核心 2012年第9期71-76,共6页
SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提... SIMD单元集成已经成为提高处理器性能的重要途径之一。虽然定点SIMD单元的硬件复用低成本设计技术已经较为成熟,但是,大部分浮点SIMD单元的硬件设计还停留在简单的硬件复制方法上。本文针对日益增长的128位高精度浮点操作的计算需求,提出了其相应的SIMD低成本硬件结构方案。综合实验结果表明,所提出的SIMD浮点乘加单元比传统128位高精度浮点乘加单元具有更加优化的性能与面积参数。 展开更多
关键词 浮点乘加 单指令多数据 四精度
在线阅读 下载PDF
基于高精度数值解法的畦灌一维土壤水动力学模型 被引量:1
13
作者 董勤各 许迪 +1 位作者 章少辉 白美健 《灌溉排水学报》 CSCD 北大核心 2013年第5期1-6,共6页
采用高精度的有限差分法和有限体积法对一维Richards方程进行时空离散,构建基于四阶时空离散精度数值解法的畦灌一维土壤水动力学模型,并进行验证。结果表明,基于四阶时空离散精度数值解法的畦灌一维土壤水动力学模型具有更佳的模拟精... 采用高精度的有限差分法和有限体积法对一维Richards方程进行时空离散,构建基于四阶时空离散精度数值解法的畦灌一维土壤水动力学模型,并进行验证。结果表明,基于四阶时空离散精度数值解法的畦灌一维土壤水动力学模型具有更佳的模拟精度和良好的质量守恒性,收敛速率比对比数值解法提高了1倍,计算效率提高了0.6倍。 展开更多
关键词 土壤水 精度 有限体积法 时空离散 收敛速率
在线阅读 下载PDF
求解温盐双扩散系统的一种高精度方法 被引量:1
14
作者 詹杰民 李毓湘 郑珺婷 《计算力学学报》 CAS CSCD 北大核心 2002年第3期353-358,共6页
引入边界拟合坐标系来研究温盐双扩散系统。为了提高求解的精确性 ,对流项采用四阶精度的迎风格式 ,扩散项和涡量方程的浮力项则采用四阶精度的中心差 ,因此本文的方法是高精度的方法。首先针对温度占优( Rρ=0 .32 )和盐度占优 ( Rρ=1... 引入边界拟合坐标系来研究温盐双扩散系统。为了提高求解的精确性 ,对流项采用四阶精度的迎风格式 ,扩散项和涡量方程的浮力项则采用四阶精度的中心差 ,因此本文的方法是高精度的方法。首先针对温度占优( Rρ=0 .32 )和盐度占优 ( Rρ=1 .6 8)的情形进行了验证性计算 ,得到了与前人一致的结果。进一步 ,本文系统给出了不同的盐度通量强度下的流动形态 ,包括对称结构 ,不对称结构 ,反转结构等 ,结果与前人的吻合。 展开更多
关键词 温盐双扩散系统 精度格式 多平衡态 反转结构 有限元法 精度
在线阅读 下载PDF
无人机载多站无源定位系统精度分析 被引量:18
15
作者 杨丽丽 孙晓闻 《中国电子科学研究院学报》 2014年第4期348-352,共5页
无人机载多站无源定位系统构成简单,优点众多,是一种先进的探测侦察系统。对采用到达时间差(TDOA)定位的多站无人机无源定位系统进行了研究,详细推导了时差无源定位原理和定位精度,仿真分析了布站方式、站址误差、测时误差,以及基线长... 无人机载多站无源定位系统构成简单,优点众多,是一种先进的探测侦察系统。对采用到达时间差(TDOA)定位的多站无人机无源定位系统进行了研究,详细推导了时差无源定位原理和定位精度,仿真分析了布站方式、站址误差、测时误差,以及基线长度对定位精度的影响。仿真结果表明Y型和倒Y型布站方式,定位精度比其它布站方式高;菱形布站方式在偏离基线方向(Y轴方向)具有较好的定位精度;主站与辅站的基线距离越长,定位精度越高;站址误差与测时误差越大,定位精度越差。在实际的布站中可以综合考虑以上因素,根据实际需要,采用最佳的布站方式,从而得到比较好的定位精度。 展开更多
关键词 无源定位 精度分析 站时差
在线阅读 下载PDF
Schrdinger方程的高精度加权差分格式
16
作者 王志焕 曾文平 《泉州师范学院学报》 2003年第4期6-8,12,共4页
利用二阶微商的四阶精度紧致差分逼近公式 ,给出解Schr dinger方程的精度为O((1 - 2θ)τ +τ2 +h4 )的一个新的加权差分格式 ,当 1 / 2≤θ≤ 1时格式绝对稳定 .特别地 ,当θ =1 / 2时 ,文章所给出的差分格式可高达四阶精度 ,数值结果... 利用二阶微商的四阶精度紧致差分逼近公式 ,给出解Schr dinger方程的精度为O((1 - 2θ)τ +τ2 +h4 )的一个新的加权差分格式 ,当 1 / 2≤θ≤ 1时格式绝对稳定 .特别地 ,当θ =1 / 2时 ,文章所给出的差分格式可高达四阶精度 ,数值结果与理论分析相一致 . 展开更多
关键词 SCHROEDINGER方程 精度加权差分格式 二阶微商 精度紧致差分逼近公式 绝对稳定
在线阅读 下载PDF
一类二维半线性椭圆边值问题的四阶紧有限差分格式 被引量:3
17
作者 武文佳 《上海电机学院学报》 2013年第1期88-93,共6页
对一类二维半线性椭圆边值问题,建立了适用于各向异性网格的四阶紧有限差分格式。用上、下解的方法讨论了有限差分解的存在唯一性,通过离散L-∞范数估计,证明了方法的收敛性和四阶精度。
关键词 半线性椭圆边值问题 紧有限差分格式 精度
在线阅读 下载PDF
数值求解一维波动方程的四阶紧致差分方法 被引量:5
18
作者 陆静颖 葛永斌 《宁夏大学学报(自然科学版)》 CAS 2020年第1期17-22,共6页
针对一维波动方程提出了一种有限差分方法.首先,采用泰勒级数展开公式和原方程代入的方法推导出了第一个时间层未知函数值的四阶紧致差分格式.然后,用四阶紧致差分公式近似空间导数项,采用中心差分格式截断误差余项修正的方法处理时间... 针对一维波动方程提出了一种有限差分方法.首先,采用泰勒级数展开公式和原方程代入的方法推导出了第一个时间层未知函数值的四阶紧致差分格式.然后,用四阶紧致差分公式近似空间导数项,采用中心差分格式截断误差余项修正的方法处理时间导数项,推导出了第二个时间层以后未知函数的四阶紧致差分格式.该方法时间和空间具有整体四阶精度.利用Fourier方法分析了所提格式的稳定性.由于本文格式在未知时间层仅涉及3个网格点,因此可采用追赶法求解离散化后所得到的线性方程组.最后,用数值算例验证了本文格式的精确性和稳定性. 展开更多
关键词 波动方程 紧致差分格式 精度 有限差分方法 稳定性
在线阅读 下载PDF
面向ARMv8 64位多核处理器的QGEMM设计与实现 被引量:3
19
作者 姜浩 杜琦 +4 位作者 郭敏 全哲 左克 王锋 杨灿群 《计算机学报》 EI CSCD 北大核心 2017年第9期2018-2029,共12页
该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能... 该文在ARMv8 64位多核处理器上基于OpenBLAS首次设计、实现并优化了四精度矩阵乘法(Quadruple precision General Matrix-Matrix Multiplication,QGEMM).由于浮点计算中不可避免地引入舍入误差,双精度矩阵乘法(DGEMM)在某些情况下不能给出令人满意的数值结果,因此需要高精度或多精度算法来实现更精确的计算.Double-double算术是一种较为有效和广泛使用的手段.文中采用double-double数据格式构建结构体存储四精度浮点数据;基于OpenBLAS中的稠密矩阵计算的分块算法,增加四精度数据格式的相关的头文件和源文件,并用汇编代码撰写文中所提出的QGEMM的核心内核;利用无误差变换技术,调整并优化内核中的算法流程,避免规格化操作步骤造成的数据强制依赖关系;通过分析算法的数据依赖关系,设计寄存器的分配和轮转策略,优化指令调度顺序,开发指令级并行性,提高QGEMM的实际性能.根据具体算法使用混合乘加指令(FMA)的程度不同,文中采用了算法理论峰值性能这一概念,其有别于机器理论峰值的概念,能更好地评估文中所提出的QGEMM的实际效率.数值实验表明:文中通过汇编代码实现并优化的QGEMM性能最高达到19.7Gflops,效率为在ARMv864位多核处理器平台上QGEMM算法理论峰值性能的82.1%,在满足数值结果精度要求的同时,其计算速度约是由C语言撰写的未优化的QGEMM和MBLAS中QGEMM的5.8倍,是编译器GCC实现的long double数据格式的QGEMM的24倍.同时数值实验还显示文中提出的QGEMM针对不同规模的矩阵具有较好的线程可扩展性. 展开更多
关键词 ARMv8 64位多核处理器 QGEMM 四精度 double—double数据格式 LONG double数据格式 OpenBLAS
在线阅读 下载PDF
面向ARMv8 64位多核处理器QTRSM的实现 被引量:1
20
作者 杜琦 姜浩 +2 位作者 李宽 彭林 杨灿群 《计算机工程与科学》 CSCD 北大核心 2017年第3期451-457,共7页
在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加... 在ARMv8 64位多核处理器上基于OpenBLAS实现了四精度三角矩阵求解(QTRSM)。基于两种数据格式分别实现了QTRSM,第一种实现利用GCC编译器对long double数据类型的支持来实现QTRSM,第二种实现采用double-double数据格式及其相应的四精度加减法、乘法和除法。以long double数据类型QTRSM为测试基准,就不同矩阵规模下测试结果精度和时间与double-double数据格式QTRSM进行比较。实验结果表明:两者得到近似相同精度的数值结果,但double-double数据格式QTRSM的性能是long double数据类型QTRSM的1.6倍。随着线程数的增加,两种QTRSM实现的加速比接近2.0,具有较好的可扩展性。 展开更多
关键词 ARMv8 64位多核处理器 OpenBLAS 四精度 double-double数据格式 QTRSM
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部