期刊文献+
共找到30篇文章
< 1 2 >
每页显示 20 50 100
面向飞腾处理器平台的快速卷积算法优化
1
作者 赵亚飞 杨耀功 +1 位作者 王永刚 魏继增 《上海理工大学学报》 CAS CSCD 北大核心 2024年第6期610-619,共10页
为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中... 为解决卷积神经网络难以在计算资源受限设备上部署的问题,面向国产FT-2000/4多核处理器提出一种高性能的快速卷积算法FastInfer。采用分块策略优化通用矩阵乘法,将处理器访问频率高的数据存入更靠近处理器的缓存中,从而提高计算过程中的访存效率。配合分块方案设计实现高性能的矩阵乘法微内核,使用向量外积运算更新数据,提高计算访存比,实现最大程度掩盖访存指令的延迟。最终实验结果表明,FastInfer在FT-2000/4处理器上的峰值计算性能达到99.56 GFLOPS。在不同输入规模的通用矩阵乘法测试中,FastInfer性能是OpenBLAS算法的1.07倍和1.52倍。在卷积测试中,FastInfer性能是ARM Compute Library算法的1.32倍,实现了在FT-2000/4多核处理器上的高性能卷积计算。 展开更多
关键词 深度学习 快速卷积算法 并行计算 通用矩阵乘法
在线阅读 下载PDF
以基础型信息应用激活“一带一路”沿线国家信息基础设施建设 被引量:6
2
作者 林颖 陈炳福 +2 位作者 李浥东 柯冠岩 冯松鹤 《中国工程科学》 CSCD 北大核心 2019年第4期33-38,共6页
信息应用在"一带一路"沿线国家交流合作中发挥了普惠性的基础作用,也为共同推进信息基础设施建设提供了新思路。本文首先对中国参与沿线国家信息基础设施建设遇到的困难、信息应用服务企业在沿线国家的兴起与发展状况进行了... 信息应用在"一带一路"沿线国家交流合作中发挥了普惠性的基础作用,也为共同推进信息基础设施建设提供了新思路。本文首先对中国参与沿线国家信息基础设施建设遇到的困难、信息应用服务企业在沿线国家的兴起与发展状况进行了分析。研究表明沿线国家信息基础设施建设受复杂的地缘政治、意识形态和国家安全影响推进缓慢;信息应用服务领域处于市场充分竞争的新兴领域,契合人民社会生活和政府治理需求,合作空间巨大。以基础型信息应用激活沿线国家信息基础设施建设,是实现互联互通的有效路径。 展开更多
关键词 基础型信息应用 “一带一路” 信息基础设施建设
在线阅读 下载PDF
面向GmSSL密码库的SM2算法快速优化实现
3
作者 乔晗 王安 +4 位作者 王博 苏长山 李根 唐遇星 祝烈煌 《计算机学报》 北大核心 2025年第2期463-476,共14页
GmSSL是由国内密码学专家团队研发的支持国密算法的开源密码库,相比国际主流密码库,不仅严格遵循国家密码标准,还能满足特定的安全需求。SM2算法是GmSSL的重要组成部分,作为国密椭圆曲线密码算法,它在相同安全强度下所需的密钥空间更小... GmSSL是由国内密码学专家团队研发的支持国密算法的开源密码库,相比国际主流密码库,不仅严格遵循国家密码标准,还能满足特定的安全需求。SM2算法是GmSSL的重要组成部分,作为国密椭圆曲线密码算法,它在相同安全强度下所需的密钥空间更小、计算效率更高,更适用于资源受限的设备,在国内网络安全领域具有重要意义。尽管GmSSL中SM2算法在功能上相对完善,但在实现细节、性能优化及硬件资源利用方面仍存在明显不足。本文提出了一种系统化的优化方案,针对GmSSL 3中的SM2算法从底层到顶层进行了全方位的优化,在确保密码算法安全性的同时显著提升了算法的实现速度。首先,本文从提升计算效率的角度出发,通过优化模约减算法结构以减少变量间冗余计算,大幅提升了模乘和模平方运算的速度。其次,通过引入并行计算结构,充分利用硬件的并行处理能力,显著提高了点运算的效率。最后,通过采用更高效的算法展开形式,改进了标量乘法的实现方案,进一步提升了标量乘算法实现速度。结合上述三种优化方法,本文对原始GmSSL中的标量乘和签名算法进行了优化实现,优化后的速度分别提升了118.3%和89.3%。此外,与国际主流密码库OpenSSL相比,本文实现的标量乘和签名算法速度分别提升了101.4%和55.8%,这一结果不仅验证了本文优化方案的有效性,也凸显了GmSSL在国际竞争中的潜力。本文的优化方案不仅显著提升了国密算法在实际应用中的性能,对于物联网和移动支付等领域具有重要意义,同时也为后续密码算法研究提供了新的视角和思路。 展开更多
关键词 GmSSL SM2 椭圆曲线加密算法 快速实现 标量乘
在线阅读 下载PDF
Arm架构的分支预测器隐蔽信道研究
4
作者 杨毅 吴凭飞 +7 位作者 邱朋飞 王春露 赵路坦 张锋巍 王博 吕勇强 王海霞 汪东升 《信息安全学报》 2025年第1期1-16,共16页
隐蔽信道是一种在不违背计算机当前安全策略的前提下,在进程间传递信息的攻击方式。共两个进程参与到隐蔽信道的构建中:木马进程和间谍进程,具有高权限的木马进程通过隐蔽信道向低权限的间谍进程传递信息以完成攻击。隐蔽信道的传输介... 隐蔽信道是一种在不违背计算机当前安全策略的前提下,在进程间传递信息的攻击方式。共两个进程参与到隐蔽信道的构建中:木马进程和间谍进程,具有高权限的木马进程通过隐蔽信道向低权限的间谍进程传递信息以完成攻击。隐蔽信道的传输介质种类很多,如时间、功耗、温度等。在现代处理器中,分支预测器作为重要的微架构组件,有效提高了处理器的流水线效率,但由于分支预测器在核内的多进程间共享,使得其存在被用于构建隐蔽信道的风险。目前Intel x86架构已被发现存在基于分支预测器的隐蔽信道攻击,但是Arm架构是否存在相似的攻击还没有得到充分的研究。本文中,我们成功在Arm架构的实际硬件平台上构建了三种基于分支预测器的隐蔽信道。首先我们在Arm架构下设计并实现了类似于x86架构下的基于分支预测器的隐蔽信道CC和RSC,其次我们发现了一个新的基于分支预测组件BTB的隐蔽信道BTBC。我们评估并分析了隐蔽信道参数对信道性能的影响及其成因,并给出参数设置建议。在Cortex-A53及Cortex-A72两种核心上,我们对三种隐蔽信道的信号特性、传输速率和误码率进行了测试和对比分析。实验表明在实际的Arm架构硬件平台下,BTBC的传输信号边缘清晰,震荡幅度小。在连续传输数据时表现出与CC和RSC近似的信道性能,并且在两种核心上均可以低误码率进行数据传输,其在200bps的传输速率下,仅有2%的误码率。最后我们还给出了对于此类隐蔽信道的防御措施。 展开更多
关键词 ARM架构 分支预测器 隐蔽信道
在线阅读 下载PDF
浅议基于多核CPU的实时信号处理
5
作者 董华玉 《科技与创新》 2025年第8期127-130,共4页
通过对实时信号处理与实时内核之间的关系进行分析,探讨了应用于多核CPU实时信号处理的多线程并行处理、线程池模型、数据流驱动机制、RapidIO总线、RDMA技术、加速计算函数库等技术,将使得基于多核CPU的实时信号处理技术不断创新和完善... 通过对实时信号处理与实时内核之间的关系进行分析,探讨了应用于多核CPU实时信号处理的多线程并行处理、线程池模型、数据流驱动机制、RapidIO总线、RDMA技术、加速计算函数库等技术,将使得基于多核CPU的实时信号处理技术不断创新和完善,以适应更加复杂和多样化的应用场景。 展开更多
关键词 多核CPU 实时信号处理 实时内核 并行计算
在线阅读 下载PDF
从飞腾芯看国产CPU的生态发展 被引量:11
6
作者 天津飞腾信息技术有限公司 《信息安全研究》 2020年第10期881-886,共6页
CPU在集成电路产业中是一个特殊的领域,不仅技术壁垒高、实现复杂,而且CPU产业化的成功极其依赖生态.所谓CPU生态,即CPU产业链上的企业之间,以及企业与用户之间形成的一种协同、兼容、标准化的协作体系,具体可以理解为在CPU和基于该CPU... CPU在集成电路产业中是一个特殊的领域,不仅技术壁垒高、实现复杂,而且CPU产业化的成功极其依赖生态.所谓CPU生态,即CPU产业链上的企业之间,以及企业与用户之间形成的一种协同、兼容、标准化的协作体系,具体可以理解为在CPU和基于该CPU的整机上运行的相关软硬件应用.因此,生态的作用在CPU市场上表现得十分突出.目前,国产CPU厂商面向不同的市场领域,研发基础与技术风格各有差异,但基本都沿袭自己的发展路线,积极投入新产品研发,努力开拓市场,培育生态体系,争取国内外产业链的广泛合作.通过梳理飞腾CPU产品线以及在终端设备和云计算领域的全栈解决方案情况,介绍了飞腾CPU在生态建设中的基本状况,分析了生态发展中所面临的困难,提出了飞腾未来几年在生态方面的发展规划,针对CPU国产化生态所面临的共性问题,提出了相应的政策建议. 展开更多
关键词 从端到云 协同创新 开放联合 标准兼容 生态碎片化
在线阅读 下载PDF
面向飞腾处理器的一维对流方程数值求解算法及性能评估
7
作者 廖逸枭 邵立松 +1 位作者 王光学 郑敏 《航空计算技术》 2023年第3期35-39,共5页
利用ARMv8的SIMD指令,面向国产飞腾处理器,实现了一种多时间步部分网格推进的一维对流方程加速求解汇编算法。与通过C语言实现的显式时间步推进算法相比,主要有两个优点:1)在相同网格计算量条件下,大量减少时间步长维度上的访问延迟开销... 利用ARMv8的SIMD指令,面向国产飞腾处理器,实现了一种多时间步部分网格推进的一维对流方程加速求解汇编算法。与通过C语言实现的显式时间步推进算法相比,主要有两个优点:1)在相同网格计算量条件下,大量减少时间步长维度上的访问延迟开销;2)在相同时间步的计算条件下,充分利用了SIMD指令降低了计算延迟开销。在国产飞腾CPU上进行了数值实验和性能评估,计算实践表明,在单线程计算中,在使用20个浮点寄存器进行浮点运算的情况下,优化算法最高计算速度是经过编译优化后的一般数值求解算法的4.35倍,显著地提高了串行计算的效率。 展开更多
关键词 一维对流方程 SIMD 飞腾处理器 单线程 加速计算
在线阅读 下载PDF
现代电子技术与计算机应用浅析 被引量:1
8
作者 邓冬明 《科技创新与应用》 2016年第30期93-93,共1页
随着社会的快速发展,科技的不断进步,计算机技术与电子技术逐渐运用到各个领域,且在各领域中均发挥着不可替代的重要作用。伴随着电子技术与计算机技术的结合,现如今大部分行业自动化水平得到了空前的发展,且取得了巨大的成绩。和其他... 随着社会的快速发展,科技的不断进步,计算机技术与电子技术逐渐运用到各个领域,且在各领域中均发挥着不可替代的重要作用。伴随着电子技术与计算机技术的结合,现如今大部分行业自动化水平得到了空前的发展,且取得了巨大的成绩。和其他技术相比,电子技术与计算机技术的结合使得其应用范围更加的广泛。伴随着相关研究的进一步深入,电子技术和计算机技术的综合运用将会在合理控制、编程及管理等方面扮演越来越重要的角色。 展开更多
关键词 电子技术 计算机 应用
在线阅读 下载PDF
基于延迟线的超高速SD卡动态相位调整技术
9
作者 刘艳丽 张璐 +1 位作者 冯彦朝 郭御风 《信息技术与网络安全》 2018年第9期34-37,共4页
介绍了SD卡UHS超高速数据传输模式下时钟控制模块的实现方案,提出了一种粗调和精调延时控制策略,以满足UHS tuning相位动态调整需求,实现最小步进延时70 ps,最大延时5 ns的可控延时组合。同时给出了不同corner下后端时序分析结果作为模... 介绍了SD卡UHS超高速数据传输模式下时钟控制模块的实现方案,提出了一种粗调和精调延时控制策略,以满足UHS tuning相位动态调整需求,实现最小步进延时70 ps,最大延时5 ns的可控延时组合。同时给出了不同corner下后端时序分析结果作为模块调用参考。 展开更多
关键词 SD UHS 相位调整 时钟系统
在线阅读 下载PDF
便笺式存储器中一种新颖的交错映射数据布局
10
作者 曾灵灵 张敦博 +1 位作者 沈立 窦强 《计算机工程》 CAS CSCD 北大核心 2024年第5期33-40,共8页
现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案... 现代计算机一直沿用传统的线性数据布局模式,该模式允许对使用行主序模式存储的二维矩阵进行高效的行优先数据访问,但是增加了高效执行列优先数据访问的复杂性,造成列优先访问的空间局部性较差。改善列优先数据访存效率的常见解决方案是对原始矩阵进行预先转置操作,将列优先访问的复杂性集中在一次矩阵转置运算中,然而矩阵转置不仅会引入额外的数据传输操作,而且会消耗额外的存储空间用于存储转置后的矩阵。为了在不引入额外开销的情况下使行优先与列优先数据访问具有同样高效的访存效率,提出一种新颖的交错映射(IM)数据布局,同时在不改变便笺式存储器(SPM)内部结构的基础上,在SPM的输入和输出(I/O)接口处添加循环移位单元和译码单元2个新组件,实现交错映射数据布局并定制访存指令,使程序员可通过定制的访存指令充分利用该数据布局。实验结果表明,应用交错映射数据布局的SPM在仅额外增加了1.73%面积开销的情况下获得了1.4倍的加速。 展开更多
关键词 矩阵转置 单指令多数据 便笺式存储器 数据布局 静态随机存储器
在线阅读 下载PDF
面向众核CPU的稠密线性求解器性能评测与优化
11
作者 付晓 苏醒 +1 位作者 董德尊 钱程东 《计算机工程与科学》 CSCD 北大核心 2024年第6期984-992,共9页
稠密线性求解器在高性能计算和机器学习等领域扮演着重要的角色。其典型的并行算法实现通常构建在著名的fork-join或task-based编程模型之上。尽管采用fork-join模型的主流稠密线性代数库能将大部分的计算转移到高度优化、高性能的BLAS ... 稠密线性求解器在高性能计算和机器学习等领域扮演着重要的角色。其典型的并行算法实现通常构建在著名的fork-join或task-based编程模型之上。尽管采用fork-join模型的主流稠密线性代数库能将大部分的计算转移到高度优化、高性能的BLAS 3例程上,由于fork-join不灵活的执行流,它们仍然未能高效地利用众核CPU的计算资源。采用task-based编程模型的开源库能实现更加灵活、负载更均衡的算法,因此能获得明显的性能提升。然而,在众核CPU平台上,尤其是对于中等矩阵规模的问题而言,它们仍然有较大的优化空间。对稠密线性求解器的性能进行了全面的测评,以定位性能瓶颈,并提出了2种优化策略,以提高程序性能。具体地,通过重叠LU分解和下三角求解的计算过程,减少同步开销线程的空等,从而提高算法的并行性;进一步通过减少冗余的矩阵打包操作,降低算法的访存开销。分别在2个主流的众核CPU平台(Intel®Xeon Gold®6252N(48核)和HiSilicon Kunpeng 920(64核))上进行了性能评估。实验结果表明,该优化的稠密线性求解器在上述两个CPU平台上,相比最佳开源实现分别取得了10.05%(Xeon)和13.63%(Kunpeng 920)的性能提升。 展开更多
关键词 稠密线性求解器 LU分解 fork-join模型 task-based模型 众核CPU
在线阅读 下载PDF
基于GNURadio与USRP的OFDM无线通信系统实验 被引量:2
12
作者 武畅 焦曙阳 钱程东 《实验科学与技术》 2024年第1期1-8,共8页
针对目前无线通信课程内容侧重讲述基本理论推导,相关实验多关注模块功能仿真,缺乏系统性和真实场景的问题,提出了以GNURadio软件和通用软件无线电外设(USRP)硬件平台为基础的正交频分复用(OFDM)无线通信系统实验。该实验内容包括掌握O... 针对目前无线通信课程内容侧重讲述基本理论推导,相关实验多关注模块功能仿真,缺乏系统性和真实场景的问题,提出了以GNURadio软件和通用软件无线电外设(USRP)硬件平台为基础的正交频分复用(OFDM)无线通信系统实验。该实验内容包括掌握OFDM的基本原理、搭建OFDM收发系统、分析相关通信性能和完成硬件系统,最后在实际无线通信场景中完成测试,实现实时视频传输。通过软件系统和硬件平台的协同,学生能充分了解无线通信的基本原理、各通信模块的使用、无线通信系统的架构以及相关的性能分析方法,完成从理论基础到工程应用、从模块验证到系统实现、从理想环境仿真到实际场景测试的跨越,从而全面提升工程素养。 展开更多
关键词 GNURadio 通用软件无线电外设 正交频分复用 无线通信 视频传输
在线阅读 下载PDF
基于可信执行环境的安全推理研究进展
13
作者 孙钰 熊高剑 +1 位作者 刘潇 李燕 《信息网络安全》 CSCD 北大核心 2024年第12期1799-1818,共20页
近年来,以深度神经网络为代表的机器学习技术在自动驾驶、智能家居和语音助手等领域获得了广泛应用。在上述高实时要求场景下,多数服务商将模型部署在边缘设备以规避通信带来的网络时延与通信开销。然而,边缘设备不受服务商控制,所部署... 近年来,以深度神经网络为代表的机器学习技术在自动驾驶、智能家居和语音助手等领域获得了广泛应用。在上述高实时要求场景下,多数服务商将模型部署在边缘设备以规避通信带来的网络时延与通信开销。然而,边缘设备不受服务商控制,所部署模型易遭受模型窃取、错误注入和成员推理等攻击,进而导致高价值模型失窃、推理结果操纵及私密数据泄露等严重后果,使服务商市场竞争力受到致命打击。为解决上述问题,众多学者致力于研究基于可信执行环境(TEE)的安全推理,在保证模型可用性条件下保护模型的参数机密性与推理完整性。文章首先介绍相关背景知识,给出安全推理的定义,并归纳其安全模型;然后对现有TEE安全推理的模型机密性保护方案与推理完整性保护方案进行了分类介绍和比较分析;最后展望了TEE安全推理的未来研究方向。 展开更多
关键词 安全推理 可信执行环境 模型机密性 推理完整性 边缘部署
在线阅读 下载PDF
体系结构类课程综合思政建设
14
作者 许邦建 刘文艺 +1 位作者 陈梦雪 贺旭 《计算机教育》 2024年第4期44-47,共4页
分析现有的计算机类课程的思政建设工作现状和问题,提出结合中国科技史辉煌成就、国产计算机领域艰苦创业历程以及当代国产计算机产业成果的综合思政建设方法,以加强学生学习体系结构类课程的动力,树立为国家和民族产业学习的精神,介绍... 分析现有的计算机类课程的思政建设工作现状和问题,提出结合中国科技史辉煌成就、国产计算机领域艰苦创业历程以及当代国产计算机产业成果的综合思政建设方法,以加强学生学习体系结构类课程的动力,树立为国家和民族产业学习的精神,介绍具体实施过程,说明实施效果。 展开更多
关键词 计算机 体系结构 课程思政 中国科技史 国产计算机奋斗历程 银河精神
在线阅读 下载PDF
国有企业强化财务战略管理的意义与改善对策
15
作者 刘令魁 《活力》 2024年第24期61-63,共3页
在当前激烈的市场竞争下,国有企业以独特的优势展现着自身实力,但随着近年来不断出台的各项管理改革方针政策,国有企业也面临着内部管理改革的难题。通常情况下,国有企业具有规模大、层级多、地域分布广等典型特点,这种较为分散和复杂... 在当前激烈的市场竞争下,国有企业以独特的优势展现着自身实力,但随着近年来不断出台的各项管理改革方针政策,国有企业也面临着内部管理改革的难题。通常情况下,国有企业具有规模大、层级多、地域分布广等典型特点,这种较为分散和复杂的模式给财务管理带来不小的难度,尤其是财务战略管理,很多时候无法与企业的总体战略目标相适配。鉴于此,文章基于财务战略管理的含义和意义,分析国有企业加强财务战略管理的难点,并探讨相应对策,旨在为同类型国有企业培养财务竞争力提供有益参考。 展开更多
关键词 国有企业 财务管理 财务内控
在线阅读 下载PDF
基于Innovus提升芯片性能的物理实现方法 被引量:5
16
作者 边少鲜 David He +3 位作者 栾晓琨 蒋剑锋 翟飞雪 蔡准 《电子技术应用》 2019年第8期48-52,60,共6页
对于规模日益增大,工作频率不断增加的高性能芯片设计,性能一直是物理设计的重点和难点。缓冲器的插入是为了最小化信号线延时,进而优化时序,提升性能。描述了使用CadenceInnovus工具建立物理设计流程,减少各步骤间的偏差。同时在此流... 对于规模日益增大,工作频率不断增加的高性能芯片设计,性能一直是物理设计的重点和难点。缓冲器的插入是为了最小化信号线延时,进而优化时序,提升性能。描述了使用CadenceInnovus工具建立物理设计流程,减少各步骤间的偏差。同时在此流程的基础上提出二次布局优化方法,在16nm下,通过一个高性能芯片设计验证了该流程与方法,实例结果表明,设计性能得到很大改善,其中时序优化达85.07%,该流程及方法可有效提升高性能芯片性能。 展开更多
关键词 Innovus 物理实现 二次布局优化
在线阅读 下载PDF
基于Cadence CHI和IVD VIP的多核SoC系统数据一致性验证 被引量:2
17
作者 范君健 晁张虎 +3 位作者 杨庆娜 刘琪 朱红 单建旗 《电子技术应用》 2020年第8期72-76,共5页
在多核的SoC系统中,不同的处理器核对内存空间和设备空间进行着大量的数据读写操作,维护Cache一致性面临严峻挑战。集中于控制流方面的验证环境搭建已非常复杂,而包含数据正确性检查的验证由于控制流程复杂、数据量大等问题而更加困难... 在多核的SoC系统中,不同的处理器核对内存空间和设备空间进行着大量的数据读写操作,维护Cache一致性面临严峻挑战。集中于控制流方面的验证环境搭建已非常复杂,而包含数据正确性检查的验证由于控制流程复杂、数据量大等问题而更加困难。针对这一问题,基于Cadence公司提供CHI VIP、AXI VIP和IVD VIP,实现多核环境下的系统级数据一致性验证。搭建的验证平台中采用CHI VIP通过笔者开发的CHI协议转换桥发出访存请求,使用AXI VIP收集到达主存的数据,由IVD VIP对CHI端口的请求数据与AXI端口的访存数据进行实时分析比对,实现在较高抽象层次上的激励产生和响应检查。该验证平台能够在子系统级及系统级进行数据一致性验证,具有验证环境搭建快速和功能点覆盖完备的优点。 展开更多
关键词 CACHE一致性 子系统级验证 VIP 模块化验证
在线阅读 下载PDF
基于硬件仿真加速平台的PCIE系统级调测试方法 被引量:1
18
作者 柏颖 马玲芝 +1 位作者 郭嘉 陈少辉 《电子技术应用》 北大核心 2017年第8期28-31,共4页
在带真实PCIE设备的系统级测试环境中,由于驱动程序或应用测试程序的更换,可能需要频繁引导操作系统,造成额外时间开销;同时,由于真实外设的存在,系统调试能力急剧降低,给调试带来巨大挑战。分别对带真实PCIE设备的系统级验证流程及调... 在带真实PCIE设备的系统级测试环境中,由于驱动程序或应用测试程序的更换,可能需要频繁引导操作系统,造成额外时间开销;同时,由于真实外设的存在,系统调试能力急剧降低,给调试带来巨大挑战。分别对带真实PCIE设备的系统级验证流程及调试进行了优化。验证流程方面,一方面采用"抽屉式"内存管理机制,通过ramdisk直接更换驱动程序及benchmark,避免重复引导OS;另一方面,通过Ethernet通路实现程序更换,进一步节省状态恢复、PCIE热复位时间。调试能力优化方面,利用display buffer,SDL捕捉关键信号并导出处理后还原成波形,并通过选定合适的捕捉信号、buffer深度、降频操作,尽可能增大连续波形长度,改善调试能力。 展开更多
关键词 硬件仿真加速 ICE 系统级仿真 PCIE
在线阅读 下载PDF
Innovus机器学习在高性能CPU设计中的应用 被引量:1
19
作者 边少鲜 Micheal Feng +3 位作者 David Yue 栾晓琨 蔡准 蒋剑锋 《电子技术应用》 2020年第8期54-59,63,共7页
高性能芯片设计在7 nm及更高级的工艺节点上,设计规模更大、频率更高、设计数据和可变性更复杂,物理设计难度增大。机器学习在多领域均获得成功应用,复杂的芯片设计是应用机器学习的一个很好的领域。Cadence将机器学习算法内置到Innovu... 高性能芯片设计在7 nm及更高级的工艺节点上,设计规模更大、频率更高、设计数据和可变性更复杂,物理设计难度增大。机器学习在多领域均获得成功应用,复杂的芯片设计是应用机器学习的一个很好的领域。Cadence将机器学习算法内置到Innovus工具中,通过对芯片设计数据进行学习建模,建立机器学习模型,从而提升芯片性能表现。建立了一个应用机器学习优化延时的物理流程来提升芯片设计性能。详细讨论分析了分别对单元延时、线延时、单元和线延时进行优化对设计的影响,进而找到一个较好的延时优化方案。最后利用另一款设计难度更大,性能要求更高的模块从时序、功耗、线长等方面较为全面地分析验证设计方案的合理性。 展开更多
关键词 机器学习 Innovus 芯片设计 物理设计
在线阅读 下载PDF
Stratus HLS工具在高性能双精度浮点乘法设计中的应用流程 被引量:1
20
作者 苑佳红 《电子技术应用》 2018年第8期20-23,30,共5页
双精度浮点乘法部件是高性能CPU的核心运算部件之一。描述了使用Cadence Stratus HLS工具设计和实现双精度浮点乘法部件,探索新设计方法学在关键路径延时调整、数据路径优化以及低功耗优化等问题的解决方法,并探讨如何将新的设计流程结... 双精度浮点乘法部件是高性能CPU的核心运算部件之一。描述了使用Cadence Stratus HLS工具设计和实现双精度浮点乘法部件,探索新设计方法学在关键路径延时调整、数据路径优化以及低功耗优化等问题的解决方法,并探讨如何将新的设计流程结合到原有项目开发中等问题。最终,高阶综合设计的RTL,在28 nm工艺下综合实现频率为2.5 GHz、面积为28 211μm^2,基本满足高性能微处理器的开发要求,增强了在项目中更加广泛地使用新设计方法学的信心。 展开更多
关键词 高阶综合 HLS 双精度浮点乘法
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部