期刊文献+
共找到25篇文章
< 1 2 >
每页显示 20 50 100
一种简便易行的耐碳源同化试验
1
作者 陈德训 马丽亚 《镇江医学院学报》 1998年第3期403-403,共1页
致病性念珠菌的鉴定主要依据菌膜,芽管,厚膜孢子,碳源同化试验结果,综合分析加以判定。目前实验室常用的碳源同化试验有倾注法[1]和试管法[2],前者需将菌液与冷却至50℃的基础培养基混合,条件不易掌握,操作繁琐;而后者... 致病性念珠菌的鉴定主要依据菌膜,芽管,厚膜孢子,碳源同化试验结果,综合分析加以判定。目前实验室常用的碳源同化试验有倾注法[1]和试管法[2],前者需将菌液与冷却至50℃的基础培养基混合,条件不易掌握,操作繁琐;而后者需4~7天才能观察到明确的浊度变化... 展开更多
关键词 耐碳源同化试验 念球菌 鉴定
在线阅读 下载PDF
类风湿性关节炎患者早期外周血单个核细胞Toll样受体2、4表达及意义 被引量:12
2
作者 钱雷 汪晓莺 +1 位作者 吕丽君 陈德训 《检验医学》 CAS 2012年第8期659-662,共4页
目的探讨类风湿性关节炎(RA)早期患者外周血单个核细胞(PBMC)Toll样受体(TLR)2、TLR4对其配体双糖链蛋白多糖(BGN)、脂多糖(LPS)的刺激反应性,阐明PBMC TLR2、TLR4在RA疾病早期中的作用。方法采用流式细胞术、实时荧光定量逆转录(RT)-... 目的探讨类风湿性关节炎(RA)早期患者外周血单个核细胞(PBMC)Toll样受体(TLR)2、TLR4对其配体双糖链蛋白多糖(BGN)、脂多糖(LPS)的刺激反应性,阐明PBMC TLR2、TLR4在RA疾病早期中的作用。方法采用流式细胞术、实时荧光定量逆转录(RT)-聚合酶链反应(PCR)、酶联免疫吸附试验(ELISA)分别检测BGN和LPS刺激前后,RA组和健康对照组外周血CD14+单核细胞TLR4+细胞频率、PBMC TLR2 mRNA和TLR4mRNA及上清液白细胞介素6(IL-6)和肿瘤坏死因子α(TNFα)的含量变化。结果 RA早期患者TLR2 mRNA明显升高、TLR4 mRNA下降(P<0.01);经LPS刺激后,RA患者TLR4 mRNA升高3.50倍,而健康对照组下降到0.11倍;LPS和BGN促进了各组PBMC产生IL-6、TNFα,但RA早期患者组上升的倍数明显高于健康对照组。结论 PBMC TLR2、TLR4参与早期RA的发生、发展。 展开更多
关键词 TOLL样受体2 TOLL样受体4 外周血单个核细胞 类风湿性关节炎
在线阅读 下载PDF
全球涡分辨率并行海洋模式POP在神威蓝光上的移植和应用 被引量:6
3
作者 赵伟 雷晓燕 +2 位作者 陈德训 赵春 宋振亚 《计算机应用与软件》 CSCD 北大核心 2014年第5期42-45,共4页
基于中国自行研制的超大规模并行计算机神威蓝光平台,对海洋环流模式POP进行移植和进一步优化,并进行模式和机器的并行测试。测试结果表明:0.1度分辨率在5 000核以内达到了线性加速比,随着使用线程数目的增多,虽然加速比依然增加,但是... 基于中国自行研制的超大规模并行计算机神威蓝光平台,对海洋环流模式POP进行移植和进一步优化,并进行模式和机器的并行测试。测试结果表明:0.1度分辨率在5 000核以内达到了线性加速比,随着使用线程数目的增多,虽然加速比依然增加,但是加速效率在降低,当线程数目达到24 000的时候加速比出现降低,加速效率只有12.6%;0.05度分辨率可在12 000核以内达到了线性加速比,同样随着线程数目的增多加速在增多但加速效率在降低,当线程数目达到32 000的时候加速比出现降低,加速效率只有25.7%。经过优化后的海洋环流模式POP在神威蓝光并行计算机系统上具有良好的兼容性,并行效率较高,而且具有很强的可扩展性,可用来开展超大规模的并行计算。对测试结果的进一步分析发现,发展并行性良好的线性方程组求解方案、快速高效的计算网络协议等问题是未来发展高分辨率模式中需解决的问题。 展开更多
关键词 神威蓝光 海洋环流模式 加速比
在线阅读 下载PDF
非结构网格并行计算预处理方法研究 被引量:5
4
作者 刘鑫 陆林生 陈德训 《计算机科学》 CSCD 北大核心 2012年第3期308-311,共4页
非结构网格预处理方法是非结构网格CFD并行计算的关键技术之一。提出基于缓冲数据结构的快速搜索算法来建立全局网格单元邻接关系图,算法复杂度低,能够显著降低非结构网格预处理的存储需求;在提高核心计算访存命中率方面,提出网格单元... 非结构网格预处理方法是非结构网格CFD并行计算的关键技术之一。提出基于缓冲数据结构的快速搜索算法来建立全局网格单元邻接关系图,算法复杂度低,能够显著降低非结构网格预处理的存储需求;在提高核心计算访存命中率方面,提出网格单元重排序算法,该算法能够提高核心计算效率,并通用于各种非结构网格问题。实验结果表明,在用于大网格量的复杂计算区域时该非结构网格预处理技术仍能得到较理想的结果。 展开更多
关键词 非结构网格 CFD并行计算 预处理 快速搜索 重排序
在线阅读 下载PDF
聚合酶链反应(PCR)在解脲支原体检测中的应用
5
作者 陈德训 《镇江医学院学报》 1998年第1期109-109,共1页
聚合酶链反应(PCR)在解脲支原体检测中的应用滨海县人民医院陈德训解脲支原体主要寄生于人泌尿生殖道,可通过性传播,也可以通过孕妇血液,生殖道传播给胎儿及新生儿。它可以引起男性尿道炎、前列腺炎、附睾炎。在女性中除可以引... 聚合酶链反应(PCR)在解脲支原体检测中的应用滨海县人民医院陈德训解脲支原体主要寄生于人泌尿生殖道,可通过性传播,也可以通过孕妇血液,生殖道传播给胎儿及新生儿。它可以引起男性尿道炎、前列腺炎、附睾炎。在女性中除可以引起阴道炎外,可致宫颈炎、盆腔炎、女... 展开更多
关键词 聚合酶链反应 解脲支原体 临床应用 检测
在线阅读 下载PDF
血管生成素样蛋白1和2水平在2型糖尿病患者中的表达及与血管病变的关系 被引量:6
6
作者 李礼 钱雷 陈德训 《国际检验医学杂志》 CAS 2014年第16期2183-2184,共2页
目的探讨血管生成素样蛋白(Ang)1和Ang-2水平在2型糖尿病(T2DM)患者中的表达以及与血管病变的关系。方法选取T2DM患者120例,其中并发大血管病变32例,微血管病变52例,无血管病变36例,同期选择健康体检者50例为对照组,分别检测研究对象中A... 目的探讨血管生成素样蛋白(Ang)1和Ang-2水平在2型糖尿病(T2DM)患者中的表达以及与血管病变的关系。方法选取T2DM患者120例,其中并发大血管病变32例,微血管病变52例,无血管病变36例,同期选择健康体检者50例为对照组,分别检测研究对象中Ang-1和Ang-2、空腹血糖(FBG)和胰岛素(FINS)、糖化血红蛋白(HbA1c)水平并与对照组作比较。结果 T2DM组中Ang-1水平和对照组间比较差异无统计学意义(P>0.05);Ang-2水平显著高于对照组(t=2.6,P<0.01)。T2DM并发血管病变Ang-2水平显著高于无血管病变组且与病变血管数量有关。Ang-2与胰岛素抵抗(HOMA-IR)、HbA1c呈显著正相关(r分别为0.577和0.509,P<0.01);Ang-1和HOMA-IR则无相关性(P>0.05)。结论 T2DM患者中Ang-2水平显著升高,与HbA1c和胰岛素抵抗密切相关,并且Ang-2可能参与了T2DM血管病变的发生和发展。 展开更多
关键词 血管生成素样蛋白 糖尿病 2 血管并发症
在线阅读 下载PDF
PCR-微孔板反向杂交法检测HBV DNA 被引量:2
7
作者 钱雷 王惠民 +1 位作者 陈德训 施健 《临床检验杂志》 CAS CSCD 北大核心 1999年第1期27-28,共2页
用PCR-微孔板反向杂交法检测HBVDNA,通过固定于板上的捕获探针与5′端带有生物素的PCR扩增产物杂交后,加入酶标亲合素通过酶联反应显色。本法检测敏感度明显高于电泳法,检测时间约是Keler法的1/10。
关键词 HBVDNA 聚合酶链反应 微孔板 乙型肝炎
在线阅读 下载PDF
波动方程叠前深度偏移并行计算及其应用效果 被引量:3
8
作者 孟祥宾 杨淑卿 +3 位作者 徐兆涛 胡中标 陈德训 王华忠 《勘探地球物理进展》 2004年第3期213-217,231,共6页
简要介绍了波动方程叠前深度偏移技术的发展趋势,讨论了P道集波动方程速度分析技术,给出了共方位角波动方程叠前深度偏移方法的计算公式。利用以上技术和方法,借助国产神威Ⅰ型机,完成了CB30地区130km^2的三维地震资料的叠前深度偏移,... 简要介绍了波动方程叠前深度偏移技术的发展趋势,讨论了P道集波动方程速度分析技术,给出了共方位角波动方程叠前深度偏移方法的计算公式。利用以上技术和方法,借助国产神威Ⅰ型机,完成了CB30地区130km^2的三维地震资料的叠前深度偏移,实现了共方位角波动方程偏移算子的并行运算,并行效率达到98%以上。偏移结果表明,此方法能有效地改善地震数据的成像精度,适用于构造复杂地区。 展开更多
关键词 波动方程 叠前深度偏移技术 速度分析 计算方法 地震资料 DMO
在线阅读 下载PDF
波动方程叠前深度偏移技术及其应用 被引量:1
9
作者 孟祥宾 杨淑卿 +3 位作者 徐兆涛 胡中标 陈德训 王华忠 《油气地球物理》 2004年第1期17-20,共4页
简要介绍了波动方程叠前深度偏移技术的发展趋势,讨论了P道集波动方程速度分析技术,推导出了共方位角波动方程叠前深度偏移方法的计算公式。利用上述技术和方法,借助国产神威I型机,完成了埕北地区130km2三维地震资料的叠前深度偏移,实... 简要介绍了波动方程叠前深度偏移技术的发展趋势,讨论了P道集波动方程速度分析技术,推导出了共方位角波动方程叠前深度偏移方法的计算公式。利用上述技术和方法,借助国产神威I型机,完成了埕北地区130km2三维地震资料的叠前深度偏移,实现了共方位角波动方程偏移算子的并行运算,并行效率达到了线性加速。偏移结果表明,此方法能有效改善地震数据的成象精度,适用于构造复杂地区。 展开更多
关键词 波动方程 叠前深度偏移技术 方位角 计算公式 地震数据 地震勘探技术
在线阅读 下载PDF
酶免疫法检测伤寒患者外周血中的Vi抗原
10
作者 陈德训 《皖南医学院学报》 CAS 1996年第2期147-147,共1页
酶免疫法检测伤寒患者外周血中的Vi抗原陈德训(江苏省滨海县人民医院检验科224500)用于伤寒诊断的肥达氏反应,因轻症和亚临床型病例渐增多,阳性率有下降趋势,已不能满足临床需要,笔者参考庞铁石[1]报道检测伤寒患者外... 酶免疫法检测伤寒患者外周血中的Vi抗原陈德训(江苏省滨海县人民医院检验科224500)用于伤寒诊断的肥达氏反应,因轻症和亚临床型病例渐增多,阳性率有下降趋势,已不能满足临床需要,笔者参考庞铁石[1]报道检测伤寒患者外周血中Vi抗原的酶免疫法,其原理是... 展开更多
关键词 伤寒 外周血 VI抗原 酶免疫法
在线阅读 下载PDF
清华大学CIESM模式及其参与CMIP6的方案 被引量:10
11
作者 林岩銮 黄小猛 +32 位作者 梁逸爽 秦怡 徐世明 黄文誉 徐芳华 刘利 王勇 彭怡然 王兰宁 薛巍 付昊桓 张广俊 王斌 李锐喆 张诚 卢麾 阳坤 罗勇 白玉琪 宋振亚 王敏琦 赵文婕 张峰 徐敬蘅 赵曦 陆春松 骆亦其 陈奕兆 胡勇 唐强 陈德训 杨广文 宫鹏 《气候变化研究进展》 CSCD 北大核心 2019年第5期545-550,共6页
世界气候研究计划(WCRP)组织实施第六次国际耦合模式比较计划(CMIP6),清华大学联合国内多家单位,通过多年的模式研发,完成联合地球系统模式(CIESM),除了CMIP6的气候诊断、评估和描述试验(DECK)和历史气候模拟试验(Historical),模式拟参... 世界气候研究计划(WCRP)组织实施第六次国际耦合模式比较计划(CMIP6),清华大学联合国内多家单位,通过多年的模式研发,完成联合地球系统模式(CIESM),除了CMIP6的气候诊断、评估和描述试验(DECK)和历史气候模拟试验(Historical),模式拟参与6个CMIP6子计划。通过介绍该模式的基本情况及其参与的试验子计划,为今后模式试验数据使用者提供参考。 展开更多
关键词 清华大学 联合地球系统模式(CIESM) CMIP6 气候系统模式 地球系统模式
在线阅读 下载PDF
神威超级计算机运行时故障定位方法
12
作者 高剑刚 郑岩 +6 位作者 于康 彭达佳 李宏亮 刘勇 何王全 陈德训 王飞 《计算机研究与发展》 EI CSCD 北大核心 2024年第1期86-97,共12页
随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障... 随着高性能计算机的性能不断提升、系统规模不断提高,系统和应用的错误率也不可避免地持续增多.快速发现和定位系统及应用级的错误、为用户提供高质量服务,成为了超级计算机系统设计开发过程中急需考虑的问题.超级计算机系统中硬件故障与异常、软件程序的错误等都会导致用户大规模并行应用的错误、挂死与退出.如何快速准确定位错误现场,让管理员或用户以此为基础查看异常发生的故障进行高精度、高效率的诊断,是维护高性能计算系统可靠性的重要基础.高性能计算机传统的故障定位主要通过硬件异常跟踪、系统日志分析和程序主动探测等方法,缺乏对无日志信息、无明显故障现象的程序挂死问题的定位手段,并且技术的扩展性也面临挑战.针对“新一代神威超级计算机”体系结构和SW26010-Pro众核处理器特点,提出一种运行时故障定位方法,包括基于消息传递的故障关联分析、基于全局聚合信息的在线综合分析诊断、面向申威众核处理器的异常线程过滤方法等关键技术,阐述了如何有效检测、收集、处理大量系统资源和并行进程的异常信息问题,为应对未来超大规模高性能计算中故障高效定位难题提供有效支撑. 展开更多
关键词 E级计算机 可靠性 错误定位 运行时 众核处理器
在线阅读 下载PDF
GRAPES_CUACE大气化学耦合模式并行优化 被引量:1
13
作者 叶跃进 陈德训 +2 位作者 胡江凯 马欣 张小曳 《计算机科学》 CSCD 北大核心 2019年第S11期528-534,共7页
文中主要介绍了数值天气预报模式GRAPES_MESO(4.0版本)与大气化学模式CUACE在线耦合形成的GRAPES_CUACE大气化学耦合模型在不同版本的x86体系结构下的并行优化算法的研究与分析。借鉴目前国内外主流的并行优化设计方法,结合GRAPES_MESO... 文中主要介绍了数值天气预报模式GRAPES_MESO(4.0版本)与大气化学模式CUACE在线耦合形成的GRAPES_CUACE大气化学耦合模型在不同版本的x86体系结构下的并行优化算法的研究与分析。借鉴目前国内外主流的并行优化设计方法,结合GRAPES_MESO系统本身的程序架构和并行框架,针对不同版本x86体系架构做了相应的并行化改造。运用gprof工具和戳桩计时等方法,测试得到的程序热点模块主要有3部分:IO、通信和物理过程。对IO模块主要的优化方法为:1、由离散读写改为连续读写;2、开辟缓冲区由稀疏访存改为连续访存;3、异步IO。对通信部分采用两种方式:1、由细粒度改为粗粒度通信;2、采用时间复杂度更低的集合通信。对IO与通信模块优化结果分析可得:IO模块优化后的耗时占比由原来的43.7%降至1.41%,比重大幅度降低,最优部分性能提升了317倍,因此,该方法极大地提升了IO模块运行效率。此外,对物理过程进行优化采用的主要方法是:1、多层循环计算过程由离散改为连续;2、通信机制循环外移;3、数据复用以减少计算冗余;4、缩减栈变量空间等。这些优化方法使计算性能提高了22%,进一步提高了程序的并行效率和模式的强可扩展性。 展开更多
关键词 异步IO 粗粒度 连续访存 集合通信
在线阅读 下载PDF
并行海量信息处理中间件的研究与实现
14
作者 吴宏 陈德训 《计算机工程与科学》 CSCD 北大核心 2009年第A01期183-184,224,共3页
数据库中间件技术已成为构建大规模海量信息处理系统的重要途径,本文研究并实现了一个并行海量数据库中间件,实现了海量数据的高性能并行加载和查询,满足TB量级的海量信息处理应用需求。
关键词 中间件 海量信息处理 并行数据库
在线阅读 下载PDF
稀疏矩阵向量乘法在申威众核架构上的性能优化 被引量:13
15
作者 李亿渊 薛巍 +4 位作者 陈德训 王欣亮 许平 张武生 杨广文 《计算机学报》 EI CSCD 北大核心 2020年第6期1037-1051,共15页
计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,... 计算机数值模拟是现代科学和技术发展的重要触发力量.在数值模拟中,求解大规模稀疏线性方程组是非常重要的一个环节.迭代求解过程中稀疏矩阵向量乘法是耗时最长的计算核心之一,存在严重的数据局部性差、写冲突、负载不均衡等问题.因此,稀疏矩阵向量乘法已经成为了当前性能优化的难点和研究热点.本文面向国产众核处理器架构,以申威26010国产众核处理器为平台,针对稀疏矩阵向量乘法,在线程级和指令级并行层面上进行细粒度的并行算法设计和优化实现.其核心思想是,将众核架构设计精巧的矩阵分层分块技术用于矩阵存储、访问和任务调度,在保证右端向量数据复用的同时有效实现了负载均衡,避免了申威26010上因频繁缓存判断和细粒度访问导致的潜在性能问题.通过对SuiteSparse矩阵集合中的2710个算例的测试,该算法可以获得与主核上的串行算法相比11.7倍的平均加速和55倍的最高加速. 展开更多
关键词 申威众核处理器 并行计算 矩阵向量乘法 矩阵格式 稀疏矩阵计算
在线阅读 下载PDF
血清γ-GT速率测定法的实验条件探讨
16
作者 陈德训 张抗 《上海医学检验杂志》 1989年第2期68-72,共5页
本文以γ-谷氨酰对硝基苯胺为底物终浓度为5.0mmol/L。用Tris-甘氨酰甘氨酸(双甘肽)缓冲液(pH8.2),其中双甘肽作γ-谷氨酰基的受体,终浓度为100mmol/L,生成的对硝基苯胺为黄色。
关键词 Γ-GT 血清 测定 谷氨酰
在线阅读 下载PDF
面向神威众核超算系统的并行计算模型研究 被引量:3
17
作者 高剑刚 刘鑫 +4 位作者 李芳 刘勇 彭达佳 陈鑫 陈德训 《计算机学报》 EI CAS CSCD 北大核心 2023年第7期1339-1349,共11页
基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之... 基于异构众核处理器的超级计算机已经成为TOP500高性能计算机的主流,BSP、LogP、PRAM等已有并行计算模型均针对基于多核处理器的超级计算机设计,不能满足日益迫切的基于众核架构的超级计算机和应用发展需求.本文面向“神威·太湖之光”和神威E级原型系统的众核体系结构特点,提出P-PALN(Parallel-Parallel Access via LDM&NOC)并行计算模型,对于计算节点间的并行,该模型沿用BSP/LogP模型描述;对于计算节点内的众核并行,该模型提供私有存储访问和片上阵列通信的众核并行架构的有效描述PALN,能够协助用户进行众核并行算法设计,并在申威众核处理器硬件设计中指导参数的优化.实验结果表明,该模型可有效指导硬件设计和用户众核编程,从而提高系统和应用的性能. 展开更多
关键词 众核处理器 并行计算模型 P-PALN PALN 片上通信
在线阅读 下载PDF
船舶三维声弹性模拟软件的并行优化策略
18
作者 吕小敬 刘钊 +2 位作者 蒋令闻 陈德训 杨广文 《计算机科学与探索》 CSCD 北大核心 2019年第11期1852-1863,共12页
三维声弹性理论及计算方法为海洋弹性浮体结构流固耦合振动声辐射与海洋声传播提供了理论基础,在海洋弹性浮体结构研究中具有很重要的影响。根据三维声弹性不同计算阶段计算密度特征,基于神威太湖之光超级计算系统,完成了三维声弹性应... 三维声弹性理论及计算方法为海洋弹性浮体结构流固耦合振动声辐射与海洋声传播提供了理论基础,在海洋弹性浮体结构研究中具有很重要的影响。根据三维声弹性不同计算阶段计算密度特征,基于神威太湖之光超级计算系统,完成了三维声弹性应用软件(THAFTS-Acoustic)的多级并行和优化。优化技术包括循环分裂、循环合并、直接内存存取(DMA)、通信和计算的相互隐藏、基于神威太湖之光的向量化(SIMD)等方法。测试结果表明:三维声弹性多级异构并行具有较好的MPI扩展性能和众核并行加速效果,核心段加速可达18倍,64进程时程序整体相较原始程序并行程序加速5.5倍,可有效地发挥"神威·太湖之光"的强大计算能力,进一步支持THAFTS-Acoustic进行超大规模和更高精度的并行计算。 展开更多
关键词 三维声弹性 神威太湖之光 多级异构并行
在线阅读 下载PDF
面向国产异构众核架构的CFD非结构网格计算并行优化方法 被引量:1
19
作者 陈鑫 李芳 +5 位作者 丁海昕 孙唯哲 刘鑫 陈德训 叶跃进 何香 《计算机科学》 CSCD 北大核心 2022年第6期99-107,共9页
神威太湖之光在2016-2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CF... 神威太湖之光在2016-2018年度全球超算top500榜单中排名第一,峰值性能为125.4 PFlops,其计算能力主要归功于国产SW26010众核处理器。由于CFD非结构网格计算存在拓扑关系复杂、离散访存问题严重、存在强相关的线化方程求解等问题,导致CFD非结构网格计算一直是国产众核超级计算机移植与优化的难题。为充分发挥国产异构众核架构的计算效能,首先,提出了一种数据重构模型,提高了数据的局部性和可并行性,使得数据结构更加适应众核架构的特点;然后,针对非结构网格数据存放的无序性导致的离散访存问题,提出了一种基于信息关系预存的离散访存优化方法,将离散访存转化为连续访存;最后,对于存在强相关的线化方程求解问题,引入了从核阵列流水线并行的思想,实现了众核并行。优化后CFD非结构网格计算的整体性能相比原始版本提升了4.19倍,相比通用CPU提升了1.2倍,并扩展到62.4万计算核心的并行规模,能保持64.5%的并行效率。 展开更多
关键词 计算流体力学 异构众核 神威超级计算机 非结构网格 并行计算
在线阅读 下载PDF
基于国产众核架构的非结构网格分区块重构预处理算法研究
20
作者 叶跃进 李芳 +2 位作者 陈德训 郭恒 陈鑫 《计算机科学》 CSCD 北大核心 2022年第6期73-80,共8页
如何高效地解决非结构网格离散访存问题一直是科学与工程计算并行算法和应用领域关注的核心热点问题之一。基于国产申威异构众核架构而设计的分布式区块重连的优化算法,在解决应用课题中的非结构稀疏问题时能始终保持高效的计算性能。... 如何高效地解决非结构网格离散访存问题一直是科学与工程计算并行算法和应用领域关注的核心热点问题之一。基于国产申威异构众核架构而设计的分布式区块重连的优化算法,在解决应用课题中的非结构稀疏问题时能始终保持高效的计算性能。通过深入分析众核架构片上的通信机制来设计高效的消息分组策略,以提高从核片上阵列带宽的利用率,同时结合无栅栏数据分发算法充分发挥国产异构众核体系架构网络的性能。通过建立性能模型与实验测试分析可知,该算法在不同访存特征下平均内存带宽能达到理论值的70%以上,与主核串行算法相比具有平均10倍和最高45倍的加速性能。同时通过对多个不同领域的应用进行测试分析也证明了该算法的普适性。 展开更多
关键词 国产众核架构 非结构网格 片上通信 消息分组 无栅栏数据分发
在线阅读 下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部