书合文秘网 - 设为首页 - 加入收藏
当前位置 首页 > 范文大全 > 公文范文 >

高性能计算机可靠性现状与发展趋势研究

作者: 浏览数: 关键词: 发展趋势 高性能 可靠性 现状 计算机

[摘 要] 随着我国高性能计算机系统性能的不断提升,如何更好的保障高性能计算机系统运行的精确性成为当前研究的重要问题,尤其体现在现行计算机研制过程中。为此,研究探讨高性能计算机可靠性现状与发展趋势相关问题,首先从高性能计算机可靠性现状分析出发,包括避错技术、静态冗余、动态冗余以及在线替换,然后对高性能计算机未来发展趋势从多核处理器的可靠性设计、增强的全方位内存防护技术以及刀片式架构的发展三个方面进行了深入的分析。其写作的主要目的在于为今后高性能计算机更好的发展奠定一个具有参考价值的文献基础。

[关键词] 高性能计算机;可靠性;发展趋势

doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016 . 03. 102

[中图分类号] TP302 [文献标识码] A [文章编号] 1673 - 0194(2016)03- 0193- 01

1 高性能计算机可靠性现状分析

1.1 避错技术

避错技术是指通过正确的设计及人为质量控制的方式最大程度上避免系统性故障和减轻计算机系统器件失效的问题。其中,计算机系统器件主要和计算机质量等级、使用的周边环境及温度、电路规模、封装复杂度等等因素有着密切的联系[1]。通过实践经验及查阅相关的文献发现,避错技术主要可以通过耐环境设计、热设计、降额设计、元器件控制等等方面实现。另外,需要特别注意的是,高性能计算机的可靠性设计需要尽可能的选取一些可靠的器件,例如高集成度的器件,并减少器件的数量[2]。

1.2 静态冗余

静态冗余也称为故障屏蔽技术,主要是在计算机系统故障的前提之下,通过硬件冗余以及信息冗余的方式在系统故障发挥效应之前消除其不良影响。在当前高性能计算机的可靠性设计中,故障屏蔽技术被广泛的运用其中。一般而言,静态冗余主要包括了[3]部件冗余、数据通路冗余、信息冗余。其中,数据通路冗余在一定意义上也是一种部件冗余。信息冗余主要是通过在数据中附加冗余的信息,从而实现故障检测的目的。

1.3 动态冗余

动态冗余是一种采取标准模块完成相关的配置工作,一旦检测及诊断出故障发生的位置,计算机系统就可以很好的对其进行重组或者是完成恢复工作,保障计算机正常的运行。动态冗余主要包括了故障检测与诊断、重组技术、恢复技术。其中,故障检测与诊断的作用是为了确保计算机系统是否存在故障,不但可以脱机运行,也可以联机运行。联机运行检测与诊断可以尽可能的提升计算机系统的可靠度,激活动态冗余。重组技术作为动态冗余的重要实现步骤,可以有效的防止计算机系统失效而产生的各种负面影响。例如,当检测出不可恢复性的系统故障时,借助于系统备用的部件来代替故障的部件,就可以消除系统性故障导致计算机运行中断的问题。恢复技术主要解决瞬态故障,是检测到瞬态可恢复故障时,采用针对性的措施实现计算机系统运行的重要环节。

2 未来发展趋势分析

2.1 多核处理器的可靠性设计

随着计算机处理器集成度的提升、半导体硅尺寸逐渐缩小的进程中,由于计算机处理器而产生的故障越来越多,大体上包括硬错和软错两个大的方面。另外,由于多核处理器具有多核间共享部件的问题,一个核的软错误往往会传递到其他核中,为此多核处理器的软错误更为严重。针对这种现象,迫切需要加强多核处理器的可靠性设计,基本的方向包括双核锁步执行、微回卷、冗余执行、芯片级冗余多线程技术等等。另外,高性能计算机中多核处理器的运用,在可靠性方面的挑战与机遇是并存的,后期需要加强高性能计算机硬件容错技术的研发工作,保障高性能计算机系统正常的运行。

2.2 全方位增强内存防护技术

就目前来看,内存故障在高性能计算机系统故障中占据的比例较高,需要加强内存方面的故障防护技术研发工作。针对内存的软错及硬错,可以综合参考各种存储器容错技术来提升内存的可靠性,例如通过加固存储器的连接来实现电气和机械的可靠性。此外,部分高性能计算机设计的过程中,还可以借助于内存清洗、内存备件以及内存镜像等等方式完成处理器的可靠性设计技术。

2.3 刀片式架构的发展

刀片式服务器泛指在标准高度的架势机箱内插装多个卡式的服务器单元板,是基于实现高可靠和高密度的高性能服务器。在刀片式架构中,通常采用的是模块化的冗余结构,实现风扇、电源、网络、背板等等关键性系统部件的冗余,进而消除单点故障,保障高性能计算机系统的正常运行。

3 结 语

随着我国高性能计算机系统性能的不断提升,如何更好的保障高性能计算机系统精确的运行成为了当前研究的重要问题,尤其体现在现行计算机研制过程中。一旦发生故障而使系统无法工作,将会造成重大经济或军事损失。为此,本文研究探讨高性能计算机可靠性现状与发展趋势相关问题,首先从高性能计算机可靠性现状分析出发,然后对高性能计算机未来发展趋势进行了深入的分析。其写作的主要目的在于为今后高性能计算机更好的发展奠定一个具有参考价值的文献基础。

主要参考文献

[1]王俊超,彭涛,冯光柳.曙光高性能计算机在数值预报模式中的应用[J].计算机技术与发展,2014(10):178-181.

[2]梁瑞虹.探讨高性能计算机的可靠性技术与发展趋势[J].网络安全技术与应用,2014(10):187-189.

[3]张军华,臧胜涛,单联瑜,等.高性能计算的发展现状及趋势[J].石油地球物理勘探,2010(6):918-925.

相关文章:

Top