RAS特性
服务器支持多种RAS(Reliability, Availability, and Serviceability)特性。通过配置这些特性,服务器可以提供更高的可靠性、可用性和可服务性。
RAS特性的配置方法,详细信息请参见《华为Atlas服务器 Purley平台 BIOS 参数参考》。
模块名称 |
特性名称 |
说明 |
---|---|---|
CPU |
CMCI(Corrected Machine Check Interrupt) |
可纠正错误触发的中断。 |
内存 |
Failed DIMM Isolation |
可标识故障内存,便于对故障内存进行隔离和更换。 |
Memory Thermal Throttling |
可自动对内存温度进行调节,防止内存过热损坏。 |
|
Rank Sparing |
使用部分内存Rank做备份,避免系统因为遇到不可纠正的错误而导致的系统崩溃。 |
|
Memory Address Parity Protection |
用于检测内存命令和地址错误。 |
|
Memory Demand and Patrol Scrubbing |
内存巡检功能,在发现可纠正错误时尽早纠正,可防止错误累积成不可纠正错误。 |
|
Memory Mirroring |
通过镜像的方式为系统提供较高的可靠性。 |
|
SDDC(Single Device Data Correction) |
实现单颗粒多比特纠错能力,可提高内存的可靠性。 |
|
Device Tagging |
可对内存故障进行降级修复,提高内存可用性。 |
|
Data Scrambling |
可优化数据流分布,降低错误发生概率,可提升内存数据流的可靠性以及地址错误检测能力。 |
|
PCIe |
PCIe Advanced Error Reporting |
是一种PCIe高级错误上报机制,可提升服务器的可服务性。 |
UPI |
Intel UPI Link Level Retry |
是一种出错重试机制,提高UPI链路的可靠性。 |
Intel UPI Protocol Protection via CRC |
为UPI数据包提供CRC校验保护,提高系统可靠性。 |
|
System |
Core Disable For FRB(Fault Resilient Boot) |
BIOS启动过程中对故障的CPU core进行隔离,提高系统的可靠性和可用性。 |
Corrupt Data Containment Mode |
当数据发生错误时,相应的内存存储单元将会被标记出来,以限制其对当前运行的程序所造成的影响,提高系统的可靠性。 |
|
Socket disable for FRB(Fault Resilient Boot) |
BIOS启动过程中对故障的Socket进行隔离,提高系统的可靠性。 |
|
Architected Error Records |
通过eMCA等特性,由BIOS收集硬件寄存器上记录的错误信息,按照UEFI规范的格式记录下来,通过ACPI的APEI接口通知OS,定位到详细的出错单元,提示系统可用性。 |
|
Error Injection Support |
故障注入,用于各种RAS特性的验证。 |
|
MCA(Machine Check Architecture) |
是一种不可纠正错误的软件修复功能,可提升系统的可用性。 |
|
eMCA(Enhanced Machine Check Architecture):Gen2 |
增强的MCA,可提升系统的可用性。 |
|
OOB access to MCA registers |
带外系统可通过PECI访问MCA寄存器,当系统发生致命错误时,可由带外系统收集现场数据,便于后续问题分析定位,提高系统的可服务性。 |
|
BIOS Abstraction Layer for Error Handling |
BIOS对错误先做处理,再将错误信息按照规范上报OS,提升体统的可服务性。 |
|
BIOS-based PFA(Predictive Failure Analysis) |
由OS主导,BIOS提供内存错误物理单元信息,由OS进行错误的跟踪、预测,并进行相应的处理。 |