RAS特性
模块名称 |
特性名称 |
说明 |
---|---|---|
CPU |
CMCI(Corrected Machine Check Interrupt) |
可纠正错误触发的中断。 |
内存 |
Failed DIMM Isolation |
可标识故障内存,对故障内存进行隔离,使系统正常启动。 |
Memory Thermal Throttling |
可自动对内存温度进行调节,防止内存过热损坏。 |
|
Rank Sparing |
使用部分内存Rank做备份,及时替换发生多次可纠正错误的内存Rank,提高系统的可靠性。 |
|
Memory Address Parity Protection |
用于检测内存命令和地址错误。 |
|
Memory Demand and Patrol Scrubbing |
内存巡检功能,在发现可纠正错误时尽早纠正,可防止错误累积成不可纠正错误。 |
|
Memory Mirroring |
通过镜像的方式为系统提供较高的可靠性。 |
|
Intel SMI lane failover |
是一种SMI2接口的硬件自我修复方法,可提升系统可用性。 |
|
Intel SMI Packet Retry |
是一种SMI2接口的出错重试机制,可提升系统可靠性和可用性。 |
|
SDDC(Single Device Data Correction) |
实现单颗粒多比特纠错能力,可提高内存的可靠性。 |
|
DDDC(Double Device Data Correction) |
实现一个颗粒的错误替换后,仍然具有SDDC功能,可提升内存的可靠性和自我修复能力。 |
|
SDDC+1 |
完成一次SDDC后,内存仍可以纠正1bit错误,可提升内存可靠性和可用性。 |
|
DDDC+1 |
完成一次DDDC后,内存仍可以纠正1bit错误,可提升内存可靠性和可用性。 |
|
Device Tagging |
可对内存颗粒故障进行隔离修复,提高内存可用性。 |
|
Data Scrambling |
可优化数据流分布,降低错误发生概率,可提升内存数据流的可靠性以及地址错误检测能力。 |
|
PCIe |
PCIe Advanced Error Reporting |
是一种PCIe高级错误上报机制,可提升服务器的可服务性。 |
LER(Live Error Recovery) |
是PCIe设备的一种自我修复能力,提高服务器的可靠性。 |
|
PCI Express Hot Plug |
热插拔特性,提高PCIe设备的灵活性,提升服务器的易用性。 |
|
QPI |
Intel QPI Clock Fail Over |
是一种QPI时钟链路的自我修复方式,提高系统的可靠性。 |
Intel QPI Link Level Retry |
是一种出错重试机制,提高QPI链路的可靠性。 |
|
Intel QPI Self-healing |
是一种QPI数据链路的自我修复方式,提高系统的可靠性。 |
|
Intel QPI Protocol Protection via CRC |
为QPI数据包提供CRC校验保护,提高系统可靠性。 |
|
Intel QPI Viral Mode |
一种QPI防毒模式,防止异常数据扩散,提高系统安全性。 |
|
OS |
Core Disable For FRB(Fault Resilient Boot) |
启动过程中对故障的CPU核进行隔离,提高系统的可靠性和可用性。 |
Corrupt Data Containment Mode |
当数据发生错误时,相应的内存存储单元将会被标记出来,以限制其对当前运行的程序所造成的影响,提高系统的可靠性。 |
|
Socket disable for FRB(Fault Resilient Boot) |
启动过程中对故障的Socket进行隔离,提高系统的可靠性。 |
|
Architected Error Records |
通过eMCA等特性,由BIOS收集硬件寄存器上记录的错误信息,按照UEFI规范的格式记录下来,通过ACPI的APEI接口通知OS,定位到详细的出错单元,提示系统可用性。 |
|
Error Injection Support |
故障注入,用于各种RAS特性的验证。 |
|
MCA(Machine Check Architecture) |
是一种错误报告架构,可提升系统的可用性。 |
|
eMCA(Enhanced Machine Check Architecture):Gen1 |
增强的MCA,可提升系统的可用性。 |
|
MCA recovery-IO |
将IO的错误报告整合到MCA架构中,便于用户对IO设备的错误进行统一处理,提示系统可服务性。 |
|
OOB access to MCA registers |
带外系统可通过PECI访问MCA寄存器,当系统发生致命错误时,可由带外系统收集现场数据,便于后续问题分析定位,提高系统的可服务性。 |
|
BIOS Abstraction Layer for Error Handling |
BIOS对错误先做处理,再将错误信息按照规范上报OS和BMC,提升系统的可服务性。 |
|
BIOS-based PFA(Predictive Failure Analysis) |
由OS主导,BIOS提供内存错误物理单元信息,由OS进行错误的跟踪、预测,并进行相应的处理。 |