oem_setup_env
作者oem_setup_env·2022-09-29 17:29
技术支持·浪潮商用机器有限公司

启用内存镜像功能(AMM)以进一步提高K1 Power资源池的可靠性

字数 2602阅读 906评论 0赞 0

随着越来越多的客户采用中端 K1 Power 服务器构建 K1 Power 云以整合零散的和老旧服务器的工作负载。如果这些中端 K1 Power 服务器在已配置 FC#EM81 配备内存动态镜像功能( Active Memory Mirroring (AMM) for Hypervisor ,后简称 AMM )的情况下,我们可以通过选购并手动启用该功能以进一步提高 K1 Power 云的可靠性。(高端 K1 Power 服务器则默认自带并启用该功能,详细信息可参考本文的“ FC#EM81 配备内存动态镜像功能 / FC#EM81 Active Memory Mirroring 所支持的服务器”)

在解释什么是内存动态镜像功能之前,我们先来了解一下什么是不可修正错误处理? (Special Uncorrectable Error Handling)

K1 Power 处理器一直通过使用特殊的 ECC 代码来标记数据,并观察这些数据何时及是否实际上将被所有者 “ 使用 ” (如果数据曾经被使用过的话)。

如果数据路径中存在 ECC 并且遇到无法修正的错误,为了防止使用错误数据,必要时将终止使用这些错误数据的任何对象(至少是数据的所有者)。

因此,当内存发生不可修正的错误时,此时数据的拥有者必须被终止,从而确保数据的一致性,例如:

  • 这可能是某个 AIX 进程正在使用的用户数据,这种情况应用可能 coredump ;
  • 或者是 AIX kernel 数据,这种情况 OS 会 crash ;
  • 如果是 Hypervisor 数据,则导致物理服务器宕机。

为了解决“如果是 Hypervisor 数据,则导致物理服务器宕机”的问题,我们可以在中端 K1 Power 服务器选购并手动启用内存动态镜像功能以规避因为载入 Hypervisor 数据的内存发生故障而导致服务器宕机的情况发生。

现在,我们再来看看什么是内存动态镜像功能( AMM ) ?

K1 Power 中高端服务器提供了一种仅镜像 PowerVM Hypervisor 内存数据的方法。该方法为 Hypervisor 内存数据提供了冗余保护。一旦包含 Hypervisor 数据的内存发生故障,所有服务器操作都将继续保持工作状态, FSP 将隔离出现故障的内存。在更换故障内存之前,内存动态镜像功能( AMM )功能将不可用。系统将保持部分镜像状态,直到更换出现故障的内存。

AMM 功能的原理如下图:

FC#EM81 配备内存动态镜像功能 / FC#EM81 Active Memory Mirroring 所支持的服务器:

  • 需要选配且需要手工启用内存动态镜像功能的机型:

    • Power770
    • Power E850
    • IPS Power E850C
    • IPS K1 Power E950
    • IPS K1 Power K8850G2
  • 默认已配置且已启用内存动态镜像功能的机型:

    • Power780
    • Power E870/E870C
    • Power E880/E880C
    • IPS Power E870C
    • IPS Power E880C
    • IPS K1 Power E8880G2

需要注意的是:

  1. 该功能需要额外消耗物理服务器的内存,使用前需要综合评估物理服务器内存使用情况。比如使用前固件内存占整机内存比例为 3% ,则激活该特性后,固件内存将占整机内存 6% 。

    例如:某客户 E850C 配置了 2T 内存,目前 Hypervisor 已使用 44.5GB 内存,如开启该功能,需使用 89GB 内存,即还需要额外分配 44.5GB 内存供固件使用。

  2. 启用该功能对性能的影响非常小。虽然内存的镜像实际为完成了两次写入而稍慢一些,但由于使用了两个数据源,因此读取速度将更快。综合来讲,一般常见的商业工作负载不会因为该功能而导致性能增加或损失。但执行大量字符串操作的 HPC 工作负载可能会察觉到轻微的性能影响。(需要注意的是,在高端 K1 Power 服务器均已默认配置且已启用该功能)

如何在已配置 FC#EM81 Active Memory Mirroring 的中端 K1 Power 服务器启用该功能?

  1. 在 HMC GUI 勾选需启用该功能的 K1 Power E950 服务器,点击“操作”并选择“查看系统属性”,如下图所示:
  2. 进入“常规设置”的“高级”选项卡,并下拉页面至“内存镜像”选线卡,无启用该功能时,服务器内存镜像的页面如下图:

    注意:
    您可能已经注意到,截图中已配置 FC#EM81 Active Memory Mirroring 的 K1 Power E950 服务器在内存镜像页面中显示“ 使用内存镜像需要 Active Memory Mirroring for Hypervisor 激活码。 ”。当遇到该问题时,基本可以确认是 HMC 遇到了以下 BUG 。

    Fixed a problem that caused the message "Active Memory Mirroring for Hypervisor activation code is required to use memory mirroring." to be always shown on the GUI General Settings panel for POWER9 servers that support memory mirroring with an activation code and an activation code has already been entered.

    通过升级 HMC 版本至 HMC V9R2M950 即可解决该问题。(如果您的 HMC 版本是基于 V9R2 的话)。

    如何完成升级 HMC V9R2 版本至 HMC V9R2M950 ,您可参考以下链接:
    https://www.ibm.com/support/pages/node/6378414

  3. 将“镜像方式”的状态从“关闭”修改为“仅系统固件”,如下图所示:
  4. 重启服务器
  5. 再次进入“内存镜像”选线卡,可见当前的“系统固件镜像状态”为“已全部镜像” ,如下图所示:

启用 AMM 功能的客户案例:

  • 国内某金融行业客户已为其数十台的 K1 Power E950 服务器启用该功能以进一步提高 K1 Power 云的可靠性。

如果觉得我的文章对您有用,请点赞。您的支持将鼓励我继续创作!

0

添加新评论0 条评论

Ctrl+Enter 发表

作者其他文章

相关文章

X社区推广