硬件RAID控制器缓存电池故障频率/寿命?

Modified on: Wed, 01 May 2019 20:40:02 +0800

我所在的环境中包含许多配备Supermicro服务器/www.adaptec.com/en-us/products/"rel =“nofollow noreferrer”> Adaptec 和LSI MegaRAID硬件RAID控制器。这些控制器包含电池供电的缓存模块,有助于提高写入性能并保护传输中的数据。

频繁的支持问题是RAID控制器电池故障。这会将阵列从回写转换为直写模式。由于系统运行时写入速度降低,因此显然会对性能产生负面影响。这种情况持续存在,直到可以建立停机时间窗口为系统供电并更换电池。

这对我们来说是一项非常常规的操作;在几千台物理服务器上几乎每周 ......我们甚至还有充电站来准备更换电池,以便可以在没有充电周期的情况下进行交换。

也许我被HP ProLiant服务器和Smart Array RAID控制器,但HP系统的电池寿命通常为4 - 6年。他们最终在2009年左右消除了RAID电池的使用。它们被超级电容器支持的内存模块(闪存支持的写缓存或FBWC)取代,不需要更换,处理或冗长的初始充电周期。

由于我看到Adaptec和LSI控制器电池故障有时会发生在已经服用 12个月的系统上,我想知道这是否在其他环境中很常见。

如果这很常见,其他大型服务器环境如何处理这个?

  • 处理RAID电池更换的任何提示或技巧?
  • 是否有任何配置参数可以提供帮助?
  • 环境中的操作有多么具有破坏性?
  • 底盘冷却和温度不好是一个因素吗?
  • 我们做错了吗?
  • Dell PERC控制器由LSI制造。戴尔环境的电池续航时间是否相同?

LSI产品文献概述了新一代电池的使用寿命可超过1年。

HP ProLiant DL585 G2服务器,具有1000多天的正常运行时间和令人满意的RAID电池......

# uptime 
 05:38:08 up 1031 days, 44 min, 31 users,  load average: 0.49, 0.64, 0.99

# hpacucli
   Cache Board Present: True
   Cache Status: OK
   Accelerator Ratio: 50% Read / 50% Write
   Total Cache Size: 512 MB
   Battery Pack Count: 1
   Battery Status: OK
作者:,ewwhite

最佳答案

我怀疑你的Supermicros是这样或那样的 - 可能是电池组过热了。最近的LSI会通过MegaCLI报告温度 - 您可能希望在需要更换的服务器上监控此值。

root@host:~/SOLARIS# ./MegaCli -AdpBbuCmd -GetBbuStatus -aALL

BBU status for Adapter: 0

BatteryType: BBU
[...]
Temperature: 41 C

我见过几款带有LSI BBU控制器的戴尔和富士通系统,它们都没有更换电池组(除了你通过深度放电拧紧了电池组)。典型的生命周期大约是3到5年。

作者:,the-wabbit

相关问答

添加新评论