Сбой хостов ESX в одном кластере vcenter

Question

У меня есть кластер vcenter из 12 хостов ESX (ClusterA) и еще один кластер из 3 хостов ESX (ClusterB). Все они представляют собой смесь powerge r620 и r630.

На некоторых хостах есть аппаратные ошибки, которые можно увидеть в журналах iDRAC и на переднем ЖК-дисплее, например:

Ошибка проверки машины ЦП
Превышена частота исправимых ошибок памяти Как и ожидалось, это приводит к тому, что эти хосты становятся недоступными (не отвечают) в кластере.

Исправление этих аппаратных ошибок обычно включает следующие шаги:

выключение
удалить сетевые карты
включить и дождаться успешной загрузки ОС
выключение
поместите те же сетевые карты обратно в
power on Мне странно, что это исправит ошибки процессора и памяти, но это происходит постоянно.

ClusterB в порядке — проблем никогда не было. Настоящая проблема, с которой я сталкиваюсь, заключается в том, что когда я исправляю пару хостов из ClusterA, 1-3 других случайных хоста в ClusterA выходят из строя в течение дня или двух. После этих первых 1-3 сбоев, если я оставлю все в покое, хосты больше не будут падать в течение нескольких недель. Это возвращает меня к тому, с чего я начал, и я уже несколько раз наблюдал такое поведение.

Есть идеи, что проверить?

0

Похожие записи:

Добавить комментарий Отменить ответ