Сбой хостов ESX в одном кластере vcenter

У меня есть кластер vcenter из 12 хостов ESX (ClusterA) и еще один кластер из 3 хостов ESX (ClusterB). Все они представляют собой смесь powerge r620 и r630.

На некоторых хостах есть аппаратные ошибки, которые можно увидеть в журналах iDRAC и на переднем ЖК-дисплее, например:

  • Ошибка проверки машины ЦП
  • Превышена частота исправимых ошибок памяти Как и ожидалось, это приводит к тому, что эти хосты становятся недоступными (не отвечают) в кластере.

Исправление этих аппаратных ошибок обычно включает следующие шаги:

  1. выключение
  2. удалить сетевые карты
  3. включить и дождаться успешной загрузки ОС
  4. выключение
  5. поместите те же сетевые карты обратно в
  6. power on Мне странно, что это исправит ошибки процессора и памяти, но это происходит постоянно.

ClusterB в порядке — проблем никогда не было. Настоящая проблема, с которой я сталкиваюсь, заключается в том, что когда я исправляю пару хостов из ClusterA, 1-3 других случайных хоста в ClusterA выходят из строя в течение дня или двух. После этих первых 1-3 сбоев, если я оставлю все в покое, хосты больше не будут падать в течение нескольких недель. Это возвращает меня к тому, с чего я начал, и я уже несколько раз наблюдал такое поведение.

Есть идеи, что проверить?

vmware-esxi vmware-vsphere dell-poweredge vmware-esx vmware-vcenter

0

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *