Всем привет!
Сезон case-sharing в самом разгаре, так что спешим поделиться с Вами очередным интересным случаем из наших трудовых будней.
Наш пользователь столкнулся с ошибкой на сервере после отключения СХД.
【Описание проблемы】
Инициатор заявки собрал кластер VMWare из 6 серверов Huawei 1288H V5, установил на гипервизоры ESXi 6.7 U3. Кластер использует ресурсы хранения СХД OceanStor 3000 V3, также в SAN сети есть OceanStor 5500 V3, ресурсы которой не используются.
После отключения СХД OceanStor 5500 V3, четыре из шести кластеров вышли из строя с PSOD, с ошибкой драйвера com.huawei.hifc:
Когда пользователь попытался собрать логи, хосты снова ушли в PSOD, после чего уже удалось собрать данные журналов и направить их для анализа.
【Анализ проблемы】
Dump_info и VMsiupport логи были получены и проанализированы.
Согласно документации VMWare ошибка Exception 13 появляется когда:
1. Запрашиваемая страница не относится к программе, которая её запросила и она не маппирована в памяти программы.
2. У программы нет прав на проведение операции записи\перезаписи.
Источник: https://kb.vmware.com/s/article/1020181
Далее проверяем совместимость драйвера и прошивки HBA:
Далее проверяем версии согласно данным на сайте VMWare:
https://www.vmware.com/resources/compatibility/detail.php?deviceCategory=io&productid=47149&vcl=true
Версия драйвера адаптера Fibre Channel Host Adapter – 1.5.0.6.
После дополнительной проверки через сервис Driver Version Mapping на сайте техподдержки Huawei стало очевидно, что версия драйвера не подходит к данной версии прошивки.
【Решение проблемы】
Ошибка была вызвана несовместимостью текущей версии прошивки FC HBA адаптера и его драйвера в ESXi. Нужно было обновить версию драйвера до совместимой.
Направили ссылку на нужный драйвер на сайте:
https://support.huawei.com/enterprise/en/software/251473382-ESW2000230103
Подтвердили, что версия прошивки не нуждается в обновлении и что нужно обновить только драйвер.
Из-за несовместимости версий, когда прошивка запрашивала определённые модули драйвера, то не находила их из-за чего происходила критическая ошибка, которая и вызывала PSOD.
После установки корректной версии драйвера, проблема была решена.
А какие проблемы при работе с серверным оборудованием приходилось решать Вам? Поделитесь своими историями в комментариях.