[Device] CE12808S
[Version + patch] V200R001C00SPC700
Конфигурация стека по сценарию DAD Through Stack Ports.
Описание проблемы:
Физическая фаза сбоя X.0X.2022 - 21:51:03 - 21:58:07
Логическая фаза сбоя X.0X.2022 - 21:52:22 - 00:22
Согласно описанию проблемы, которое мы получили от заказчика: сбой ознаменовался падением портов на коммутаторе. Через несколько минут порты вернулись в состояние UP, стек собрался, однако сервисы восстановились только частично, работали "фрагментано". Помогла только последовательная перезагрузка обоих участников стека.
Процесс поиска и устранения проблемы:
Составлющие: 2 MPU слота (Main Processing Unit), 2 слота мониторинга CMUs (Centralized Monitoring Unit), 4 слота линейных карт (LPU) и 4 слота SFU (Switch Fabric Unit).
Судя по сбою записей в логах, физическая фаза сбоя произошла 28.06.2022 - 21:51:03 - момент, после которого система перестала получать heartbeat сообщения от слотов c 5 по 16 включительно на master (stack member 2) коммутаторе.
В 21:53:26 система сообщила о падении слота MPU 2/9:
Description : The board totally failed. (EntPhysicalIndex=34144256, EntPhysicalName=MPU slot 2/9
И, соответственно, о падении физических линков на портах Sip2/9/0/0, Sip2/9/0/1 со стороны master коммутатора и Sip1/10/0/1, Sip1/10/0/1 со стороны slave коммутатора:
Следом сообщение о конфликте IP адреса и MAC-адреса на MEth0/0/0/0, что может свидетельствовать о распаде стека: каждый из участников стека стал видеть себя мастером (master).
StartTime : 2022-06-28 16:53+05:00
Description : MAC and IP address conflict. (Conflict interface=MEth0/0/0/0, Conflict MAC address=c8XX-XXX-3200, Conflict IP address=10.XX.XXX.80, Received packet's destination MAC address=0000-0000-0000, Received packet's destination IP address=10.XX.XXX.80, Received packet's VLAN=0, Received packet's CE-VLAN=0, Input interface=MEth0/0/0/0)
По свидетельству заказчика, на соседнем маршрутизирющем устройстве была ошибка %OSPF-4-CONFLICTING_LSAID. С точки зрения конфликта IP адреса и MAC-адреса на MEth0/0/0/0 это имеет под собой основания для объснения.
Далее сообщение о физическом падении стекообразующих портов с падением портов-участников Stack-ports:
The protocol status of the dual-active port is down.(hwDadDetectPort=Stack-Port1/1)
The protocol status of the dual-active port is down.(hwDadDetectPort=Stack-Port2/1)
Запускается Dual-active сценарий:
Sequence : 146
AlarmId : 0x9A90000 AlarmName : hwDadConflictDetect
AlarmType : communication Severity : Critical State : cleared
StartTime : 2022-06-28 16:53+05:00
Description : Dual-active scenario is detected.
ClearTime : 2022-06-28 16:53+05:00
ClearType : service_resume
ClearReason : Dual-active scenario is resumed.
Коммутатор master отрабатывает no-stack-link:
Sequence : 150
AlarmId : 0x8520006 AlarmName : hwErrordown
AlarmType : communication Severity : Warning State : cleared
StartTime : 2022-06-28 16:53+05:00
Description : Error-down occurred. (Ifindex=240, Ifname=10GE2/7/0/28, Cause=no-stack-link)
ClearTime : 2022-06-28 16:53+05:00
ClearType : service_resume
ClearReason : Error-down recovered. (Ifindex=240, Ifname=10GE2/7/0/28, Cause=no-stack-link, RecoverType=manual recovery)
Порты на slave коммутаторе начинают отрабатывать по Cause=dual-active в течение следующей минуты:
Sequence : 279
AlarmId : 0x8520006 AlarmName : hwErrordown
AlarmType : communication Severity : Warning State : cleared
StartTime : 2022-06-28 16:53+05:00
Description : Error-down occurred. (Ifindex=178, Ifname=10GE1/7/0/24, Cause=dual-active)
ClearTime : 2022-06-28 16:53+05:00
ClearType : service_resume
ClearReason : Error-down recovered. (Ifindex=178, Ifname=10GE1/7/0/24, Cause=dual-active, RecoverType=manual recovery)
Судя по документации, это говорит о том, что DAD сработал исправно: коммутатор, порты которого no-stack-link “вышли из игры”, а роль мастера принял на себя первый (stack member 1) коммутатор, порты которого сработали по dual-active.
В это же время в течение последующих 20-ти секунд сообщения о потери связности со всеми слотами:
The board totally failed
В ответ на это MPU перезагружает слоты:
Reason:Board has no fast heartbeat, and reset board.(CPU Reset)
и
Reason:Reset relating to kernel, please check the dmesg and lastword(CPU Reset)
После этого, система сообщит, что все слоты успешно зарегистрировались. Физическая фаза сбоя закончилась в 21:58:07:
После этого сообщений об ошибках не поступало до 00-08, когда произошла ручная перезагрузка.
Кратко:
21:53:23 падают стековые порты, и падают SIP порты
21:53:26 MEth0/0/0/0 конфликт
21:53:26 MPU slot 2/9 - The board totally failed
21:53:27 no-link state на коммутаторе 2
21:53:28 Dual-active scenario is detected
21:53:29 dual-active на коммутаторе 1
21:53:40 все слоты - The board totally failed
21:53:40 - 21:58:00 перезагрузка слотов
21:58:40 - поднимаются стековые линки, при этом логика не поднимается.
В логах отсутствует какая-либо информация с 21:52:22 и до 00:22
Решение:
В ходе анализа было установлено, что версия ПО, установленного на коммутаторах, является ограниченной версией, и она достигла EOS (End of Service & Support), и что проблема с неожиданным отказом и перезагрузкой слотов стэка, а также последующим сбоем сервисов связана с ошибкой внутренних логических процессов, которая была исправлена в V200R001SPH020.
Рекомендация следующая: загрузить патч V200R001SPH025.
Поскольку версия V2R1 является EOS было также рекомендовано обновить версию и патч до версии V2R19C10SPC800 + SPH033.