Хорошо

Неожиданная перезагрузка слотов стэка CloudEngine 12800. Две фазы сбоя

126 0 5 0 0

slot

[Device] CE12808S

[Version + patch] V200R001C00SPC700

Конфигурация стека по сценарию DAD Through Stack Ports.

Описание проблемы:

  1. Физическая фаза сбоя X.0X.2022 - 21:51:03 - 21:58:07 

  2. Логическая фаза сбоя  X.0X.2022 - 21:52:22 - 00:22


Согласно описанию проблемы, которое мы получили от заказчика: сбой ознаменовался падением портов на коммутаторе. Через несколько минут порты вернулись в состояние UP, стек собрался, однако сервисы восстановились только частично, работали "фрагментано". Помогла только последовательная перезагрузка обоих участников стека.


Процесс поиска и устранения проблемы:

 

Составлющие: 2 MPU слота (Main Processing Unit), 2 слота мониторинга CMUs (Centralized Monitoring Unit), 4 слота линейных карт (LPU) и 4 слота SFU (Switch Fabric Unit).

 

slot

 

 

slot

 

 

Судя по сбою записей в логах, физическая фаза сбоя произошла 28.06.2022 - 21:51:03  - момент, после которого система перестала получать heartbeat сообщения от слотов c 5 по 16 включительно на master (stack member 2) коммутаторе.


slot

 

В 21:53:26 система сообщила о падении слота MPU 2/9:

              

Description : The board totally failed. (EntPhysicalIndex=34144256, EntPhysicalName=MPU slot 2/9

И, соответственно, о падении физических линков на портах Sip2/9/0/0, Sip2/9/0/1 со стороны master коммутатора и Sip1/10/0/1, Sip1/10/0/1 со стороны slave коммутатора:


slot

 

Следом сообщение о конфликте IP адреса и MAC-адреса на MEth0/0/0/0, что может свидетельствовать о распаде стека: каждый из участников стека стал видеть себя мастером (master).

 

StartTime   : 2022-06-28 16:53+05:00              

Description : MAC and IP address conflict. (Conflict interface=MEth0/0/0/0, Conflict MAC address=c8XX-XXX-3200, Conflict IP address=10.XX.XXX.80, Received packet's destination MAC address=0000-0000-0000, Received packet's destination IP address=10.XX.XXX.80, Received packet's VLAN=0, Received packet's CE-VLAN=0, Input interface=MEth0/0/0/0)


По свидетельству заказчика, на соседнем маршрутизирющем устройстве была ошибка %OSPF-4-CONFLICTING_LSAID. С точки зрения конфликта IP адреса и MAC-адреса на MEth0/0/0/0 это имеет под собой основания для объснения.

 

Далее сообщение о физическом падении стекообразующих портов с падением портов-участников Stack-ports:

 

The protocol status of the dual-active port is down.(hwDadDetectPort=Stack-Port1/1)

The protocol status of the dual-active port is down.(hwDadDetectPort=Stack-Port2/1)

slot

 

Запускается Dual-active сценарий:

 

Sequence    : 146      

AlarmId     : 0x9A90000             AlarmName : hwDadConflictDetect                                            

AlarmType   : communication         Severity  : Critical         State : cleared

StartTime   : 2022-06-28 16:53+05:00              

Description : Dual-active scenario is detected.

ClearTime   : 2022-06-28 16:53+05:00              

ClearType   : service_resume     

ClearReason : Dual-active scenario is resumed.

 

Коммутатор master отрабатывает no-stack-link:

 

Sequence    : 150      

AlarmId     : 0x8520006             AlarmName : hwErrordown                                                    

AlarmType   : communication         Severity  : Warning          State : cleared

StartTime   : 2022-06-28 16:53+05:00              

Description : Error-down occurred. (Ifindex=240, Ifname=10GE2/7/0/28, Cause=no-stack-link)

ClearTime   : 2022-06-28 16:53+05:00              

ClearType   : service_resume     

ClearReason : Error-down recovered. (Ifindex=240, Ifname=10GE2/7/0/28, Cause=no-stack-link, RecoverType=manual recovery)

 

 

Порты на slave коммутаторе начинают отрабатывать по Cause=dual-active в течение следующей минуты:

 

Sequence    : 279      

AlarmId     : 0x8520006             AlarmName : hwErrordown                                                    

AlarmType   : communication         Severity  : Warning          State : cleared

StartTime   : 2022-06-28 16:53+05:00              

Description : Error-down occurred. (Ifindex=178, Ifname=10GE1/7/0/24, Cause=dual-active)

ClearTime   : 2022-06-28 16:53+05:00              

ClearType   : service_resume     

ClearReason : Error-down recovered. (Ifindex=178, Ifname=10GE1/7/0/24, Cause=dual-active, RecoverType=manual recovery)

 

Судя по документации, это говорит о том, что DAD сработал исправно: коммутатор, порты которого no-stack-link “вышли из игры”, а роль мастера принял на себя первый (stack member 1) коммутатор, порты которого сработали по dual-active.


slot

slot

 

В это же время в течение последующих 20-ти секунд сообщения о потери связности со всеми слотами:

The board totally failed

slot



В ответ на это MPU перезагружает слоты:

 

Reason:Board has no fast heartbeat, and reset board.(CPU Reset)

и

Reason:Reset relating to kernel, please check the dmesg and lastword(CPU Reset)

 

После этого, система сообщит, что все слоты успешно зарегистрировались. Физическая фаза сбоя закончилась в 21:58:07:


slot

 

После этого сообщений об ошибках не поступало до 00-08, когда произошла ручная перезагрузка.

 

 

Кратко:


21:53:23 падают стековые порты, и падают SIP порты

21:53:26 MEth0/0/0/0 конфликт

21:53:26 MPU slot 2/9 - The board totally failed

21:53:27 no-link state на коммутаторе 2

21:53:28 Dual-active scenario is detected

21:53:29 dual-active на коммутаторе 1

21:53:40 все слоты - The board totally failed

21:53:40 - 21:58:00  перезагрузка слотов

21:58:40 - поднимаются стековые линки, при этом логика не поднимается.


В логах отсутствует какая-либо информация с 21:52:22 и до 00:22 



Решение:

В ходе анализа было установлено, что  версия ПО, установленного на коммутаторах, является ограниченной версией, и она достигла EOS (End of Service & Support), и что проблема с неожиданным отказом и перезагрузкой слотов стэка, а также последующим сбоем сервисов связана с ошибкой внутренних логических процессов, которая была исправлена в V200R001SPH020.

 

Рекомендация следующая: загрузить патч V200R001SPH025.

Поскольку версия V2R1 является EOS было также рекомендовано обновить версию и патч до версии V2R19C10SPC800 + SPH033.


  • x

Комментарий

Выполните вход в систему, чтобы ответить на пост. Вход | Регистрация
Отправить

Внимание! В целях защиты правовых интересов Вас, сообщества и третьих лиц, не публикуйте любой материал, содержащий политические высказывания, порнографию, упоминание азартных игр, употребление наркотиков, а также материал, нарушающий коммерческую тайну или содержащий персональные данные пользователей. Также не предоставляйте данные от вашей учетной записи. Вы будете нести ответственность за все действия, выполняемые под вашим аккаунтом. Подробная информация: “Пользовательское соглашение.”

My Followers

Авторизуйтесь и пользуйтесь всеми преимуществами участника!

Вход

Заблокировать
Вы уверены, что хотите заблокировать этого пользователя?
Пользователи из вашего черного списка не могут комментировать ваши посты, не могут упоминать вас, не могут отправлять личные сообщения.
Напоминание
Пожалуйста, привяжите свой мобильный номер чтобы получить бонус за приглашение.
О защите информации
Благодарим за использование Huawei ICT Club! Мы хотим рассказать вам о том, как мы собираем, используем и храним ваши данные. Пожалуйста, внимательно ознакомьтесь с Политикой конфиденциальности и Пользовательским соглашением.