Prueba de MSFC failover falla en OceanStor 5500 V3 Destacado

Publicado 2019-5-13 15:30:52 24 0 0 0

En la siguiente publicación se revisa una falla que se presenta al ejecutar una prueba de MSFC (Microsoft Failover Cluster) en un OceanStor 5000 V3.

 

 

Descripción del problema


Síntoma de falla: El cliente instaló 2 nodos MicroSoft Failover Cluster (MSFC) en el almacenamiento de 5500V3 a través del enlace iSCSI. Cada nodo puede escanear con éxito los LUN, pero el progreso del escaneo es muy lento. Luego, el cliente pasó a probar la función de conmutación por error del componente, todo se pasa, excepto la conmutación por error del disco.

 

ea58c0395d0243cc935ff336808b63ab


Información de la versión: 5500 V3 V300R003C00SPC100, tarjeta SmartIO en modo 10GE eth, versión del SO Host: MicroSoft Windows 2012 Standard.

Topología de red: dos conmutadores Huawei 10GE.

 Información de alarma: Ninguna


Análisis del problema


1. Dado que el cliente ha utilizado la herramienta de verificación de clúster MicroSoft para probar la red y no se ha informado ningún error para la configuración de la red, primero debemos verificar la reserva persistente SCSI-3. La conmutación por error fallará en caso de que el nuevo nodo no pueda obtener la reserva.

Como se muestra a continuación, podemos iniciar sesión en la línea de comandos de la CLI de almacenamiento y cambiar el modo para diagnosticar, luego ejecutar el comando "scsi show reservation lun [-l LUN ID]" para consultar la reserva de LUN. Verifique el estado de la reserva SCSI y el InitiatorWWN, luego encontramos que la reserva ha cambiado del nodo host anterior al nuevo.


5a6d901cb4cd4b4eae4e5a3ba4a71519


2. Para excluir el software multipath, intentamos instalar y desinstalar el software Huawei Ultrapath, pero no funcionó.

3. Usamos hostinfo_tool de Ultrapath para juntar todos los registros del host de Windows. Verificamos el evento del sistema de Windows en systemeventlog \ System.evtx y encontramos la alarma de la siguiente manera:


3fe13d6a1b4e46b59c2f0675eee82ea7

Se intento aplicar la resolución propuesta por Microsoft sin éxito.


4. Recopilamos registros del sistema de almacenamiento para analizar si hay algo anormal en el almacenamiento. Luego descubrimos que ambos controladores tenían un gran tiempo de espera de ping en el enlace iSCSI (busque "[ERR] [Ping") como se muestra a continuación:

 

 8cdf58f8c42748da80e54a1983c7057c

 

Esto significa que dos de los enlaces iSCSI tienen algún problema.

 

Intentamos hacer ping al IP del servicio iSCSI de almacenamiento desde los hosts, todo ha pasado.

 

5. Encontramos que el cliente cambió el MTU del puerto de almacenamiento de 1500 a 9000. Por lo tanto, le pedimos al cliente que verifique si se configuró un valor de MTU incorrecto en el host o switch.

35a556653852414598655a49d0fdd3a9


 Solución


Como resultado de las pruebas anteriores, todos los puertos del switch están configurados como 9216 (máximo). Pero uno de los hosts está configurado como 1500, el otro está configurado como 9000. Después de que el cliente lo cambia de 1500 a 9000. El problema de conmutación por error se resolvió.


Pero, el cliente todavía encontró que el almacenamiento es muy lento. Por ejemplo, se tarda unos minutos en analizar el disco o el disco de conmutación por error en MSFC. Luego verificamos la configuración del host a través de una sesión remota y encontramos que el cliente habilitó "Jumbo Packet" y establecimos MTU en 9000. Finalmente, lo cambiamos a 9014 y el problema se resolvió.


 Causa principal


1. Necesitamos establecer la MTU entre el host y los puertos de almacenamiento. De lo contrario, habría una gran cantidad de reestructuración de paquetes en la red. Por ejemplo, el puerto de servicio de almacenamiento negocia MTU con el puerto del switch y el resultado es el más pequeño como 9000. Además, el puerto del host negocia con el puerto del switch y el resultado es 1500. En el caso, el almacenamiento puede responder un paquete jumbo de 9000 Byte al host. Pero el puerto del host no puede recibirlo, el paquete debe reestructurarse, esto llevará mucho tiempo y causará una latencia de IO muy alta o incluso un tiempo de espera.

 

2. El paquete Jumbo tiene un encabezado de paquete adicional de 14 bytes. Cuando el lado de almacenamiento establece MTU como 9000, debemos configurar MTU como 9014 en el host cuando se habilita el paquete Jumbo.

 

 Sugerencias

Aquí está la instalación de MSFC y el procedimiento de prueba de conmutación por error:

 

1. Systmeinfo:


88d40b52e3a54cf5aaae1b51f4016609

 

2. Administrador de discos:

ec49e1e726514e87918bb7c98403afa1


 

3. Red pública:

 2b75cdc631624eef8e676e77387c4117

 

Avanzado:

 f6871fa1e63246a68146dba01a9f884a

2029922efa8d4f62ae417027e9003b26

 

4. Red privada:

 46042363e9a94657900f8b7fd52bddc2

 

 

Avanzado:

bae0dd5a0eae44ce82e5b5c9ff5fdd36

19887214d2b0466299f1db7e3dad76f5


 

5. Crear clúster:

 085f8048edc144d2a422e11b91297370

e49ba8b7bc784b6a9bb3073fb40c5428

97641f5ffc74455b80de0adb957c0a7d

b7f8ad37cbed448a9d0f1efa41a9fcde

 

6. Pasos de prueba:

 9c48c4fe154b4a01a41f763040a28999

 9b3f8cc6396446ad841048fd8ece812d

147251372408473ea65ed954a1f8469e

339358121aff47b4973b243c62dae215

7. Evento crítico: no hay evento

f8372acdaf0143328f8c99b31743fc7b

 

8. Ping de dominio:

 9eb83752a6474acda9801902f6b25cdf

9. Haga ping en el nodo del clúster:

 5a8e1d0b79a5441fadfdc55e2d4ab990

10. Validar:

fcbe0a8afde2456a8f47d7df73fc8f96

9d6f23f454f54faca1949f56121ad46c

f992b868a6b047858ba706a9da2d71a1

69765f3c4547405cb87ac8fd644f295b

d405b31316f14030b629ca98e8a0b018



En caso de presentar algún otro problema durante la validación o implementación de la solución favor de contactar al centro de soporte para obtener mayor asistencia.


  • x
  • convención:

Responder

Responder
Debe iniciar sesión para responder la publicación Inicio de sesi | Registrarse

Aviso: Para garantizar sus legítimos derechos e intereses, la comunidad y los terceros no publicarán contenido que pueda generar riesgos legales a las partes, por ejemplo, pornografía, contenido político, contenido sobre juego, consumo y tráfico de drogas, así como contenido que viole los derechos de propiedad intelectual de terceros, por ejemplo, secretos comerciales, marcas, derechos de autor, patentes y privacidad personal. No comparta su cuenta ni su contraseña con terceros. Todas las operaciones realizadas usando su cuenta se considerarán como sus acciones y todas las consecuencias que estas acciones generen serán responsabilidad suya. Para obtener información detallada, consulte la “ Política de privacidad.”
Si el botón para adjuntar no está disponible, actualice Adobe Flash Player con la versión más reciente

¡Ingresa y disfruta de todos los beneficios para los miembros!

Aterrizaje
Respuesta rápida Desplácese hasta arriba