RH2288 V3 Errores de unidad en VMware ESXi

37 0 0 0

•Descripción del problema:


Los errores de E/S de unidad se notifican en 9 de más de 30 servidores en un sitio de cliente. Según los ingenieros de VMware, los errores de unidad se informan para los dispositivos Huawei, pero no hay ningún indicador rojo en errores.0x4 0x8 0x5

201x-0x-23T19:29:45.889Z cpu29:33176)ScsiDeviceIO: 2652: Cmd(0x43c10588b380) 0x12, CmdSN 0xd88067 de mundo 0 a desarrollo "naa.50000397a853b13d" falló H:0x0 D:0x2 P:0x0 Datos de detección válidos: 0x4 0x8 0x5.

201x-0x-23T19:29:45.891Z cpu29:33176)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x12 (0x43c10588b380, 0) para dev "naa.50000397a853a2d9" en la ruta "vmhba4:C0:T0:L0" Error: H:0x0 D:0x2 P:0x0 Datos de detección válidos: 0x4 0x8 0x5. Acto:NONE

201x-0x-23T19:29:45.891Z cpu29:33176)ScsiDeviceIO: 2652: Cmd(0x43c10588b380) 0x12, CmdSN 0xd8806d del mundo 0 al desarrollo "naa.50000397a853a2d9" falló H:0x0 D:0x2 P:0x0 Datos de detección válidos: 0x4 0x8 0x5.

201x-0x-23T19:34:45.893Z cpu26:42778)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x12 (0x43c08e6284c0, 0) para dev "naa.50000397a853b13d" en la ruta "vmhba4:C0:T1:L0" Error: H:0x0 D:0x2 P:0x0 Datos de detección válidos: 0x4 0x8 0x5. Acto:NONE

201x-0x-23T19:34:45.893Z cpu26:42778)ScsiDeviceIO: 2652: Cmd(0x43c08e6284c0) 0x12, CmdSN 0xd8809f del mundo 0 al desarrollo "naa.50000397a853b13d" falló H:0x0 D:0x2 P:0x0 Datos de detección válidos: 0x4 0x8 0x5.


•Análisis de problemas:


1. Análisis de VMware ESXi:

Códigos de detección SCSI en VMware ESXi y ESX: Kb.vmware.com/kb/289902

Los códigos de estado SCSI registrados en los registros ESXi indican que la E/S ha fallado con un estado determinado. Esta condición puede ser temporal, transitoria, benigna o fatal para cualquier carga de trabajo determinada, dependiendo del estado recibido.

Las claves de detección SCSI aparecen en los datos de detección disponibles cuando un comando vuelve con un estado CHECK CONDITION. La clave de detección contiene toda la información necesaria para entender por qué el comando ha fallado.

Nombre del código

0h NO SENSE1h ERROR RECUPERADO

2h NO READY3h MEDIO ERROR

4h ERROR DE HARDWARE

5h SOLICITUD ILEGAL

6h ATENCION DE UNIDAD

7h PROTECCIÓN DE DATOS

8h BLANK CHECK

9h VENDOR SPECIFIC

Ah COPY ABORTED

BH ABORTED COMMAND

DH VOLUME OVERFLOW

Eh MISCOMPARE

Los números hexadecimales en la documentación T10 utilizan la notación NNNh, mientras que los códigos de estado SCSI registrados en el host ESX utilizan la notación 0xNNN equivalente; por ejemplo, 0x2 a 02h.

Cuando el host envía comandos al dispositivo de almacenamiento, se devuelven los códigos de detección anteriores. De acuerdo con los códigos de detección recibidos por ESXi, se puede determinar que el error es causado por el hardware de almacenamiento, pero no se puede determinar si las unidades son defectuosas. El comando 0x12 solicita información de página de datos vitales del producto (VPD) del LUN, incluido el número de serie de la unidad (página 0x80), un número de identificación del dispositivo (página 0x83) y la dirección de red de administración (página 0x85). Para obtener más información, visite:https://kb.vmware.com/s/article/1010244

Incluso si los dispositivos SCSI no admiten cierta información solicitada por 0x12, el código de detección devuelto debe ser 0x5 (solicitud no válida) en lugar de 0x4 (error de hardware).

2. Análisis de registros:

Las dos unidades de cada servidor funcionan en modo de paso a través. Uno se utiliza para instalar el sistema operativo y el otro no tiene ningún dato. Se notifican errores para las dos unidades y las otras unidades son normales.

093919p3dh1j7m2fij44u2.png?2.PNG

Análisis de código de error

093942f43m4ym0wfe1mkwf.png?3.PNG

093958cztzsw0bf0nkkv90.png?4.PNG

094008ktdzl9y4z6934w0j.png?5.PNG


Caso: https://kb.vmware.com/s/article/289902#q=289902According al documento estándar SCSI, 0x12 indica el comando INQUIRY, que se utiliza para consultar información básica sobre dispositivos SCSI.

094041dcy3ceu7ym8gwc11.png?image.png

3. Análisis por parte del proveedor de la unidad

Las unidades de destino son discos duros Toshiba AL14SE de 600 GB. El análisis de Toshiba es el siguiente:

Según un análisis adicional de los registros, el código de error 0x4 no se registra.

Según el registro del sistema, 0x4, 0x8 y 0x5 son los códigos de error devueltos por el comando de consulta 0x12. Sin embargo, se confirma que la respuesta del comando se devuelve incluso cuando las unidades están en el estado no listo.

Cuando el host envía el comando INQUIRY, el valor del estado del dispositivo es 0x2 (CHECK_CONDITION).

Según la guía del usuario de la unidad, CHECK_CONDITION se notifica en tres escenarios. Uno de ellos es el error de hardware de la unidad, pero las unidades son normales en función del análisis.

Otro escenario es que los parámetros del comando 0x12 son incorrectos.

Por lo tanto, los parámetros en el comando 0x12 necesitan ser marcados.

Es probable que el problema sea causado por este escenario.

Las unidades son normales y las operaciones de lectura y escritura no se ven afectadas.

094333ausz5xs6yh58cayl.png?6.PNG

•Conclusión y solución


Conclusión:No se han encontrado errores de hardware. Se recomienda que el cliente se ponga en contacto con VMware para comprobar si los errores se notifican por error.

Solución:Reemplazar las unidades. Se sospecha que los errores se informan por error.


  • x
  • convención:

Responder

Responder
Debe iniciar sesión para responder la publicación Inicio de sesión | Registrarse

Aviso: Para garantizar sus legítimos derechos e intereses, la comunidad y los terceros no publicarán contenido que pueda generar riesgos legales a las partes, por ejemplo, pornografía, contenido político, contenido sobre juego, consumo y tráfico de drogas, así como contenido que viole los derechos de propiedad intelectual de terceros, por ejemplo, secretos comerciales, marcas, derechos de autor, patentes y privacidad personal. No comparta su cuenta ni su contraseña con terceros. Todas las operaciones realizadas usando su cuenta se considerarán como sus acciones y todas las consecuencias que estas acciones generen serán responsabilidad suya. Para obtener información detallada, consulte la “ Política de privacidad.”
Si el botón para adjuntar no está disponible, actualice Adobe Flash Player con la versión más reciente

¡Ingresa y disfruta de todos los beneficios para los miembros!

Aterrizaje
Respuesta rápida Desplácese hasta arriba