Error en los discos duros del servidor RH2288 V3

59 0 0 0

A continuación se describen los pasos a seguir para solucionar el mensaje error “other error” con los discos del servidor Huawei.

 

Descripción del problema

 Una alarma que indica que el disco duro no puede escribir E / S se genera aleatoriamente en el sistema operativo, y la alarma se borra después de un período de tiempo.

 Analísis del problema

1. Recoger los síntomas de falla. El error de escritura de E / S es aleatorio y no es específico de un disco duro determinado.

 

2. Ejecute el siguiente comando en la tarjeta controladora RAID del sistema operativo para consultar la información de la alarma. Se ha encontrado que el número de Otros errores en la cuenta es alto. En este caso, es necesario el análisis de los registros de BMC y OS.

./MegaCli64 –PDList –aALL | grep “Other Error”

 

download?uuid=614231ffee7843eabbad8ffa19

3. Recolecta los registros BMC y OS.

 

      3.1. De acuerdo con el SEL registrado en los registros de BMC, el servidor no imprimió ninguna información anormal del disco.

 

      3.2. Busque otro error en los archivos inteligentes en el directorio del disco del registro del sistema operativo. Hay 10 discos duros con estadísticas incorrectas.

 

 download?uuid=2997787565fd4ed9bb9ebe645e

 

3.3 Localice el archivo sasraidlog en el directorio raid en el registro del sistema operativo (los nombres de los archivos de registro varían según los modelos de tarjeta controladora RAID). El registro muestra que varios discos duros y la placa posterior del disco duro han generado algunos registros de tiempo de espera de E / S.

 

 download?uuid=5ca1981f8f474fbdbff8e78b82

 3.4. Recopile el registro del sistema operativo un día después para verificar el recuento de otros errores de los discos duros. Se ha encontrado que el valor del recuento de otros errores sigue aumentando rápidamente.

 

download?uuid=352c1ecb09bb44048004f3f0a0 

4. Reemplace la placa posterior del disco duro (blackplane), la tarjeta controladora RAID y el cable SAS.

 

 

 Causa principal

La comunicación entre el disco duro y el sistema es anormal porque el enlace SAS no funciona correctamente. Esto da como resultado un tiempo de espera de entrega de comando de E / S y un gran valor de Otros errores en la cuenta.

 

 Solución

1.”Other error” es causado por el reinicio del disco duro debido al tiempo de espera de IO en el enlace SAS.

 

2. Se recomienda que recoja el recuento “Other error” dentro de un período específico. Para los servidores con un alto incremento en el recuento de otros valores, se recomienda reemplazar el plano posterior del disco duro, los cables SAS y la tarjeta controladora RAID.


  • x
  • convención:

Responder

Responder
Debe iniciar sesión para responder la publicación Inicio de sesi | Registrarse

Aviso: Para garantizar sus legítimos derechos e intereses, la comunidad y los terceros no publicarán contenido que pueda generar riesgos legales a las partes, por ejemplo, pornografía, contenido político, contenido sobre juego, consumo y tráfico de drogas, así como contenido que viole los derechos de propiedad intelectual de terceros, por ejemplo, secretos comerciales, marcas, derechos de autor, patentes y privacidad personal. No comparta su cuenta ni su contraseña con terceros. Todas las operaciones realizadas usando su cuenta se considerarán como sus acciones y todas las consecuencias que estas acciones generen serán responsabilidad suya. Para obtener información detallada, consulte la “ Política de privacidad.”
Si el botón para adjuntar no está disponible, actualice Adobe Flash Player con la versión más reciente

¡Ingresa y disfruta de todos los beneficios para los miembros!

Aterrizaje
Respuesta rápida Desplácese hasta arriba