Alarma de alta temperatura generada en una unidad SATA en VMware Destacado

32 0 1 0

Alarma de alta temperatura generada en una unidad SATA en VMware

 

Información básica

  

Fuente original del problema: RH2288H V2

 

Producto previsto: Todos los servidores

 

Configuración de hardware: servidor universal equipado con la tarjeta controladora RAID SAS2308 LSI y unidades SATA

 

OS: VMware

 

Descripción del problema

 

1. En el sitio de un cliente, VMware 5.5u2 se instaló en un servidor RH2288H V2. En los registros del sistema operativo, se generó una alarma de alta temperatura del disco, como se muestra en la Figura 5-445.

2. Use un comando para verificar el problema del disco duro. El resultado de la consulta mostró que el valor de la temperatura del variador era 171 (el valor variaba con la temperatura real), como se muestra en la Figura 5-446.

3. El IBM VIX VM instalado en VMware determinó que el disco duro se estaba sobrecalentando y lo eliminó del sistema de archivos compartido.

095145af9rqnbcosb5sd99.png?image.png

 

Figura 5-445 Alarma de sobrecalentamiento de una unidad

 

095155zk851xmc14crr4jk.png?image.png

Figura 5-446 Comprobación del problema de la unidad

 

Proceso clave y análisis de la causa

1. Análisis del valor de lectura de la temperatura del variador como 171:

 

SMART en la especificación del protocolo SATA se muestra en la Figura 5-447, en donde, ATA8-ACS especifica el SMART, pero el protocolo solo proporciona la arquitectura SMART, y el contenido específico es definido por varios fabricantes de discos duros. Por lo tanto, el contenido varía.

 

En otras palabras, el protocolo SMART solo especifica la arquitectura y proporciona el rango del espacio de direcciones. Cada fabricante de discos duros personaliza el contenido escrito en este rango.

 095300xwo8vkvhoco7myd9.png?image.png

Figura 5-447 SMART

 

Lectura de información SMART: el contenido leído y el formato de impresión pueden diferir según las herramientas o los sistemas operativos.

 

  • La Figura 5-448 muestra la información SMART leída en VMware. Solo se incluyen tres elementos de la información.

  • La Figura 5-449 muestra la información INTELIGENTE leída en SUSE. Se proporciona información más detallada. En donde, el valor bruto (Raw-value) es la temperatura real del variador, y el valor (value) es el valor calculado de la temperatura. El valor varía con las definiciones de diferentes fabricantes. El producto de Hitachi muestra el valor calculado, pero el producto de Seagate muestra el valor bruto.

 095311jxtxtfw4tpfpfx2w.png?image.png

Figura 5-448 Información SMART leída en VMware

 095318e36ir6omxe5smoue.png?image.png

Figura 5-449 Información SMART leída en SUSE

 

2. Detección de hardware del servidor:

 

a. Verifique el hardware del servidor RH2288H V2. No se encontró ninguna falla de hardware.

 

 095336huueao55sjaajl77.png?image.png

095348gnl9afqf9na0az0k.png?image.png

095413orjzrwdpb697756g.png?image.png



b. Utilice el sistema de detección de Huawei Toolkit (núcleo SUSE 11.3) para leer la temperatura de la unidad. La temperatura real de la unidad es de 28 grados, la temperatura histórica más baja es de 20 grados y la temperatura histórica más alta es de 41 grados, que están todas dentro del rango normal.

Por lo tanto, no existe un problema de sobrecalentamiento real en el disco duro, pero el sistema operativo lee la información de temperatura de manera anormal.

 095426x9j8o9fjhtfizjoc.png?image.png

3. Análisis de alarma de temperatura del disco VMware:

 

a. Descripción de la especificación SMART para unidades SATA

Hay explicaciones detalladas de Valor, Peor y Umbral para unidades SATA en las especificaciones SMART del disco duro. En el ítem The problems with S.M.A.R.T., hay una explicación para el valor umbral o threshold value es 0:

 

En la información SMART, Threshold=0 es un umbral. Se determina que el disco está defectuoso solo cuando Value y Worst es menor que 0. Es decir, los fabricantes de discos duros no desean establecer este umbral, y el Threshold=0 en cualquier caso no se alcanzará.

 

También se menciona que la temperatura general del disco duro es monitoreada por fabricantes externos de hardware. En los servidores de Huawei, hay sensores que controlan la temperatura.

 

Threshold (byte): el valor límite (falla) para el atributo.

 

Value (byte): la "salud" relativa actual del atributo. Este número se calcula mediante el algoritmo, utilizando los datos sin procesar. En un disco duro nuevo, este número es alto (un máximo teórico, por ejemplo, 100, 200 o 253) y disminuye durante la vida útil del disco.

 

Worst (byte): el peor valor (más pequeño) encontrado en la vida útil anterior del disco duro.

 

Además, el valor umbral es 0 para muchos atributos críticos. Debido a que el Valor no se puede disminuir por debajo de 0, estos atributos nunca indicarán ningún signo de falla, incluso si "quieren" hacer esto. S.M.A.R.T. nunca alertará.

 

b. Causa del error de VMware:

En la base de conocimientos del sitio web oficial de VMware, hay una explicación para este problema. Cuando el valor es mayor que el umbral, la herramienta VMware determina que existe una falla. Sin embargo, la especificación SMART real determina que existe una falla cuando el Valor es menor que el Umbral.

 

Es decir, el método de determinación de las especificaciones SMART para discos duros SATA es diferente del de la herramienta VMware, lo que genera la alarma actual.

 

c. Causa de ningún error informado por las unidades SAS:

La especificación SMART para unidades SAS es diferente de la de las unidades SATA. Para unidades SAS, Threshold=NA indica que no hay umbral establecido. Por lo tanto, no hay error de unidad independientemente de la determinación.

 

Enlace para una explicación detallada:

 

Base de conocimiento en el sitio web oficial de VMware:

 

Conclusión:

 

El método de determinación de las especificaciones SMART para discos duros SATA es diferente del de la herramienta VMware, lo que genera la alarma actual.

 

Solución:

 

Esta alarma no afecta las aplicaciones de servicio. En la actualidad, VMware está desarrollando un parche para resolver este problema. Posteriormente, el sitio web oficial de VMware proporcionará una explicación correspondiente en la base de conocimiento.

 

Este problema aparece cuando se usa una tarjeta controladora RAID SAS2308 LSI y el disco duro se usa como una transferencia directa. Si se configura una matriz RAID o se utiliza la tarjeta controladora RAID SAS2208 LSI, VMware no puede obtener directamente la información SMART del disco duro y, por lo tanto, esta alarma no se genera.


  • x
  • convención:

Responder

Responder
Debe iniciar sesión para responder la publicación Inicio de sesión | Registrarse

Aviso Aviso: Para garantizar sus legítimos derechos e intereses, la comunidad y los terceros no publicarán contenido que pueda generar riesgos legales a las partes, por ejemplo, pornografía, contenido político, contenido sobre juego, consumo y tráfico de drogas, así como contenido que viole los derechos de propiedad intelectual de terceros, por ejemplo, secretos comerciales, marcas, derechos de autor, patentes y privacidad personal. No comparta su cuenta ni su contraseña con terceros. Todas las operaciones realizadas usando su cuenta se considerarán como sus acciones y todas las consecuencias que estas acciones generen serán responsabilidad suya. Para obtener información detallada, consulte la “ Política de privacidad.”
Si el botón para adjuntar no está disponible, actualice Adobe Flash Player con la versión más reciente
¡Ingresa y disfruta de todos los beneficios para los miembros!

¡Ingresa y disfruta de todos los beneficios para los miembros!

Aterrizaje