Errores DIMM en un servidor CH121 V3

Pubilicado 2019-3-1 18:00:04 29 0 0 0

【 Descripción del problema 】

    

El BMC del servidor CH121 V3 informó DIMM020 y DIMM030 errores de memoria incorregibles.


【 Análisis de problemas 】

  Análisis del registro SEl: los registros SEL indican que se produjeron errores irrecuperables en DIMM020 y DIMM030, lo que resultó en ERROR de CPU CAT y desglose del servidor.

    

110059be33w0lwmh58wzeh.png

    

    Análisis de registro FDM: los registros FDM indican que se produjo un error de paridad de dirección y comando DDR4 (CAP) en el canal de memoria 1 de la CPU 0.

 

110317bwgvdozjrd5d155i.png

             

Además, los errores del temporizador de vigilancia CBO TOR_TIMEOUT y MLC (3-Strike) también ocurrieron en DIMM000, DIMM010, DIMM020 y DIMM030.

           

110448swobsjomxj77wbfy.png

110451zxsxfubu99l0xie8.png

                              

110455vfm88rihxylninp4.png

                             

110459nys7mni8t1llz8y7.png


Entre DIMM010, DIMM011 y DIMM012 en el canal de memoria 1 de la CPU 0, solo se detectó DIMM010.

110748uowzololulo5w2io.png



Cuando se produce un error de CAP en la memoria DDR4, el controlador de memoria volverá a intentar procesar los datos relacionados con el error. Durante el reintento, el controlador de memoria bloquea todas las operaciones de memoria en el controlador durante un período. Para un solo error de CAP, el controlador de memoria puede obtener datos correctos por reintento y el tiempo de bloqueo es corto, lo que trae poco impacto en el sistema en ejecución. Sin embargo, cuando se producen varios errores de CAP de forma continua, el controlador de memoria necesita realizar reintentos para todos los datos relacionados y operaciones de memoria de bloque durante un período en cada reintento. En este caso, las tareas de lectura/escritura de datos en la parte posterior del tiempo de espera de la cola de tareas de memoria debido a los bloques de tareas en el frente.


El LLC y el MLC inician un temporizador para cada solicitud de acceso a la memoria. Las peticiones en el tiempo de salida del LLC y del MLC debido a un gran número de errores del casquillo. En este caso, se producen errores de temporizador de vigilancia TOR_TIMEOUT y MLC (3-strick). Los errores del temporizador de vigilancia LLC TOR_TIMEOUT y MLC son un error incorregible en la arquitectura actual de Intel RASM y resultan en el desglose del sistema.


Para obtener más información, consulte la siguiente figura.

110912fc8eujs2gd8zcgrd.png


【 Descripción de la solución 】

            

DIMM010 es defectuoso y necesita ser reemplazado. Los errores de DIMM000, DIMM020 y DIMM030 están asociados a errores DIMM010, por lo que no es necesario sustituir estos módulos DIMM.


  • x
  • convención:

Responder

Responder
Debe iniciar sesión para responder la publicación Inicio de sesión | Registrarse

Aviso: Para garantizar sus legítimos derechos e intereses, la comunidad y los terceros no publicarán contenido que pueda generar riesgos legales a las partes, por ejemplo, pornografía, contenido político, contenido sobre juego, consumo y tráfico de drogas, así como contenido que viole los derechos de propiedad intelectual de terceros, por ejemplo, secretos comerciales, marcas, derechos de autor, patentes y privacidad personal. No comparta su cuenta ni su contraseña con terceros. Todas las operaciones realizadas usando su cuenta se considerarán como sus acciones y todas las consecuencias que estas acciones generen serán responsabilidad suya. Para obtener información detallada, consulte la “ Política de privacidad.”
Si el botón para adjuntar no está disponible, actualice Adobe Flash Player con la versión más reciente
Respuesta rápida Desplácese hasta arriba