AMD reemplaza las CPU Ryzen para usuarios afectados por un error raro de Linux

Función Ryzen2

El Ryzen 7 de AMD ha sido bien recibido en general por la comunidad de entusiastas, pero ha habido un problema de bajo nivel que hemos estado observando pero del que no hemos informado previamente. A principios de junio, los usuarios de Ryzen que ejecutaban Linux comenzaron a informar fallas de segmentación cuando ejecutaban múltiples cargas de trabajo de compilación simultáneas usando múltiples versiones diferentes de GCC. LVVM / Clang no se vio afectado y el problema parece limitarse a Linux. Además, aparentemente no era común, incluso entre los usuarios de Linux: Michael Larabel, de Phoronix.com, informó que sus propios equipos de prueba habían sido absolutamente sólidos, incluso bajo grandes cargas de trabajo.

Al igual que el error Pentium FDIV de antaño, este era un problema real, pero de manera realista, solo afectó a una fracción de una fracción de los compradores. AMD había dicho anteriormente que estaba investigando el problema (que no está presente en ninguna CPU Epyc o Threadripper) y ahora anunció una solución: reemplazo de CPU.

PhoronixinformesAMD les proporcionó una nueva CPU Ryzen 7 1800X y este chip se ha negado a fallar, incluso cuando se ejecuta un script 'kill Ryzen' que previamente crearía deliberadamente una falla de segmentación del compilador. Si bien algunos usuarios pensaron que el problema se limitaba a un problema relacionado con la RAM, la placa base o el BIOS, las pruebas de Phoronix demuestran lo contrario. Cambie el nuevo Ryzen 7 1800X por una pieza anterior y el problema reaparece. Vuelva al nuevo chip y desaparecerá. Larabel ha concluido tentativamente que el problema parece limitarse a las CPU Ryzen fabricadas antes de la semana 25 de este año (el nuevo chip se construyó en la semana 30), pero no hay más detalles disponibles sobre la causa.



La buena noticia es que AMD está reemplazando las CPU de cualquiera que tenga este problema. Nuevamente, si bien el problema es real, parece que solo se activa en un número extremadamente pequeño de casos cuando se ejecuta una carga de trabajo de Linux en circunstancias específicas y particulares.

Las erratas de la CPU son la regla, no la excepción

Tendemos a pensar que las erratas de la CPU son fenómenos sorprendentes que ocurren solo ocasionalmente, pero lo contrario es cierto. La tabla de resumen de erratas dentro de la familia Core de sexta generación de Intel es ocho paginas largo. La mayoría de estos errores son problemas menores o se relacionan con casos de esquina, pero pueden surgir problemas mayores. La arquitectura Atom original de Intel tenía un error importante de FPU en el que intentar realizar dos operaciones x87 consecutivas duplicaría el tiempo de ejecución. Analista de CPU Agner Fog escribe (Página 162/233):

Siempre que hay dos instrucciones x87 consecutivas, las dos instrucciones no se emparejan y en su lugar causan un retraso adicional de un ciclo de reloj debido a problemas en los decodificadores. Esto da un rendimiento de solo una instrucción cada dos ciclos de reloj, mientras que un código similar que usa registros XMM tendría un rendimiento máximo de dos instrucciones por ciclo de reloj.

Esto se aplica a todas las instrucciones x87 (nombres que comienzan con F), incluso a FNOP. Por ejemplo, una secuencia de 100 instrucciones FNOP consecutivas requiere 200 ciclos de reloj para ejecutarse en mis pruebas. Si los 100 FNOP están intercalados por 100 NOP, entonces la secuencia toma solo 100 ciclos de reloj. Por tanto, es importante evitar instrucciones x87 consecutivas.

Intel-Wafer

A medida que los diseños de CPU se han vuelto más complejos y el tamaño de los nodos se ha reducido, la posibilidad de errores y erratas ha aumentado significativamente.

El Skylake Error de Hyper-Threading que congeló los sistemas al ejecutar ciertas cargas de trabajo se incluye en la lista de sexta generación descrita anteriormente. AMD, por supuesto, ha tenido otros problemas propios, incluido el mal manejo de Piledriver de las instrucciones AVX de 256 bits (la penalización por usarlas era severa) y el infame error de TLB que limitaba la escala y el rendimiento del Phenom / Barcelona original. procesadores.

A menos que esté absolutamente seguro de que está teniendo un problema relacionado con este error, probablemente no es así. Pero nos alegra ver a AMD ofreciendo núcleos de reemplazo para los afectados por el problema. Las erratas de la CPU pueden no ser nada nuevo, pero la forma en que las empresas responden a ellas aún afecta la forma en que la comunidad de TI percibe el problema.

Copyright © Todos Los Derechos Reservados | 2007es.com