El error de Skylake hace que los chips Intel se congelen bajo 'cargas de trabajo complejas'

Skylake1

Intel ha revelado que sus productos Core de sexta generación (conocidos como Skylake) sufren un error de CPU que puede hacer que un sistema se cuelgue. La compañía solo ha identificado públicamente una familia de aplicaciones que lo causa, Prime95.

El hilo de Prime95 sobre la inestabilidad de Skylake se remonta a principios de diciembre, cuando los evaluadores notaron que ejecutar la prueba 768K en los últimos procesadores Intel haría que la aplicación fallara, a veces en minutos, a veces solo después de horas. Los usuarios del foro trabajaron colectivamente a través de los sospechosos habituales y revisaron la RAM, los proveedores de placas base, los niveles de voltaje, las velocidades de reloj, las versiones del software Prime95 y si la CPU estaba overclockeada o no.

La desactivación de Hyper-Threading aparentemente soluciona el problema (según los informes de los usuarios), pero ninguna de las otras variables tuvo un impacto medible en el problema. Si ejecuta Prime95 en una CPU Skylake con el número máximo de subprocesos disponibles en el procesador con “CpuSupportsFMA3 = 0” (que obliga al uso de AVX) en el tamaño de 768 FFT, el sistema eventualmente fallará.



Desafortunadamente, la divulgación actual de Intel es, en el mejor de los casos, vaga. los declaración completa lee:

Hola a todos,
Intel ha identificado un problema que potencialmente afecta a la familia de productos Intel Core de sexta generación. Este problema solo ocurre bajo ciertas condiciones de carga de trabajo complejas, como las que se pueden encontrar al ejecutar aplicaciones como Prime95. En esos casos, el procesador puede bloquearse o provocar un comportamiento impredecible del sistema. Intel ha identificado y publicado una solución y está trabajando con socios comerciales externos para implementar la solución a través del BIOS.

Aún no está claro cuál será la solución, o si requerirá que los usuarios finales eviten ciertas rutas de código o características al probar procesadores. Casos de nicho como este pueden tener un impacto enorme en las empresas: a principios de la década de 1990, los procesadores Pentium de Intel sufrieron lo que se conoció como el error FDIV. El chip funcionó perfectamente en la gran mayoría de los casos, pero devolvería un valor incorrecto en casos específicos de punto flotante. Específicamente, los valores devueltos eran incorrectos en aproximadamente 0,000061.

No obstante, el error causó serios dolores de cabeza a Intel. La compañía recibió un martillazo en la prensa y un cargo de $ 475 millones contra las ganancias para resolver el problema. Desde entonces, hemos visto una serie de errores de alto perfil: AMD tiene su error TLB con el Phenom original, la primera iteración de TSX (Extensiones de sincronización transaccional) de Intel se deshabilitó mediante la actualización del microcódigo. Hay un error en la implementación de la VM de Intel que puede permitir que una VM invitada falle de una manera que atrape la CPU en un bucle infinito.

Intel convirtió algunos de los chips Pentium defectuosos en llaveros.

Intel convirtió algunos de los chips Pentium defectuosos en llaveros.

Nosotros pensar de los procesadores como dispositivos esencialmente impecables que 'simplemente funcionan', pero la realidad cuenta una historia diferente. Echa un vistazo a Intel lista de erratas en Haswell - hay una lista de cinco páginas de fallas y problemas, prácticamente todos los cuales están etiquetados como 'Sin solución'. La solución, en la mayoría de los casos, es 'No lo hagas así'. Los chips AMD no son inmunes a este tipo de problemas de ninguna manera, pero ha habido menos golpes con los chips AMD ya que no tienen la participación de mercado empresarial que solían tener.

A veces se revelan errores, a veces no. Piledriver tiene un problema significativo con las instrucciones AVX de 256 bits, por ejemplo, que inyecta un retraso de 18-20 ciclos en la ejecución de varias instrucciones consecutivas. Todos los Intel Atom originales (antes de Bay Trail) tenían una falla de punto flotante que podía insertar un NOP (sin operación) en cada dos ciclos, duplicando efectivamente el tiempo de cálculo de FPU. Nadie compró un Atom por su rendimiento FPU, por lo que no se habló del error.

Tendremos que esperar y ver cuál es la solución de Intel para este problema. La forma más sencilla de solucionarlo podría ser decirle a la CPU que evite usar AVX en instancias específicas, pero el error FDIV demostró que los usuarios a menudo exigen CPU 100% compatibles, incluso si no están usando las funciones que realmente desencadenan un error. El problema es que, a medida que las CPU agregan más funciones y capacidades, se tarda cada vez más en probar esas funciones de manera adecuada.

Copyright © Todos Los Derechos Reservados | 2007es.com