De repente, Intel está muy preocupado por la evaluación comparativa del 'mundo real'

Desde al menos Computex, Intel ha estado planteando preocupaciones a los revisores sobre los tipos de pruebas que ejecutamos, qué aplicaciones tienden a usar los revisores y si esas pruebas están capturando el rendimiento del 'mundo real'. Específicamente, Intel siente que se pone demasiado énfasis en pruebas como Cinebench, mientras que las aplicaciones que la gente realmente usa son prácticamente ignoradas.

Vamos a aclarar algunas cosas desde el principio.

Cada empresa tiene puntos de referencia que prefiere y puntos de referencia que no le gustan. El hecho de que algunas pruebas funcionen mejor en AMD frente a Intel, o en Nvidia frente a AMD, es no, en sí mismo, evidencia de que el índice de referencia ha sido diseñado deliberadamente para favorecer a una empresa u otra. Las empresas tienden a plantear preocupaciones sobre los puntos de referencia que utilizan los revisores cuando se enfrentan a una mayor presión competitiva en el mercado. Aquellos de ustedes que piensan que Intel está planteando preguntas sobre las pruebas que los revisores usamos colectivamente en parte porque está perdiendo en muchas de esas pruebas no se equivocan. Pero el hecho de que una empresa tenga motivos de interés propio para plantear preguntas no significa automáticamente que la empresa esté equivocada tampoco. Y dado que no paso docenas de horas y paso la noche ocasionalmente probando hardware para dar a las personas una idea falsa de cómo funcionará, siempre estoy dispuesto a revisar mis propias conclusiones.



Lo que sigue son mis propios pensamientos sobre esta situación. No pretendo hablar en nombre de ningún otro revisor que no sea yo mismo.

Maxon-Cinema4D

Uno se pregunta qué piensa Maxon de esto, dado que fue un socio importante de Intel. en SIGGRAPH.

¿Qué significa realmente el rendimiento del 'mundo real'?

Estar a favor de los puntos de referencia de hardware del mundo real es una de las opiniones menos controvertidas que se pueden tener en informática. He conocido a personas a las que no necesariamente les importaba la diferencia entre las pruebas sintéticas y las del mundo real, pero no recuerdo haber conocido a alguien que pensara que las pruebas del mundo real eran irrelevantes. El hecho de que casi todo el mundo esté de acuerdo en este punto no significa que todo el mundo esté de acuerdo sobre dónde están las líneas entre el mundo real y un punto de referencia sintético. Considere los siguientes escenarios:

  • Un desarrollador crea un punto de referencia de cómputo que prueba el rendimiento de la GPU en hardware AMD y Nvidia. Mide el rendimiento que ambas familias de GPU deberían ofrecer en CUDA y OpenCL. Las comparaciones muestran que sus resultados se corresponden razonablemente bien con las aplicaciones en el campo.
  • Una empresa de renderizado 3D crea una versión independiente de su aplicación para comparar el rendimiento entre CPU y / o GPU. La prueba independiente captura con precisión el rendimiento básico de la suite de renderizado 3D (muy costosa) en una prueba simple y fácil de usar.
  • Una empresa de renderizado 3D crea una serie de escenas de prueba para comparar su conjunto completo de aplicaciones. Cada escena se enfoca en resaltar una técnica o tecnología específica. Están pensados ​​colectivamente para mostrar el impacto en el rendimiento de varias funciones en lugar de ofrecer un solo renderizado general.
  • Un juego incluye una prueba de referencia incorporada. En lugar de replicar una escena exacta del juego, los desarrolladores crean una demostración que prueba todos los aspectos del rendimiento del motor durante un período de varios minutos. La prueba se puede utilizar para medir el rendimiento de nuevas funciones en una API como DX11.
  • Un juego incluye una prueba de referencia incorporada. Esta prueba se basa en un solo mapa o evento en el juego. Mide con precisión el rendimiento en ese mapa o escenario específico, pero no incluye datos sobre otros mapas o escenarios.

Vas a tener tu propia opinión sobre cuáles de estos escenarios (si los hay) constituyen un punto de referencia del mundo real y cuáles no. Déjame hacerte una pregunta diferente, una que realmente creo que es más importante que si una prueba es del “mundo real” o no. ¿Cuál de estos puntos de referencia hipotéticos le dice algo útil sobre el rendimiento del producto que se está probando?

La respuesta es: 'Potencialmente, todos'. El punto de referencia que elijo depende de la pregunta que formulo. Una prueba sintética o independiente que funciona como un buen modelo para una aplicación diferente sigue modelando con precisión el rendimiento en esa aplicación. Puede ser un modelo mucho mejor para el rendimiento en el mundo real que las pruebas realizadas en una aplicación que se ha optimizado en gran medida para una arquitectura específica. Aunque todas las pruebas de la aplicación optimizada son del 'mundo real' (reflejan cargas de trabajo y tareas reales), la aplicación en sí misma puede ser un valor atípico no representativo.

Todos los escenarios que describí anteriormente tienen el potencial de ser buenos puntos de referencia, dependiendo de qué tan bien se generalicen a otras aplicaciones. La generalización es importante en la revisión. En mi experiencia, los revisores generalmente intentan equilibrar las aplicaciones conocidas por favorecer a una empresa con aplicaciones que funcionan bien en el hardware de todos. A menudo, si una característica específica del proveedor está habilitada en un conjunto de datos, las revisiones incluirán un segundo conjunto de datos con la misma característica inhabilitada, para proporcionar una comparación más neutral. La ejecución de indicadores específicos del proveedor a veces puede dañar la capacidad de la prueba para dirigirse a una audiencia más amplia.

Intel propone un enfoque alternativo

Hasta ahora, hemos hablado estrictamente sobre si una prueba es del mundo real a la luz de si los resultados se generalizan a otras aplicaciones. Sin embargo, hay otra forma de enmarcar el tema. Intel encuestó a los usuarios para ver qué aplicaciones usaban realmente y luego nos presentó esos datos. Se parece a esto:

Intel-mundo real

La implicación aquí es que al probar las aplicaciones más comunes instaladas en el hardware de las personas, podemos capturar un caso de uso mejor y más representativo. Esta siente intuitivamente cierto, pero la realidad es más complicada.

El hecho de que una aplicación se utilice con frecuencia no la convierte en una referencia objetivamente buena. Algunas aplicaciones no son particularmente exigentes. Si bien hay escenarios absolutamente en los que medir el rendimiento de Chrome podría ser importante, como el espacio de los portátiles de gama baja, buenas críticas de estos productos yaincluir este tipo de pruebas. En el contexto de los entusiastas de alta gama, es poco probable que Chrome sea una aplicación exigente. ¿Existen escenarios de prueba que puedan hacer que sea difícil? Si. Pero esos escenarios no reflejan la forma en que la aplicación se usa con más frecuencia.

La experiencia del mundo real de usar Chrome en un Ryzen 7 3800X es idéntico a usarlo en un Core i9-9900K. Incluso si este no fuera el caso, Google dificulta mantener una versión anterior de Chrome disponible para las pruebas A / B continuas. Mucha gente ejecuta extensiones y bloqueadores de anuncios, que tienen su propio impacto en el rendimiento. ¿Eso significa que los revisores no deberían probar Chrome? Por supuesto que no. Es por eso que muchas reseñas de portátiles absolutamente hacer probar Chrome, particularmente en el contexto de la duración de la batería del navegador, donde se sabe que Chrome, Firefox y Edge producen resultados diferentes. Ajusta el punto de referencia a la situación.

Hubo un tiempo en el que pasé mucho más tiempo probando muchas de las aplicaciones de esta lista que ahora. Cuando comencé mi carrera, la mayoría de las suites de referencia se centraban en aplicaciones de oficina y pruebas básicas de gráficos 2D. Recuerdo cuando cambiar la GPU de alguien podría mejorar significativamente la calidad de imagen 2D y la capacidad de respuesta de la interfaz de usuario de Windows, incluso sin actualizar su monitor. Cuando escribí para Ars Technica, escribí comparaciones del uso de la CPU durante la decodificación de contenido HD, porque en ese momento, se encontraron diferencias significativas. Si recuerda cuando debutaron las netbooks Atom, muchas revisiones se centraron en cuestiones como la capacidad de respuesta de la interfaz de usuario con una Solución de GPU Nvidia Ion y lo comparó con los gráficos integrados de Intel. ¿Por qué? Porque Ion marcó una diferencia notable en el rendimiento general de la interfaz de usuario. Los revisores no ignoran estos problemas. Las publicaciones tienden a volver a ellos cuando existe una diferenciación significativa.

No elijo evaluaciones comparativas solo porque la aplicación sea popular, aunque la popularidad mayo figura en la decisión final. El objetivo, en una revisión general, es elegir pruebas que se generalicen bien a otras aplicaciones. El hecho de que una persona tenga Steam o Battle.net instalado no me dice nada. ¿Esa persona está jugando Overwatch o WoW Classic? ¿Están jugando Minecraft o No Man's Sky? ¿Eligen MMORPG o juegos de tipo FPS, o simplemente están estancados en Goat Simulator 2017? ¿Están realmente jugando a algún juego? No puedo saberlo sin más datos.

Las aplicaciones de esta lista que muestran diferencias de rendimiento significativas en tareas comunes generalmente ya se han probado. Publicaciones como Sistemas Puget publique regularmente comparaciones de rendimiento en la suite de Adobe. En algunos casos, la razón por la que las aplicaciones no se prueban con más frecuencia es que ha habido preocupaciones de larga data acerca de la confiabilidad y precisión del conjunto de pruebas comparativas que las incluye con mayor frecuencia.

Siempre me interesan los mejores métodos para medir el rendimiento de la PC. Intel tiene absolutamente un papel que desempeñar en ese proceso: la compañía ha sido útil en muchas ocasiones cuando se trata de encontrar formas de resaltar nuevas funciones o solucionar problemas. Pero la única forma de encontrar diferencias significativas en el hardware es encontrar diferencias significativas en pruebas. Una vez más, en términos generales, verá que los revisores comprueban las computadoras portátiles en busca de brechas en la duración de la batería y el consumo de energía, así como en el rendimiento. En las GPU, buscamos diferencias en el tiempo de fotogramas y la velocidad de fotogramas. Como ninguno de nosotros puede ejecutar todas las cargas de trabajo, buscamos aplicaciones con resultados generalizables. En ET, ejecuto varias aplicaciones de renderizado específicamente para asegurarme de que no estamos favoreciendo a ningún proveedor o solución en particular. Por eso pruebo Cinebench, Blender, Maxwell Render, y Corona Render. Cuando se trata de codificación de medios, Handbrake es prácticamente la solución de referencia para todos, pero verificamos tanto H.264 como H.265 para asegurarnos de capturar múltiples escenarios de prueba. Cuando las pruebas resultan ser inexactas o insuficientes para capturar los datos que necesito, utilizo diferentes pruebas.

La falsa dicotomía

La tan discutida diferencia entre los puntos de referencia 'sintéticos' y los del 'mundo real' es un encuadre deficiente del problema. Lo que importa, al final, es si los datos de referencia presentados por el revisor ofrecen colectivamente una visión precisa del rendimiento esperado del dispositivo. Como Rob Williams detalles En Techgage, Intel ha estado muy feliz de usar Cinebench de Maxon como punto de referencia en momentos en que sus propios núcleos de CPU dominaban el rendimiento. En una reciente enviar en Medium, Ryan Shrout de Intel escribió:

Hoy en IFA celebramos un evento para asistir a miembros de la comunidad de medios y analistas sobre un tema muy cercano y querido para nuestro corazón: Real World Performance. Hemos realizado estos eventos durante algunos meses, comenzando en Computex y luego en E3, y hemos aprendido mucho en el camino. El proceso ha reforzado nuestra opinión sobre los puntos de referencia sintéticos: proporcionan valor si desea una perspectiva rápida y estrecha del rendimiento. Todavía los usamos internamente y sabemos que muchos de ustedes también lo hacen, pero la realidad es que son cada vez más inexactos a la hora de evaluar el rendimiento del usuario en el mundo real, independientemente del segmento de producto en cuestión.

Suena condenatorio. Lo sigue con esta diapositiva:

Optimización Intel-OEM

Para demostrar la supuesta inferioridad de las pruebas sintéticas, Intel muestra 14 resultados separados, 10 de los cuales se extraen de 3DMark y PCMark. Ambas aplicaciones generalmente se consideran aplicaciones sintéticas. Cuando la empresa presenta datos sobre su propio rendimiento frente a ARM, vuelve a utilizar el mismo truco:

Intel-versus-ARM

¿Por qué Intel se refiere nuevamente a las aplicaciones sintéticas en la misma publicación de blog en la que específicamente las llama una mala elección en comparación con las pruebas supuestamente superiores del 'mundo real'? Tal vez se deba a que Intel toma sus decisiones de referencia al igual que lo hacemos los revisores, con la mirada puesta en resultados que sean representativos y reproducibles, utilizando pruebas asequibles, con buenos conjuntos de funciones que no fallan o fallan por razones desconocidas después de la instalación. Quizás Intel también tiene problemas para mantenerse al día con la gran cantidad de software que se lanza de manera continua y elige pruebas para representar sus productos en los que puede confiar. Tal vez quiera continuar desarrollando sus propios puntos de referencia sintéticos como WebXPRT sin tirar todo ese esfuerzo por debajo de un autobús, aunque simultáneamente está tratando de dar a entender que los puntos de referencia en los que se ha basado AMD son inexactos.

Y tal vez sea porque todo el encuadre sintético versus el mundo real es malo para empezar.

Actualización (5/9/2019): Una cosa que no mencioné es el hecho de que el conjunto de datos de Intel de las aplicaciones más comúnmente utilizadas se extrae completamente de computadoras portátiles y dispositivos 2 en 1. Revela esto en la diapositiva de arriba. No lo haríamos esperarque los creadores de contenido que trabajan en aplicaciones 3D como Blender, Cinebench o aplicaciones similares de estación de trabajo estarían usando 2 en 1. La implicación de que estas aplicaciones son menos importantes debido a una base de instalación baja se ve socavada por el hecho de que las configuraciones de hardware que Intel midió no son representativas de los sistemas donde esperaríamos que se utilicen estas aplicaciones.

Copyright © Todos Los Derechos Reservados | 2007es.com