Uso de SMART para predecir con precisión cuándo un disco duro está a punto de morir

Un montón de discos duros: Google pasa por varios, presumiblemente

SMART, que comenzó a aparecer en los discos duros de los consumidores hace unos 10 años, es un concepto brillante; está destinado a decirle si un disco duro está a punto de morir, pero en la práctica, creo que todos podemos estar de acuerdo en que SMART siempre ha sido bastante decepcionante. Personalmente, SMART nunca me ha ayudado a detectar un disco defectuoso, y sospecho que es lo mismo para la mayoría de las personas que leen esta historia.

El problema con SMART, que significa tecnología de autocontrol, análisis e informes, es que proporciona una gran cantidad de datos (en su mayoría inútiles), y muchas de las estadísticas informadas son inconsistentes (diferentes definiciones, diferentes medidas) entre los fabricantes de discos duros. Mientras tu querer SMART para simplemente decirle que un disco duro está a punto de fallar, no hace tal cosa; en cambio, puede analizar alrededor de 50 variables diferentes (que varían de un disco a otro) y luego tratar de adivinar mágicamente si el disco está en buen estado o no. Si bien la mayoría de los fabricantes de discos duros proporcionan algún tipo de herramienta de monitoreo SMART, ninguno le advierte con precisión que una unidad está a punto de fallar.

Lo triste es que SMART devuelve información útil, pero debido a la inconsistencia entre los fabricantes de discos y porque los fabricantes de discos no nos dicen a cuál de los diversos atributos y variables debemos prestar atención, se ahoga cualquier dato útil. Ahora, sin embargo, gracias a los chicos de respaldo infinito en línea en Backblaze, finalmente podemos tener una forma de usar SMART para predecir la muerte de unidades.



SMART 187 (errores incorregibles) frente a la tasa de fallas de la unidad

SMART 187 (errores incorregibles) frente a la tasa de fallas de la unidad

¿Qué atributos SMART realmente importan?

Durante el último año más o menos, Backblaze ha estado capturando los datos SMART de unos 40.000 discos duros. Los discos duros están fabricados por todos los sospechosos habituales: Seagate, Western Digital, Hitachi y HGST. Al trabajar hacia atrás desde unidades que fallaron y luego mirar los datos SMART reportados de las semanas y meses anteriores, Backblaze cree que ha identificado cinco atributos SMART que en realidad predicen la muerte de las unidades. Aparentemente, Backblaze está usando estos datos para reemplazar las unidades antes de que fallen, por lo que debe tener bastante confianza en sus hallazgos.

Aquí están los cinco grandes. (Para obtener más información sobre lo que significa cada error, Página de Wikipedia SMART es bastante bueno.)

  1. ID INTELIGENTE 5 (0x05): Recuento de sectores reubicados
  2. ID INTELIGENTE 187 (0xBB): Errores incorregibles informados
  3. ID INTELIGENTE 188 (0xBC): Tiempo de espera del comando
  4. ID INTELIGENTE 197 (0xC5): Recuento actual del sector pendiente
  5. ID INTELIGENTE 198 (0xC6): Recuento de sectores incorregibles

En general, si una unidad muestra un recuento de cero (0) para todos estos atributos, significa que es casi seguro que la unidad esté en buen estado. Por el contrario, si alguno de estos atributos tiene un valor de 1 o más, existe una gran posibilidad de que la unidad muera pronto; es hora de hacer una copia de seguridad de sus datos lo antes posible y colocar una nueva unidad. Backblaze dice que el atributo SMART 187 (0xBB), Errores no corregibles reportados, es particularmente útil porque todos los fabricantes de discos duros parecen estar de acuerdo en la misma definición y porque el número informado es fácil de interpretar.

Si desea ver el conjunto de datos SMART completo de Backblaze, es todo en línea para su lectura - o sigue leyendo, para un poco más de análisis de algunos de sus hallazgos más interesantes.

¿La vida del disco duro se ve afectada por el número de ciclos de encendido?

Uno de los mitos / anécdotas / cuentos de viejas más populares en los círculos de construcción de computadoras es que encender una computadora reduce severamente la vida útil de un disco duro. La idea es que mantener una unidad girando a unos pocos miles de rpm es fácil, pero la tensión inicial en los componentes es de alguna manera dañina. El contrapunto a esto, por supuesto, es que un disco duro apagado obviamente vivirá más tiempo que un disco duro que gira. Entonces, ¿debería mantener su PC encendida las 24 horas del día, los 7 días de la semana y cambiar la opción de configuración que evita que sus discos duros se apaguen?

Ciclos de energía frente a vida útil del disco duro

Ciclos de energía frente a vida útil del disco duro

Los datos SMART de Backblaze sobre ciclos de energía son ... interesantes. Claramente, las unidades tienen menos posibilidades de morir cuando solo se han encendido unas pocas veces, pero después de 30 ciclos de encendido más o menos, parece nivelarse. Backblaze rara vez apaga sus unidades (menos de 100 veces en total, más de 4 años), por lo que realmente no podemos extraer ningún dato concluyente.

Temperatura frente a tasa de fallas del disco duro

Temperatura (en grados Celsius, creo) versus tasa de falla del disco duro

Le alegrará saber que la temperatura no parece afectar la tasa de fallas de una unidad.

Datos del disco duro SMART, con la herramienta DiskCheckup

Datos del disco duro SMART, con la herramienta DiskCheckup

Si desea utilizar estos datos SMART para ver si sus propios discos duros están fallando, DiskCheckup de PassMark es un programa gratuito para Windows que es fácil de usar. Si alguno de los cinco valores SMART anteriores está por encima de cero, es posible que desee realizar una copia de seguridad de sus datos pronto. Tenga en cuenta que no todas las unidades informan todos los atributos SMART, y es posible que deba usar el código hexadecimal (0xC5) en lugar de decimal (197) para encontrar el atributo SMART que está buscando.

Ahora lee: De todos modos, ¿cuánto tiempo viven realmente los discos duros?

Copyright © Todos Los Derechos Reservados | 2007es.com