IBM crea un clúster de 120 petabytes de 200.000 discos duros

Partes internas del disco duro

Rompiendo todos los récords conocidos por un múltiplo de 10, IBM Research Almaden, California, ha desarrollado tecnologías de hardware y software que le permitirán unir 200.000 discos duros para crear un solo clúster de almacenamiento de 120 petabytes, o 120 millones de gigabytes. Se espera que el colectivo de unidades, cuando esté completo, almacene un billón de archivos, o para decirlo en términos de Apple, dos mil millones de horas de música MP3.

El repositorio de datos, que actualmente no tiene nombre, se está desarrollando para un cliente sin nombre, pero con una capacidad de 120 PB, su uso más probable será el dispositivo de almacenamiento para una supercomputadora de propiedad estatal o financiada con fondos federales u otra informática de alto rendimiento. (HPC) aplicación; 120PB es el tipo de capacidad que necesita para almacenar modelos meteorológicos globales o simulaciones de sistemas de armas infinitamente detalladas, las cuales rara vez son realizadas por intereses comerciales. Alternativamente, podría usarse para almacenar una gran parte de Internet (o datos sobre sus usuarios) para Google o Facebook, u otro cliente con mucho dinero. Los sistemas más grandes que existen actualmente son generalmente de alrededor de 15 petabytes, aunque, a partir de 2010, Facebook tenía un clúster Hadoop de 21PBy probablemente ahora sea significativamente mayor.

IBM no proporciona detalles exactos sobre el software y el hardware, pero sabemos que presenta una versión nueva y actualizada del Sistema de archivos paralelo general de IBM (GPFS). GPFS es un sistema de archivos de volumen que almacena archivos individuales en varios discos; en otras palabras, en lugar de leer un modelo de alta resolución de varios terabytes a 100 MB / seg desde una sola unidad, el mismo archivo se puede leer en un paralelo masivo moda de varios discos. El resultado final son velocidades de lectura / escritura en la región de varios terabytes por segundo - y, como corolario, la capacidad de crear más de 30.000 archivos por segundo. GPFS también admite redundancia y tolerancia a fallas: cuando una unidad muere, su contenido es reconstruido automáticamente en una unidad de reemplazo por la computadora gobernante.



En el lado del disco duro, si dividimos 120 PB por 200,000, obtienes 630GB, y una vez que tomas en cuenta la redundancia, es bastante seguro asumir que todos los discos tienen un tamaño de 1TB. También sabemos que cada una de las 200.000 unidades se enfriará por agua con presumiblemente la pieza de plomería más grande y complicada jamás intentada, pero considerando La inclinación de IBM por la refrigeración por agua de sus servidores de gama alta, eso no es sorprendente (aunque aún esperamos publicar una foto del sistema una vez que esté completo).

En su forma actual, las supercomputadoras y a gran escala experimentos científicos como el LHC - puede producir (y calcular) muchos más datos de los que se pueden almacenar de forma factible. Se espera que el sistema de IBM sea un repositorio de datos que sirva de puente para salvar el abismo entre el silicio, la tecnología gobernada por la ley de Moore y el almacenamiento electromecánico. Por otro lado, por supuesto, tal vez sea hora de dejar de jugar con los discos duros y empezar a construir matrices de almacenamiento masivo a partir de memoria flash…

Lee mas en Revisión de tecnología, o sobre IBM Research Almaden o GPFS

Copyright © Todos Los Derechos Reservados | 2007es.com