Física de alta energía: Directos al petabyte
|
|
Física de alta energía: Directos al petabyte
Para los científicos, las colisiones en el acelerador de partículas más grande del mundo son sólo el principio. Nature sigue el torrente de datos generado en su camino alrededor del mundo.
Geoff Brumfiel
Nature 469, 282-283 (2011)
Detector de partículas ATLAS, Suiza, 30 de marzo de 2010, 13.06 hora local
Bajo las suaves colinas de las montañas de Suiza y Francia comienza a funcionar el experimento de física más importante del mundo. Dos haces de protones de alta energía colisionan frontalmente a una velocidad muy cercana a la de la luz en el Gran Colisionador de Hadrones (LHC, por sus siglas en inglés), un acelerador de partículas gigante situado en el CERN, el laboratorio europeo de física de alta energía. Unos nanosegundos después del choque entre protones, su energía combinada da lugar a partículas más pesadas, que en un instante se convierten en un cúmulo de restos más ligeros.
En el punto de colisión, 92 metros bajo el suelo, el detector ATLAS de 7000 toneladas lo ve todo. Las partículas liberadas tras el choque pasan en primer lugar por el rastreador interno del detector, compuesto por un sofisticado circuito electrónico de silicio que registra su trayectoria. Bajo la capa ocupada por éste se encuentran diversos sistemas que miden la energía de las partículas. Algunas de las partículas no superan esta etapa, pero los muones, primos hermanos de los electrones, prosiguen su camino a gran velocidad y avanzan varios metros hasta que son detectados por unos gigantes sensores de color mostaza.
Los microprocesadores convierten las trayectorias y energías de las partículas en señales eléctricas y eligen algunas de ellas para realizar un análisis más profundo. Los datos correspondientes a las colisiones seleccionadas viajan hasta una sala de ordenadores en la que se descarta la mayoría y se crea una reconstrucción digital del resto.
Aunque se descarten 199.999 de cada 200.000 colisiones, el detector genera 19 gigabytes de datos en el primer minuto. En total, el ATLAS y los otros tres detectores principales del LHC produjeron 13 petabytes (13 × 1015 bytes) de datos en 2010, lo que equivaldría a la información almacenada en una pila de discos compactos de 14 km de alto. Dicha velocidad de generación de datos supera a la de cualquier otro ámbito científico actual, incluidos campos como la genómica y la climatología, en los que se maneja una gran cantidad de información. Además, los análisis son más complejos. En la física de partículas, es necesario estudiar millones de colisiones simultáneamente para encontrar las señales escondidas tras ellas, que podrían desvelar fallos en los modelos actuales del Universo, al revelar información sobre la materia oscura o la posibilidad de que existan nuevas dimensiones o partículas. Su principal objetivo es el bosón de Higgs, partícula que supuestamente desempeña un papel fundamental para determinar la masa de todas las demás partículas conocidas.
Para lidiar con semejante cantidad de datos, los arquitectos del LHC decidieron en 2001 aplicar el lema “divide y vencerás”. Los resultados obtenidos en los inmensos detectores de partículas se dividen y se envían a una gran red mundial de procesado de datos del LHC (WLCG). Esta red supone un salto tecnológico tan grande como el del propio colisionador y sin ella el proyecto se ahogaría muy pronto en su propio mar de datos.
La red está formada por alrededor de 200.000 núcleos de procesado y 150 petabytes de espacio en disco, distribuidos a lo largo de 34 países mediante líneas de datos subcontratadas (véase la figura “El viaje de los datos”). La combinación de todos estos recursos permite a los científicos llevar a cabo extensos análisis que llevarían al límite a las supercomputadoras más potentes del mundo.

Centro de computación del CERN, 30 de marzo de 2010
En unos minutos se producen las primeras colisiones en un edificio de cemento de los años setenta que se encuentra al otro lado del campus del CERN. En una sala blanca de altos techos, 50.000 núcleos de computación se encargan de la reconstrucción detallada de cada uno de los choques seleccionados. Mediante la calibración de cada subdetector, las lecturas de temperatura y otros datos del entorno en el que está alojado el ATLAS, se reconstruye cada una de las colisiones. Las reconstrucciones obtenidas por los científicos del CERN que trabajan con este detector muestran explosiones de líneas muy finas originadas en el punto de colisión.
En terminología de redes, el centro de computación del CERN se denomina de nivel 0. Lleva a cabo el análisis inicial de los datos y almacena una copia. Los datos físicos del ATLAS durante su primer día de funcionamiento en marzo ocupan un total de 5,2 terabytes (5,2 × 1012 bytes), lo suficiente para llenar el disco duro de diez ordenadores portátiles o cinco cintas de almacenamiento digital situadas en el piso inferior al de los procesadores. Esta cifra es pequeña en comparación con lo que se espera, pero el experimento del ATLAS cuenta con más de mil colaboradores a la espera de resultados. Si todos ellos se conectaran al CERN para transferir a sus instituciones los datos de los primeros choques, la red se colapsaría.
Para evitarlo, la red envía automáticamente copias de los datos. En una pequeña zona del centro de computación, la pared está cubierta de cables de fibra óptica de color naranja. Es el corazón del sistema, ya que envía los datos a todo el mundo a una increíble velocidad: 5 gigabyes por segundo.
Oxfordshire, Reino Unido, 30 de marzo de 2010
Una vez llevado a cabo el análisis inicial del CERN, un enlace de fibra óptica transporta parte de los datos obtenidos en la primera ronda de colisiones a lo largo de más de 800 kilómetros hasta el laboratorio Rutherford Appleton, un extenso centro de investigación situado en la región rural de Oxfordshire. Aquí, en un moderno edificio de oficinas, una sala de procesamiento recibe los datos a través de un cable apenas más ancho que el de la línea telefónica. En este laboratorio, uno de los 11 centros de nivel 1 de todo el mundo, los datos se procesan y dividen nuevamente.
La física de partículas es en cierto modo como investigar un accidente aéreo. No existen testigos, por lo no queda más remedio que recopilar los restos y unir las piezas para que los investigadores se puedan hacer una idea de lo ocurrido. En este caso, los físicos se reparten las diferentes partículas a estudio. Uno de los grupos analiza, por ejemplo, los muones, mientras que otro se centra en los rayos γ de alta energía. Los ordenadores del laboratorio crean decenas de copias de los datos, clasificados en función de los diversos aspectos de la colisión. Se les asignan nombres como, por ejemplo, data107TeV.00152166.physicsMinBias.merge.DESD_PHOJET. Este archivo contiene datos sobre fotones y finos haces de partículas.
Chicago, Illinois, 15 de mayo de 2010
Un equipo de investigadores estadounidenses envía una petición de datos a través de la red y la información correspondiente a las colisiones del 30 de marzo se transmite desde Oxfordshire hasta un edificio de la posguerra perteneciente a la Universidad de Chicago y situado a sólo dos manzanas del lugar donde se construyó el primer reactor nuclear del proyecto Manhattan.
Según Rob Gardner, físico encargado de las instalaciones de procesamiento, parece una versión reducida de los centros de procesado de Ginebra y Oxfordshire, con una importante diferencia: en Chicago, los investigadores pueden entrar con café. “No es un entorno limpio”, declaró Gardner.
Su centro es uno de los 140 de nivel 2 de la red. A diferencia de los de nivel 1, en los que se lleva a cabo una importante reconstrucción de los datos, los centros nivel 2 ofrecen principalmente recursos de almacenamiento y procesado, y a ellos pueden acceder los usuarios desde cualquier parte del mundo.
En un despacho situado un piso más arriba de los ordenadores, el científico Antonio Boveia trabaja con su ordenador portátil. Su equipo forma parte del extremo remoto de la red del CERN y sobre su fondo negro se deslizan líneas y más líneas de código. Para llevar a cabo un análisis (como, por ejemplo, el estudio del decaimiento del bosón del Higgs en unas partículas pesadas conocidas como bosones W), introduce comandos en un lenguaje de programación muy utilizado, el C++. Para llevar a cabo un único análisis, Boveia debe estudiar decenas de millones de colisiones. Aunque el disco duro de su ordenador portátil fuera 4.000 veces mayor de lo que es y pudiera almacenar los datos, pasarían unos años antes de que el procesador pudiera completar el trabajo. Según el científico, “sería imposible”.
La red lo hace posible dividiendo la tarea. Cuando Boveia introduce la petición, la red obtiene los datos de centros como el de Oxforshire y divide el análisis en miles de subtareas que reparte a lo largo de la red. Puede que éstas se procesen en el CERN, en un centro italiano o incluso lo más probable es que se ejecuten en muchos lugares a la vez. Unos días después Boveia recibe un correo electrónico que le avisa de que el análisis ha finalizado.
Sin embargo, no todo funciona siempre tan bien. Los centros de nivel 1 y 2 se gestionan de forma local, por lo que cada uno tiene sus propios protocolos... y sus problemas. En verano de 2009, cuando los datos procedentes de simulaciones previas a la primera colisión real viajaban a través de la red, la pelusa de las plantas de algodón atascó la unidad de aire acondicionado del centro de Chicago y hubo que cerrarla. El mismo año, en Suiza, unos obreros cortaron involuntariamente uno de los enlaces de fibra óptica del CERN y un incendio cerró el centro de nivel 1 de Taipei (Taiwán) durante meses. Cuando se produce un fallo, se envían avisos por correo electrónico y, en ocasiones, por teléfono a un grupo de contactos de emergencia repartidos por todo el globo.
Según Jamie Shiers, jefe del Departamento de Procesamiento del CERN, el sistema confía en la buena voluntad. “No controlamos de ninguna forma a estas personas.” Sin embargo, lo cierto es que la cooperativa global produce resultados.
CERN, 24 de de diciembre de 2010, 11.54
El equipo del ATLAS publica un análisis inicial del grupo de Chicago en el servidor arXiv.org. El informe, que trata sobre los bosones W producidos a través de mecanismos distintos al decaimiento del bosón del Higgs, incluye colisiones generadas el primer día, entre otras muchas. Las medidas de los bosones W producidos se ajustan bien a las teorías existentes.
En la actualidad, los datos físicos obtenidos el 30 de marzo constituyen sólo el 0,02% de los datos recopilados por el detector ATLAS. La mayoría de los físicos que colaboran en el proyecto utilizan estos datos iniciales sin percatarse, mientras van adquiriendo nuevas secciones que analizar y las combinan con otros datos. Los primeros indicios sobre la existencia del bosón de Higgs podrían estar ya almacenados en un disco de Mumbai, Melbourne o cualquiera de los lugares entre los que se reparten los datos del LHC. Pero aunque así fuera, el bosón de Higgs seguirá escondido hasta que muchos petabytes hayan circulado por la red. |