Descubriendo el Sol: la NASA acelera el análisis de imágenes solares 150 veces con la ayuda de Data Science Workstation.
La NASA está utilizando GPU Quadro RTX para acelerar el análisis de datos.
El Observatorio de Dinámica Solar (VAT) de la NASA recopila imágenes del sol para ayudar a los científicos e investigadores a obtener información sobre varios tipos de cambios solares y su impacto en la vida en la Tierra.
Estos datos son de gran valor para los investigadores, pero con más de 18 petabytes de imágenes recopiladas, analizar esta información es extremadamente difícil.
Con la ayuda de las estaciones de trabajo de ciencia de datos HP serie Z con tecnología Quadro RTX, los equipos de la NASA pueden realizar fácilmente clasificación de datos y análisis de imágenes hasta 150 veces más rápido que las CPU.
Retos del Big Data que enfrenta la NASA
El observatorio recopila datos tomando imágenes del sol cada 1,3 segundos. Los investigadores desarrollaron un algoritmo que elimina errores, como píxeles defectuosos, de las imágenes y luego coloca las imágenes en archivos que crecen cada día.
El algoritmo es muy preciso, pero como hay casi 20 petabytes de imágenes, miles de millones de píxeles se confunden con errores. Por lo tanto, el equipo de la NASA necesitaba clasificar 654,38+0,5 mil millones de archivos de error (se *requirió un total de ~654,38+0,000 mil millones de detecciones individuales) y encontrar una manera de clasificar y etiquetar los píxeles buenos y malos.
Esto es casi imposible de hacer usando cálculos convencionales. Si utiliza una CPU, tardará varios años en obtener resultados. Incluso utilizando los mejores algoritmos de CPU multiproceso disponibles actualmente, se necesitaría aproximadamente un año para calcular y analizar todos los datos.
Raphael Attie, astrónomo solar del Centro de Vuelos Espaciales Goddard de la NASA, dijo: "Un año no es tiempo suficiente para que los científicos exploren y repitan estos descubrimientos. Incluso si los cálculos toman un año, todavía será necesario Nos llevará hasta diez años obtener resultados concretos”.
Para obtener resultados en menos tiempo, el equipo de la NASA comenzó a investigar qué ofrecen las GPU NVIDIA.
Los datos masivos requieren mejores soluciones.
La NASA tiene recursos de supercomputación muy limitados. Los investigadores deben proporcionar información detallada sobre cuántos recursos informáticos se necesitan y durante cuánto tiempo. Sin embargo, es difícil proporcionar información detallada cuando el equipo no está seguro de cuántos recursos informáticos utilizar para realizar experimentos con grandes cantidades de datos.
Con la estación de trabajo de ciencia de datos HP serie Z con dos GPU Quadro RTX 8000, los investigadores de la NASA pueden obtener recursos de supercomputación por sí mismos. Han comenzado a utilizar tecnología de análisis de big data y la biblioteca de computación acelerada de NVIDIA para estudiar el proyecto, que aprovechará al máximo el rendimiento de las GPU de NVIDIA.
La estación de trabajo de ciencia de datos permitió al equipo completar el análisis de imágenes y obtener resultados en menos de una semana.
"La estación de trabajo de ciencia de datos ofrece enormes posibilidades a nuestra investigación", dijo Michael Kirk, astrofísico de la NASA a cargo de la investigación científica. "Ahora podemos realizar estos cálculos antes inimaginables y son entre 10 y 150 veces más rápidos de lo que pensábamos. ."
El equipo de la NASA utilizó inteligencia artificial, aprendizaje automático y análisis de datos para realizar una investigación exhaustiva sobre el sol. La mayoría de sus flujos de trabajo de ciencia de datos se basan en Python y utilizan aplicaciones como TensorFlow, Dask y CuPy para completar el procesamiento de datos pesados. Pandas, RAPIDS y CuDF se utilizan para estudios estadísticos y se utilizará una variedad de herramientas de visualización 2D y 3D.
Con esta estación de trabajo de ciencia de datos, el equipo de la NASA aprovecha el poder de las GPU para mejorar sus flujos de trabajo de análisis, lo que permite a los investigadores explorar e iterar más rápido y obtener resultados.
Tras filtrar y analizar los datos actuales, el equipo de la NASA utilizará esta información para analizar otros píxeles inicialmente marcados como "buenos" y confirmar si realmente son "buenos", validando así todo el conjunto de datos.
Si quieres hacer bien tu trabajo, primero debes perfeccionar tus herramientas
En IA y análisis de big data, si el flujo de trabajo en el entorno de la nube no responde, puede afectar seriamente el proyecto. A largo plazo, esas interrupciones pueden destruir las tendencias, la productividad y la motivación. Por lo tanto, Attie recomienda utilizar una estación de trabajo o una computadora portátil con GPU local. Este tipo de estación de trabajo o computadora portátil debe tener suficiente memoria para manejar algunos trabajos de procesamiento de datos para facilitar a los usuarios realizar investigaciones de modelos.
Attie cree: "He descubierto que una condición necesaria para un flujo de trabajo receptivo es que el dispositivo GPU tenga acceso rápido a los datos de entrada. Cuando los datos no se pueden guardar localmente en la máquina donde se encuentra el dispositivo GPU se encuentra, porque las aplicaciones de IA a menudo necesitan ser rápidas. Para acceder a los datos, es imprescindible una red muy rápida y flexible".
Attie y Kirk comparten los resultados del proyecto a través de publicaciones y revistas profesionales. Durante los talleres y reuniones, discutirán con colegas y demostrarán cómo obtener datos utilizando marcos específicos o código personalizado. A medida que más personas trabajan desde casa, los equipos de la NASA se familiarizan más con el uso de herramientas remotas para conectarse con otros y compartir los últimos hallazgos del proyecto.