Red de conocimiento informático - Aprendizaje de código fuente - Descubriendo el Sol: la NASA utiliza una estación de trabajo de ciencia de datos para acelerar el análisis de imágenes solares 150 veces

Descubriendo el Sol: la NASA utiliza una estación de trabajo de ciencia de datos para acelerar el análisis de imágenes solares 150 veces

Los científicos utilizan estaciones de trabajo de ciencia de datos HP serie Z impulsadas por RTX para realizar análisis y cálculos de datos de CPU que solían tardar años en completarse en menos de una semana.

La NASA está utilizando GPU Quadro RTX para acelerar el análisis de datos.

El Observatorio de Dinámica Solar de la NASA (Observatorio de Dinámica Solar) ayuda a los científicos e investigadores a obtener una comprensión más profunda de varios tipos de cambios solares y su impacto en la vida en la Tierra mediante la recopilación de imágenes del sol.

Estos datos son extremadamente valiosos para los investigadores, pero con más de 18 petabytes de imágenes recopiladas, analizar esta información es extremadamente difícil.

Con las estaciones de trabajo de ciencia de datos HP serie Z con tecnología Quadro RTX, los equipos de la NASA pueden ordenar datos y analizar imágenes fácilmente hasta 150 veces más rápido que las CPU.

Retos del Big Data que enfrenta la NASA

El observatorio recopila datos tomando imágenes del sol cada 1,3 segundos. Los investigadores desarrollaron un algoritmo que elimina errores en las imágenes, como píxeles defectuosos, y luego colocaron las imágenes en un archivo que crece día a día.

El algoritmo es muy preciso, pero con casi 20 petabytes de imágenes, miles de millones de píxeles se confunden con errores. Por lo tanto, el equipo de la NASA necesitaba revisar 150 millones de archivos de errores (un total de aproximadamente 100 mil millones de inspecciones individuales) y encontrar una manera de clasificar y etiquetar los píxeles buenos de los malos.

Esto es casi imposible de hacer usando cálculos convencionales. Si utiliza una CPU, tardará años en obtener los resultados. Incluso utilizando los mejores algoritmos de CPU multiproceso que se pueden crear actualmente, se necesitaría aproximadamente un año para calcular y analizar todos los datos.

Raphael Attie, astrónomo solar del Centro de Vuelos Espaciales Goddard de la NASA, dijo: "Un año no es suficiente para los científicos porque todavía tenemos que explorar e iterar sobre lo que hemos descubierto. Resultados. Incluso si el cálculo Aunque toma un año, todavía nos llevará hasta diez años obtener resultados concretos."

Para obtener resultados en menos tiempo, el equipo de la NASA comenzó a estudiar lo que proporcionan las GPU NVIDIA. Procesamiento paralelo capacidades.

Los datos masivos requieren mejores soluciones.

Los recursos de supercomputación de la NASA son muy limitados. Los investigadores deben proporcionar información detallada sobre cuántos recursos informáticos se necesitan y durante cuánto tiempo. Pero es difícil proporcionar detalles cuando el equipo no está seguro de cuántos recursos informáticos utilizar para ejecutar experimentos con grandes cantidades de datos.

Con la estación de trabajo de ciencia de datos HP Z-Series con dos GPU Quadro RTX 8000 integradas, los investigadores de la NASA pueden obtener recursos de supercomputación por sí mismos. Han comenzado a utilizar tecnología de análisis de big data y la biblioteca de computación acelerada de NVIDIA para estudiar el proyecto, aprovechando al máximo el rendimiento de las GPU de NVIDIA.

La estación de trabajo de ciencia de datos permitió al equipo completar el análisis de imágenes y obtener resultados en menos de una semana.

Michael Kirk, astrofísico de la NASA a cargo de la investigación científica, dijo: "Esta estación de trabajo de ciencia de datos ofrece enormes posibilidades a nuestra investigación. Ahora podemos realizar estos cálculos que antes eran inimaginables, y hacerlo más rápido de lo que imaginamos". sería entre 10 y 150 veces más rápido."

El equipo de la NASA ha llevado a cabo una extensa investigación sobre el sol utilizando inteligencia artificial, aprendizaje automático y análisis de datos.

La mayoría de sus flujos de trabajo de ciencia de datos se basan en Python y utilizan TensorFlow, Dask, CuPy y otras aplicaciones para realizar el trabajo pesado de procesamiento de datos; utilizan Pandas, RAPIDS y CuDF para la investigación estadística y también utilizan varias visualizaciones 2D y 3D; . herramienta.

Con esta estación de trabajo de ciencia de datos, el equipo de la NASA utiliza plenamente el rendimiento de la GPU para mejorar su flujo de trabajo de análisis, lo que permite a los investigadores explorar e iterar cálculos y obtener resultados más rápido.

Después de que el equipo de la NASA filtre y analice los datos actuales, utilizará esta información para analizar otros píxeles originalmente marcados como "buenos" para confirmar si realmente son "buenos", validando así todo el conjunto de datos.

Si quieres hacer bien tu trabajo, primero debes perfeccionar tus herramientas.

En IA y análisis de big data, si el flujo de trabajo en el entorno de la nube no responde, puede afectar seriamente afectar el proyecto. A largo plazo, estas perturbaciones pueden alterar las tendencias, la productividad y el impulso. Por lo tanto, Attie recomienda utilizar una estación de trabajo o una computadora portátil con GPU local. Estas estaciones de trabajo o portátiles deberían tener suficiente memoria para manejar parte del trabajo de procesamiento de datos, lo que facilitaría a los usuarios realizar investigaciones de modelos.

Attie cree: "He descubierto que lo que es necesario para que el flujo de trabajo responda es permitir que el dispositivo GPU acceda rápidamente a los datos de entrada. Cuando los datos no se pueden guardar localmente en la máquina donde se encuentra el dispositivo GPU está ubicado, porque las aplicaciones de IA a menudo necesitan acceder a los datos rápidamente, por lo que es imprescindible una red muy rápida y flexible”

Attie y Kirk comparten los resultados del proyecto a través de publicaciones y revistas profesionales. Durante los talleres y conferencias, discutirán con colegas y demostrarán cómo obtener datos utilizando marcos específicos o código personalizado. A medida que más personas trabajan desde casa, los equipos de la NASA se familiarizan más con el uso de herramientas remotas para conectarse con otros y compartir los últimos hallazgos del proyecto.