Red de conocimiento informático - Problemas con los teléfonos móviles - Conceptos básicos de Python: paquetes de software comunes para análisis de datos

Conceptos básicos de Python: paquetes de software comunes para análisis de datos

Este artículo se centrará en varias de las bibliotecas más utilizadas en Python:

SymPy es una biblioteca informática científica para Python. Tiene un potente sistema informático científico que cubre todo, desde operaciones simbólicas básicas hasta matemáticas computacionales y álgebra. , matemáticas discretas, física cuántica y otros campos amplios. Puede realizar problemas de cálculo como evaluación de polinomios, búsqueda de límites, resolución de ecuaciones, ecuaciones diferenciales, expansión de secuencias y operaciones matriciales.

Aunque las funciones informáticas científicas similares de Matlab son muy poderosas, personalmente se considera que Python es una solución más elegante debido a su sintaxis simple, facilidad de uso y un ecosistema de bibliotecas de terceros extremadamente rico. encontrado diariamente.

Numpy es un importante paquete de software en los campos del análisis de datos, el aprendizaje automático y la informática científica. Simplifica enormemente la operación y el procesamiento de momentos vectoriales. Muchos paquetes de procesamiento de datos de Python dependen de Numpy como parte central de su infraestructura (como Scikit-learn, Scipy, Pandas y tensflow).

Scipy es científico. Conjunto de herramientas informáticas que maneja interpolación, integración, optimización, procesamiento de imágenes, resolución de datos de ecuaciones diferenciales ordinarias y procesamiento de información. Está construido sobre Numpy. Se puede utilizar para calcular matrices de Numpy de manera eficiente, lo que permite que Numpy y Scipy trabajen juntos para resolver problemas de manera eficiente

Sklearn es un paquete de aprendizaje automático creado en Numpy, Scipy y matplotlib. Sus funciones principales se dividen en seis partes: clasificación, regresión, agrupamiento, reducción de dimensionalidad de datos, selección de modelo y preprocesamiento de datos, y su rendimiento también es muy bueno.

Sin embargo, sklearn no admite el aprendizaje profundo y el aprendizaje por refuerzo, el modelado de gráficos y la predicción de secuencias, ni admite otros lenguajes excepto Python, PyPy y la aceleración de GPU.

Los submódulos comúnmente utilizados son:

Statsmodels se utiliza para ajustar modelos estadísticos, estimación de parámetros, prueba de hipótesis, evaluación de incertidumbre y exploración y visualización de datos. En comparación con sklearn, los modelos estadísticos se centran más en la inferencia estadística, los valores p y la evaluación de la incertidumbre. Los submódulos comúnmente utilizados incluyen:

Matplotlib es una herramienta de dibujo en Python similar a matlab. De hecho, en el módulo matplot.pyplot, matplotlib tiene un conjunto de interfaces de dibujo funcionales que siguen completamente a MATLAB, lo que permite a los usuarios de MATLAB cambiar fácilmente a matplotlib

Seaborn está empaquetado en matplotlib, pero seaborn se utiliza para trazado estadístico. En términos generales, seaborn puede satisfacer el 90% de las necesidades de dibujo en análisis de datos.

Seaborn está diseñado para hacer de la visualización una parte central de la exploración y comprensión de los datos. Sus capacidades de trazado orientadas a conjuntos de datos operan en marcos de datos y grupos de datos que contienen conjuntos de datos completos y realizan internamente el mapeo semántico y la agregación estadística necesarios para producir infografías.

Seaborn puede dibujar mapas de calor, diagramas de dispersión, histogramas, diagramas de caja, diagramas de árboles, mapas de calor, etc.

Pandas se basa en matrices Numpy y está especialmente diseñado para manejar tablas y datos mixtos, mientras que Numpy es más adecuado para procesar matrices de datos uniformes.

Referencias: