¿Qué bibliotecas están disponibles en Python?
Las 6 bibliotecas más importantes en Python:
Primera, NumPy
NumPy es Numérica
La abreviatura de Python es Python La piedra angular de la computación numérica. Proporciona una variedad de estructuras de datos, algoritmos e interfaces necesarios para la mayoría de los cálculos numéricos que involucran Python. NumPy también incluye otros contenidos:
①Ndarray de objeto de matriz multidimensional rápido y eficiente
②Cálculo de matriz basado en elementos o función de operación matemática entre matrices
③Utilice herramientas para lectura y escritura de conjuntos de datos basados en matrices en discos duros
④Operaciones de álgebra lineal, transformadas de Fourier y generación de números aleatorios
Además de las rápidas capacidades de procesamiento de matrices que NumPy le brinda a Python, otra importante El uso de NumPy es como un contenedor de datos para pasar datos entre algoritmos y bibliotecas. Para datos numéricos, las matrices NumPy pueden almacenar y manipular datos de manera más eficiente que las estructuras de datos integradas de Python.
En segundo lugar, pandas
pandas proporciona estructuras y funciones de datos avanzadas. El diseño de estas estructuras y funciones de datos hace que trabajar con datos estructurados y tabulares sea rápido, simple y eficaz. Apareció en 2010 y ayudó a Python a convertirse en un entorno de análisis de datos potente y eficiente. Los objetos pandas más utilizados son DataFrame, que es una estructura de datos utilizada para implementar etiquetas tabulares, orientadas a columnas y de filas y columnas, y Series, un objeto de matriz de etiquetas unidimensional.
Pandas combina las capacidades flexibles de manipulación de datos de las bases de datos tabulares y relacionales con el concepto de computación de matrices de alto rendimiento de Numpy. Proporciona funciones de índice complejas, lo que simplifica la reorganización, división, agregación y selección de subconjuntos de datos. Dado que la manipulación, el preprocesamiento y la limpieza de datos son habilidades importantes en el análisis de datos, los pandas serán un tema importante.
En tercer lugar, matplotlib
matplotlib es la biblioteca de Python más popular para gráficos y otras visualizaciones de datos bidimensionales. Fue creada por John D.
Hunter. Actualmente mantenido por un gran equipo de desarrolladores. matplotlib está diseñado como una herramienta de trazado adecuada para publicación.
Existen otras bibliotecas de visualización para programadores de Python, pero matplotlib sigue siendo la más utilizada y está bien integrada con otras bibliotecas del ecosistema.
Cuarto, IPython
El proyecto IPython comenzó en 2001 y fue iniciado por Fernando
Pérez para desarrollar un intérprete de Python más interactivo. Durante los últimos 16 años, se ha convertido en una de las herramientas más importantes en la pila de tecnología de datos de Python.
Aunque no proporciona ninguna herramienta informática o de análisis de datos per se, está diseñado para centrarse en maximizar la productividad tanto en la informática interactiva como en el desarrollo de software. Utiliza un flujo de trabajo de ejecución-exploración en lugar del típico flujo de trabajo de edición-compilación-ejecución que se encuentra en otros idiomas. También proporciona interfaces fáciles de usar para la línea de comandos y el sistema de archivos del sistema operativo. Dado que el trabajo de codificación de análisis de datos implica mucha exploración, experimentación, prueba y error y recorrido, IPython puede ayudarlo a completar su trabajo más rápido.
En quinto lugar, SciPy
SciPy es una colección de paquetes para diferentes dominios de problemas estándar en el campo de la informática científica.
Los siguientes son algunos paquetes incluidos en SciPy:
①scipy.integrate rutinas de integración numérica y solucionadores de ecuaciones diferenciales
②scipy.linalg rutinas de álgebra lineal y factorización matricial basadas en numpy.linalg
③scipy.optimize optimizador de funciones y algoritmo de búsqueda de raíces
④herramienta de procesamiento de señales scipy.signal
⑤scipy.sparse matriz dispersa y solucionador de sistemas lineales dispersos
p>
SciPy y Numpy juntos proporcionan una base informática razonable, completa y madura para muchas aplicaciones informáticas científicas tradicionales.
Sexto, scikit-learn
El proyecto scikit-learn nació en 2010 y se ha convertido en el conjunto de herramientas de aprendizaje automático preferido por los programadores de Python. En solo siete años, scikit-learn cuenta con 1.500 contribuyentes de código en todo el mundo. Contiene los siguientes submódulos:
①Clasificación: SVM, vecino más cercano, bosque aleatorio, regresión logística, etc.
②Regresión: Lasso, regresión Ridge, etc.
③ Agrupación: K-medias, agrupación espectral, etc.
④Reducción de dimensionalidad: PCA, selección de características, descomposición de matrices, etc.
⑤Selección de modelo: búsqueda de cuadrícula, análisis cruzado validación, matriz de índice
⑥Preprocesamiento: extracción de características, normalización
scikit-learn, junto con pandas, statsmodels e IPython, hacen de Python un lenguaje de programación de ciencia de datos eficiente.