¿Cuáles son las herramientas de análisis de datos de Python?
IPython
IPython es un shell de línea de comandos para cálculos interactivos entre múltiples lenguajes de programación. Fue desarrollado originalmente en Python y proporciona introspección mejorada, medios enriquecidos y shell extendido.
sintaxis, finalización de tabulación, historial enriquecido y otras funciones. IPython proporciona las siguientes características:
Shell interactivo más potente (terminal basado en Qt)
Un bloc de notas basado en navegador que admite código, texto sin formato, fórmulas matemáticas y gráficos integrados. otros medios enriquecidos
Admite visualización interactiva de datos y herramientas de interfaz gráfica
Flexible, el intérprete se puede integrar y cargar en cualquier proyecto propio
Fácil de usar, alto -Herramientas de rendimiento para computación paralela
Proporcionadas por Nir Kaldero, director de análisis de datos y experto en Galvanize.
GraphLab Greate es una biblioteca de Python impulsada por un motor C++ que puede crear rápidamente productos de datos de alto rendimiento y a gran escala.
Estas son algunas características de GraphLab Greate:
Analiza terabytes de datos a velocidad interactiva en tu computadora.
Se pueden analizar datos tabulares, curvas, texto e imágenes en una única plataforma.
Los últimos algoritmos de aprendizaje automático incluyen aprendizaje profundo, árboles evolutivos y teoría de máquinas de factorización.
El mismo código se puede ejecutar en su computadora portátil o sistema distribuido usando Hadoop Yarn o agrupación en clústeres EC2.
Céntrese en tareas o aprendizaje automático con funciones API flexibles.
Configure cómodamente productos de datos con servicios de predicción en la nube.
Cree visualizaciones de datos para el descubrimiento y seguimiento de productos.
Contribuido por Benjamin Skrainka, científico de datos de Galvanize.
Pandas
pandas es un software de código abierto con una licencia BSD de código abierto que proporciona estructuras de datos y datos de alto rendimiento y fáciles de usar para Python
lenguaje de programación. En términos de modificación y preprocesamiento de datos, Python es famoso desde hace mucho tiempo, pero en términos de análisis y modelado de datos, Python
es un defecto. El software Pands llena este vacío, permitiéndole usar cómodamente Python para procesar todos sus datos, sin tener que cambiar a lenguajes profesionales más convencionales, como el lenguaje R.
Al integrar el potente kit de herramientas IPython y otras bibliotecas, su entorno de desarrollo para análisis de datos en Python tiene excelente rendimiento, velocidad y compatibilidad. Pands
no realiza funciones de modelado importantes más allá de la regresión lineal y la regresión de panel; para ello, consulte la herramienta de modelado estadístico statsmodel y la biblioteca scikit-learn. Para convertir Python
en un entorno de análisis y modelado estadístico de alto nivel, necesitamos hacer más esfuerzos, pero ya estamos luchando en este camino.
Contribuido por el experto en Galvanize y científico de datos Nir Kaldero.
PuLP
La programación lineal es una optimización en la que la función de un objeto está restringida al máximo. PuLP es un modelo de programación lineal escrito en Python
. Puede generar archivos lineales y puede llamar a solucionadores altamente optimizados, GLPK, COIN CLP/CBC, CPLEX y GUROBI, para resolver estos problemas lineales.
Contribución del científico de datos de Galvanize Isaac Laughlin
Matplotlib
matplotlib es una biblioteca de trazado
2D (datos) basada en Python que genera (Salida) Diagramas con calidad de publicación para su uso en una variedad de formatos originales en papel impreso y entornos interactivos multiplataforma. matplotlib se puede utilizar en scripts de Python, interfaces de shell de Python e ipython (¿como MATLAB? o Mathematica?), servidores de aplicaciones web y cajas de herramientas GUI de 6 tipos.
matplotlib intenta hacer que las cosas fáciles sean más fáciles y las difíciles posibles. Sólo necesitas unas pocas líneas de código para generar gráficos, histogramas, espectros de potencia, histogramas, gráficos de errores, diagramas de dispersión, etc.
Para simplificar el trazado de datos, pyplot proporciona una interfaz similar a MATLAB, especialmente cuando se usa con IPython
***. Para usuarios avanzados, puede personalizar completamente, incluidos estilos de línea, propiedades de fuente, propiedades de coordenadas, etc., con la ayuda de una interfaz orientada a objetos o una interfaz similar (MATLAB) para usuarios de MATLAB.
Contribuido por Mike Tamir, director científico de Galvanize.
Scikit-Learn
Scikit-Learn es una herramienta de análisis y extracción de datos (biblioteca) sencilla y eficaz. Lo mejor es que está disponible para todos y puede reutilizarse en múltiples contextos. Está construido sobre NumPy, SciPy y mathplotlib. Scikit tiene la licencia BSD de código abierto y también está disponible comercialmente. Scikit-Learn
tiene las siguientes características:
Clasificación: identifica a qué categoría pertenece un objeto
Regresión: predice la relación entre objetos Atributos de valores continuos
Agrupación: agrupa automáticamente objetos similares en colecciones
Reducción de dimensionalidad: reduce la cantidad de variables aleatorias que deben considerarse
Selección de modelo (Selección de modelo): Comparar , verificar y seleccionar parámetros y modelos
Preprocesamiento (Preprocesamiento) – Extracción y normalización de características
Instructor de ciencia de datos de la empresa Galvanize, Isaac Laughlin
Spark
Spark consta de un programa controlador que ejecuta la función principal del usuario y realiza múltiples operaciones paralelas en los clústeres. La parte más atractiva de Spark
es el conjunto de datos distribuidos elásticos (RDD) que proporciona, que es una colección de elementos divididos según nodos agrupados, que se pueden utilizar en computación paralela. Los RDD se pueden crear a partir de archivos en un sistema de archivos Hadoop (o archivos en otros sistemas de archivos compatibles con Hadoop) u otras colecciones de datos escalares existentes en el controlador, y transformarlos. Es posible que los usuarios quieran que Spark
almacene los RDD de forma permanente en la memoria para reutilizarlos de manera eficiente a través de operaciones paralelas. En última instancia, los RDD no se pueden restaurar automáticamente desde los nodos.
El segundo aspecto atractivo de Spark es la posibilidad de compartir variables en operaciones paralelas. De forma predeterminada, cuando Spark ejecuta una función en paralelo como un conjunto de tareas en diferentes nodos, envía una copia de las variables utilizadas en cada función a cada tarea. A veces, es necesario que muchas tareas y controladores compartan una variable.
Spark
Admite dos formas de compartir variables: variables de transmisión, que se pueden usar para almacenar en caché datos en todos los nodos. Otra forma es el acumulador, que es una variable que solo se puede utilizar para realizar sumas, como en contadores y operaciones de suma.