Introducción al conocimiento básico de la serie de minería de big data de Python Organización del conocimiento (tutorial introductorio con código fuente)
En los últimos dos años, Python ha sido muy popular en la industria de big data. Como Pythonic, tengo que involucrarme en el análisis de big data.
Descripción general del análisis de datos y la tecnología de minería de Python
El llamado análisis de datos consiste en analizar los datos conocidos y luego extraer información valiosa, como el promedio estadístico, la desviación estándar, etc. Información, la cantidad de datos para el análisis de datos puede no ser demasiado grande, mientras que la minería de datos se refiere al análisis y extracción de una gran cantidad de datos para obtener información valiosa y desconocida. Por ejemplo, extraer información sobre la demanda potencial de los usuarios del sitio web y el comportamiento de los usuarios para mejorar el sitio web, etc.
El análisis de datos y la minería de datos son inseparables, y la minería de datos es una versión mejorada del análisis de datos. La tecnología de minería de datos puede ayudarnos a descubrir mejor los patrones entre las cosas. Por lo tanto, podemos utilizar la tecnología de minería de datos para ayudarnos a descubrir mejor los patrones entre las cosas. Por ejemplo, descubrir las necesidades potenciales de los usuarios, realizar un envío personalizado de información, descubrir los patrones entre enfermedades y síntomas, e incluso enfermedades y medicamentos, etc.
Primero debemos hablar sobre qué módulos están disponibles para el análisis de datos:
El siguiente es el uso básico de estos módulos.
Instalación y uso del módulo numpy
Instalación:
Descarga desde http://www.lfd.uci.edu/~gohlke/pythonlibs/ p> p>
El paquete de software que descargué aquí es la versión 1.11.3, la dirección es http://www.lfd.uci .edu/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3+mkl-cp35 -cp35m -win_amd64.whl
Después de la descarga, use pip install "numpy-1.11.3+mkl-cp35-cp35m-win _amd64.whl"
La versión numpy instalada debe ser con la versión mkl para que pueda admitir mejor numpy
Uso simple de numpy
Generar números aleatorios
Utilice principalmente el método aleatorio en numpy.
pandas
Use pip install pandas y listo
Directamente en el código:
El siguiente es el resultado de pandas, este línea de números El número de columnas. El número en la primera columna es el número de filas. Coloque a en la primera fila y colóquelo en la primera columna:
Los métodos más utilizados son los siguientes:
p>
Echemos un vistazo a las estadísticas de pandas sobre datos. La información de cada fila es la siguiente
Función de transposición: convierte el número de filas en el número de columnas y convierte el número. de columnas en el número de filas, de la siguiente manera:
Importar datos a través de pandas
pandas admite múltiples formatos de entrada, que presentaré aquí. Una breve lista de los más comunes en la vida diaria. Para obtener más métodos de entrada, puede consultar el código fuente del sitio web oficial de este último.
Archivo CSV
La salida después de importar el archivo csv muestra que se genera de acuerdo con las filas predeterminadas del archivo csv. Genera tantas columnas como haya. Tengo cinco columnas de datos. Luego, cuando genere los resultados en Prinit, mostrará cinco columnas
tabla de Excel
Depende del módulo xlrd, instálelo.
Sigue igual, la salida original muestra la apariencia original de Excel, simplemente agregando un número de línea al comienzo de cada línea
Lectura de SQL
Dependencias para PyMySQL, por lo que necesitas instalarlo. pandas toma sql como entrada, debe especificar dos parámetros, el primero es la declaración sql y el segundo es la instancia de conexión sql.
La lectura de HTML
depende del módulo lxml, por lo que es necesario instalarlo.
Para páginas HTTPS, depende de los módulos BeautifulSoup4 y html5lib.
La lectura de HTML solo lee la tabla en HTML, es decir, solo
La visualización se muestra a través de una lista de Python al agregar identificadores de fila y columna
Leer Obtener el archivo txt
El resultado se muestra al agregar identificadores de filas y columnas
scipy
El método de instalación consiste en descargar primero el archivo en formato whl y luego instalarlo. a través de la instalación de pip "nombre del paquete". La dirección de descarga del paquete whl es: http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl
datos matplotlib visualización y análisis
Utilizamos directamente pip install para instalar el módulo. No es necesario descargar whl por adelantado e instalarlo mediante pip install.
Por favor mire el siguiente código:
El siguiente es el estilo de modificación de gráficos
En cuanto a los tipos de gráficos, existen los siguientes tipos: p>
En cuanto a los colores, existen los siguientes tipos:
En cuanto a las formas, existen los siguientes tipos:
También podemos modificar ligeramente los gráficos y agregar algunos estilos. Siguiente. , Modifique los gráficos de puntos a puntos rojos, el código es el siguiente.
También podemos dibujar un gráfico de líneas de puntos, el código es el siguiente:
También puedes agregar un título, una etiqueta de eje X, Y al gráfico, el código es el siguiente :
Histograma
Los histogramas proporcionan una buena manera de mostrar datos para cada segmento. A continuación se muestra un histograma que utiliza números aleatorios.
El eje Y es el número de ocurrencias y el eje X es el valor (o rango) del número.
También puedes especificar el tipo de histograma usando histtype parámetro:
El lenguaje gráfico de diferenciación no puede describirlo en detalle, así que no dudes en probarlo.
Ejemplo:
Función de subgrafo
¿Qué es una función de subgrafo? La subimagen es la función de mostrar varias imágenes pequeñas en un panel grande, y cada imagen pequeña es una subimagen del panel grande.
Sabemos que generar tramas requiere el uso de la función plot y las subtramas son subplogs. El código funciona de la siguiente manera:
Ahora podemos trazar una gran cantidad de datos y es fácil encontrar anomalías basadas en el gráfico. A continuación practicaremos a través de un archivo csv, que es la lectura y comentario de artículos del sitio web.
Primero, veamos la estructura de este archivo csv. La primera columna es el número de serie, la segunda columna es la URL de cada artículo y la tercera columna es el. número de lecturas de cada artículo. La cuarta columna es el número de comentarios por artículo.
Nuestro requisito es utilizar el número de comentarios como el eje Y y el número de lecturas como el eje X, por lo que necesitamos obtener los datos en el tercer y cuartas columnas. Sabemos que la forma de obtener datos es obtener el valor de una fila mediante el método de valores de pandas. Al dividir el valor de esta fila, necesitamos obtener los valores de los subíndices 3 (número de lecturas) y. 4 (número de comentarios), pero aquí es solo el valor de una fila. Lo que necesitamos es el archivo csv debajo de todo el número de comentarios y el número de lecturas, entonces, ¿qué debemos hacer? Si es inteligente, dirá que personalicé 2 listas. Recorrí el archivo csv y agregué la cantidad de lecturas y la cantidad de comentarios a las listas correspondientes. Jaja, de hecho, existe un método más rápido, que es utilizar el método de transposición T. Luego, a través del método de valores, puede obtener directamente el número de anotaciones y lecturas. Método pylab proporcionado por matplotlib. Una vez que comprenda la idea, comience a escribir.
Veamos el código: