Red de conocimiento informático - Problemas con los teléfonos móviles - Introducción al conocimiento básico de la serie de minería de big data de Python Organización del conocimiento (tutorial introductorio con código fuente)

Introducción al conocimiento básico de la serie de minería de big data de Python Organización del conocimiento (tutorial introductorio con código fuente)

En los últimos dos años, Python ha sido muy popular en la industria de big data. Como Pythonic, tengo que involucrarme en el análisis de big data.

Descripción general del análisis de datos y la tecnología de minería de Python

El llamado análisis de datos consiste en analizar los datos conocidos y luego extraer información valiosa, como el promedio estadístico, la desviación estándar, etc. Información, la cantidad de datos para el análisis de datos puede no ser demasiado grande, mientras que la minería de datos se refiere al análisis y extracción de una gran cantidad de datos para obtener información valiosa y desconocida. Por ejemplo, extraer información sobre la demanda potencial de los usuarios del sitio web y el comportamiento de los usuarios para mejorar el sitio web, etc.

El análisis de datos y la minería de datos son inseparables, y la minería de datos es una versión mejorada del análisis de datos. La tecnología de minería de datos puede ayudarnos a descubrir mejor los patrones entre las cosas. Por lo tanto, podemos utilizar la tecnología de minería de datos para ayudarnos a descubrir mejor los patrones entre las cosas. Por ejemplo, descubrir las necesidades potenciales de los usuarios, realizar un envío personalizado de información, descubrir los patrones entre enfermedades y síntomas, e incluso enfermedades y medicamentos, etc.

Primero debemos hablar sobre qué módulos están disponibles para el análisis de datos:

El siguiente es el uso básico de estos módulos.

Instalación y uso del módulo numpy

Instalación:

Descarga desde http://www.lfd.uci.edu/~gohlke/pythonlibs/ p>

El paquete de software que descargué aquí es la versión 1.11.3, la dirección es http://www.lfd.uci .edu/~gohlke/pythonlibs/f9r7rmd8/numpy-1.11.3+mkl-cp35 -cp35m -win_amd64.whl

Después de la descarga, use pip install "numpy-1.11.3+mkl-cp35-cp35m-win _amd64.whl"

La versión numpy instalada debe ser con la versión mkl para que pueda admitir mejor numpy

Uso simple de numpy

Generar números aleatorios

Utilice principalmente el método aleatorio en numpy.

pandas

Use pip install pandas y listo

Directamente en el código:

El siguiente es el resultado de pandas, este línea de números El número de columnas. El número en la primera columna es el número de filas. Coloque a en la primera fila y colóquelo en la primera columna:

Los métodos más utilizados son los siguientes:

p>

Echemos un vistazo a las estadísticas de pandas sobre datos. La información de cada fila es la siguiente

Función de transposición: convierte el número de filas en el número de columnas y convierte el número. de columnas en el número de filas, de la siguiente manera:

Importar datos a través de pandas

pandas admite múltiples formatos de entrada, que presentaré aquí. Una breve lista de los más comunes en la vida diaria. Para obtener más métodos de entrada, puede consultar el código fuente del sitio web oficial de este último.

Archivo CSV

La salida después de importar el archivo csv muestra que se genera de acuerdo con las filas predeterminadas del archivo csv. Genera tantas columnas como haya. Tengo cinco columnas de datos. Luego, cuando genere los resultados en Prinit, mostrará cinco columnas

tabla de Excel

Depende del módulo xlrd, instálelo.

Sigue igual, la salida original muestra la apariencia original de Excel, simplemente agregando un número de línea al comienzo de cada línea

Lectura de SQL

Dependencias para PyMySQL, por lo que necesitas instalarlo. pandas toma sql como entrada, debe especificar dos parámetros, el primero es la declaración sql y el segundo es la instancia de conexión sql.

La lectura de HTML

depende del módulo lxml, por lo que es necesario instalarlo.

Para páginas HTTPS, depende de los módulos BeautifulSoup4 y html5lib.

La lectura de HTML solo lee la tabla en HTML, es decir, solo

La visualización se muestra a través de una lista de Python al agregar identificadores de fila y columna

Leer Obtener el archivo txt

El resultado se muestra al agregar identificadores de filas y columnas

scipy

El método de instalación consiste en descargar primero el archivo en formato whl y luego instalarlo. a través de la instalación de pip "nombre del paquete". La dirección de descarga del paquete whl es: http://www.lfd.uci.edu/~gohlke/pythonlibs/f9r7rmd8/scipy-0.18.1-cp35-cp35m-win_amd64.whl

datos matplotlib visualización y análisis

Utilizamos directamente pip install para instalar el módulo. No es necesario descargar whl por adelantado e instalarlo mediante pip install.

Por favor mire el siguiente código:

El siguiente es el estilo de modificación de gráficos

En cuanto a los tipos de gráficos, existen los siguientes tipos:

En cuanto a los colores, existen los siguientes tipos:

En cuanto a las formas, existen los siguientes tipos:

También podemos modificar ligeramente los gráficos y agregar algunos estilos. Siguiente. , Modifique los gráficos de puntos a puntos rojos, el código es el siguiente.

También podemos dibujar un gráfico de líneas de puntos, el código es el siguiente:

También puedes agregar un título, una etiqueta de eje X, Y al gráfico, el código es el siguiente :

Histograma

Los histogramas proporcionan una buena manera de mostrar datos para cada segmento. A continuación se muestra un histograma que utiliza números aleatorios.

El eje Y es el número de ocurrencias y el eje X es el valor (o rango) del número.

También puedes especificar el tipo de histograma usando histtype parámetro:

El lenguaje gráfico de diferenciación no puede describirlo en detalle, así que no dudes en probarlo.

Ejemplo:

Función de subgrafo

¿Qué es una función de subgrafo? La subimagen es la función de mostrar varias imágenes pequeñas en un panel grande, y cada imagen pequeña es una subimagen del panel grande.

Sabemos que generar tramas requiere el uso de la función plot y las subtramas son subplogs. El código funciona de la siguiente manera:

Ahora podemos trazar una gran cantidad de datos y es fácil encontrar anomalías basadas en el gráfico. A continuación practicaremos a través de un archivo csv, que es la lectura y comentario de artículos del sitio web.

Primero, veamos la estructura de este archivo csv. La primera columna es el número de serie, la segunda columna es la URL de cada artículo y la tercera columna es el. número de lecturas de cada artículo. La cuarta columna es el número de comentarios por artículo.

Nuestro requisito es utilizar el número de comentarios como el eje Y y el número de lecturas como el eje X, por lo que necesitamos obtener los datos en el tercer y cuartas columnas. Sabemos que la forma de obtener datos es obtener el valor de una fila mediante el método de valores de pandas. Al dividir el valor de esta fila, necesitamos obtener los valores de los subíndices 3 (número de lecturas) y. 4 (número de comentarios), pero aquí es solo el valor de una fila. Lo que necesitamos es el archivo csv debajo de todo el número de comentarios y el número de lecturas, entonces, ¿qué debemos hacer? Si es inteligente, dirá que personalicé 2 listas. Recorrí el archivo csv y agregué la cantidad de lecturas y la cantidad de comentarios a las listas correspondientes. Jaja, de hecho, existe un método más rápido, que es utilizar el método de transposición T. Luego, a través del método de valores, puede obtener directamente el número de anotaciones y lecturas. Método pylab proporcionado por matplotlib. Una vez que comprenda la idea, comience a escribir.

Veamos el código: