Red de conocimiento informático - Problemas con los teléfonos móviles - Comience con la minería de datos de Python

Comience con la minería de datos de Python

I. Arquitectura básica de minería de datos basada en Python

1. matplotlib, pandas gráficos, la clave para la minería de datos, que proporciona varios algoritmos de análisis de minería

3. numpy, proporciona estadísticas básicas

scipy, proporciona varias fórmulas matemáticas

4. python common lib, marco básico de Python

II. >

1. Instalar python

2. Instalar pip

pandas depende de la versión de pip, el mínimo es 8.0.0, si la versión de pip es inferior a 8, por ejemplo. Como 7.2 .1, necesitas actualizar pip.

El comando es "python -m pip install -U pip", que es la versión de Windows.

Linux es "pip install -U pip"

Utilice el comando "pip --version", puede ver el número de versión de pip

3. Instalación de pandas

El comando es "pip install pandas", que es la versión de Windows.

Aplicable a la plataforma Linux

sudo apt-get install python-pandas

4 Instalar matplotlib

pip install matplotlib

III.Tipos de datos

Tipos comunes de Python

Conjunto de dictados de tuplas de lista de cadenas

6 tipos de campanas y silbidos

lista, tupla, cadena, cadena Unicode, objeto de búfer, xrange

tipo de pandas

ndarray, serie dateFrame

ndarray, tipo de matriz, el motivo de la adición es :

Las listas y tuplas se diseñan en base a objetos puntero. Es decir, las listas y tuplas almacenan punteros void*, que apuntan a datos de objetos específicos.

Dado que todos son punteros nulos*, pueden almacenar varios tipos de datos, es decir, los tipos de datos pueden no ser uniformes.

Aunque las funciones de almacenamiento son ricas, se producirán deficiencias si la cantidad de datos es demasiado grande, es decir, al procesar grandes datos.

1. Gran espacio de almacenamiento y desperdicio de memoria. Debido a que hay dos partes del almacenamiento, los datos del puntero

2. La velocidad de lectura es lenta, el puntero se encuentra a través del índice y los datos se encuentran de acuerdo con el puntero

Entonces, cuando Al procesar big data, se agrega ndarray, tipo numérico, similar a la matriz C. El almacenamiento es el mismo y la lectura y modificación son rápidas.

Alias: matriz, ayuda a ahorrar memoria, mejora el tiempo de cálculo de la CPU, tiene funciones de procesamiento enriquecidas

Secuencia, diccionario de longitud variable,

Similar a un objeto de matriz dimensional ; compuesto de datos e índices

El motivo de la adición es:

dict está desordenado y existe una relación de mapeo entre sus claves y valores. Sin embargo, la clave y el valor no son independientes entre sí, sino que se almacenan juntos.

Si necesitas operar uno de ellos, afectará al otro. Por lo tanto, para las series, las claves y valores de la serie son independientes y se almacenan de forma independiente.

Las llaves de la serie son de longitud fija y ordenadas.

Puede obtener el índice completo mediante series.key y todos los valores mediante series.values.

La clave de una serie se puede configurar con un nombre único a través de series.index.name.

Con series.name, también puedes configurar toda la serie con un nombre único

Marco de datos:

1. p >2. Contiene un conjunto de secuencias (similares a índices)

3:}

frame = pd.DataFrame(data1)

---- - -------------------- -----------------------

IV. Proceso básico de análisis de datos:

1. Obtener datos

2. Preparación de datos: estandarizar y crear varios índices

3. depuración

Por ejemplo, df.index, df.values, df.head(n), df.tail(n) df.describe

4.

Adquisición de índice, adquisición de sectores, adquisición de filas y columnas, adquisición de área rectangular

Adquisición de índice, df.row1 o df, df.iloc también se puede enumerar

gt; ; lista2=

gt; lista3=

gt;

gt;gt;gt; lista6=

gt;gt;gt; tempdate = (lista1, lista2, lista3, lista4, lista5, lista6)

gt;gt;gt;

gt;gt;gt;tempdate

([88, 64, 96, 85], [92, 99, 95, 94], [ 91 , 87, 99, 95], [78, 99, 97, 81], [88, 78

, 98, 84], [100, 95, 100, 92])

gt;gt;gt; fecha = vstack(tempdate)

gt;gt;gt;

gt;gt;gt;fecha

array ( [[ 88, 64, 96, 85],

[ 92, 99, 95, 94],

[ 91, 87, 99, 95],

[78, 99, 97, 81],

[88, 78, 98, 84],

[100, 95, 100, 92]]

gt; gt; gt; centroids, abc=kmeans(date, 2) # Encuentra el punto central del clúster. , 5 si hay 5 categorías

gt;gt;gt; centroids # Encuentra el punto central según cada columna, que puede ser el valor promedio

array([[88 , 71 , 97, 84],

[90, 95, 97, 90]])

gt;gt;gt;

gt;gt; gt; result, cde=vq(date, centroids) # Clasifica el conjunto de datos según el centro del clúster

gt; gt; 1, 1, 0, 1])

2. Conceptos básicos de dibujo

La biblioteca de gráficos de Python consta de dos partes:

Api de dibujo, m.

atplotlib proporciona varias interfaces de trazado.

La biblioteca integrada pylab (que incluye métodos comunes en numpy y matplotlib) hace que dibujar sea más rápido y conveniente.

importar numpy como np

importar matplotlib.pyplot como plt

t = np.range(0, 10)

plt. trama(t, t 2)

plt.show()

--------------------

importar pylab como pl

t = np.arange(0, 10)

plt.plot(t, t 2)

plt.show ()

3.title('trama de Python de Philip')

plt.xlabel('fecha')

plt.ylabel('valor ')

Otros: pl.figure(figsize=(8, 6), dpi =100)

pl.plot(x, y, color=(8, 6)) 4. trazado de pandas

Series, DataFrame admite el trazado directo y encapsula la interfaz para llamar a matplotlib, como

series.close.plot()

df .close .plot() # Los parámetros específicos son similares a la interfaz común de matplotlib

Control de atributos

Similar a la interfaz común de matplotlib, puede modificar varios tipos de imágenes, histogramas, gráficos de líneas, etc.

--------común-----------------

lista, tupla, dict

-------- numpy-----------------

ndarray, serie, marco de datos