Comience con la minería de datos de Python
1. matplotlib, pandas gráficos, la clave para la minería de datos, que proporciona varios algoritmos de análisis de minería
3. numpy, proporciona estadísticas básicas
scipy, proporciona varias fórmulas matemáticas
4. python common lib, marco básico de Python
II. >
1. Instalar python
2. Instalar pip
pandas depende de la versión de pip, el mínimo es 8.0.0, si la versión de pip es inferior a 8, por ejemplo. Como 7.2 .1, necesitas actualizar pip.
El comando es "python -m pip install -U pip", que es la versión de Windows.
Linux es "pip install -U pip"
Utilice el comando "pip --version", puede ver el número de versión de pip
3. Instalación de pandas
El comando es "pip install pandas", que es la versión de Windows.
Aplicable a la plataforma Linux
sudo apt-get install python-pandas
4 Instalar matplotlib
pip install matplotlib
III.Tipos de datos
Tipos comunes de Python
Conjunto de dictados de tuplas de lista de cadenas
6 tipos de campanas y silbidos
lista, tupla, cadena, cadena Unicode, objeto de búfer, xrange
tipo de pandas
ndarray, serie dateFrame
ndarray, tipo de matriz, el motivo de la adición es :
Las listas y tuplas se diseñan en base a objetos puntero. Es decir, las listas y tuplas almacenan punteros void*, que apuntan a datos de objetos específicos.
Dado que todos son punteros nulos*, pueden almacenar varios tipos de datos, es decir, los tipos de datos pueden no ser uniformes.
Aunque las funciones de almacenamiento son ricas, se producirán deficiencias si la cantidad de datos es demasiado grande, es decir, al procesar grandes datos.
1. Gran espacio de almacenamiento y desperdicio de memoria. Debido a que hay dos partes del almacenamiento, los datos del puntero
2. La velocidad de lectura es lenta, el puntero se encuentra a través del índice y los datos se encuentran de acuerdo con el puntero
Entonces, cuando Al procesar big data, se agrega ndarray, tipo numérico, similar a la matriz C. El almacenamiento es el mismo y la lectura y modificación son rápidas.
Alias: matriz, ayuda a ahorrar memoria, mejora el tiempo de cálculo de la CPU, tiene funciones de procesamiento enriquecidas
Secuencia, diccionario de longitud variable,
Similar a un objeto de matriz dimensional ; compuesto de datos e índices
El motivo de la adición es:
dict está desordenado y existe una relación de mapeo entre sus claves y valores. Sin embargo, la clave y el valor no son independientes entre sí, sino que se almacenan juntos.
Si necesitas operar uno de ellos, afectará al otro. Por lo tanto, para las series, las claves y valores de la serie son independientes y se almacenan de forma independiente.
Las llaves de la serie son de longitud fija y ordenadas.
Puede obtener el índice completo mediante series.key y todos los valores mediante series.values.
La clave de una serie se puede configurar con un nombre único a través de series.index.name.
Con series.name, también puedes configurar toda la serie con un nombre único
Marco de datos:
1. p >2. Contiene un conjunto de secuencias (similares a índices)
3:}
frame = pd.DataFrame(data1)
---- - -------------------- -----------------------
IV. Proceso básico de análisis de datos:
1. Obtener datos
2. Preparación de datos: estandarizar y crear varios índices
3. depuración
Por ejemplo, df.index, df.values, df.head(n), df.tail(n) df.describe
4.
Adquisición de índice, adquisición de sectores, adquisición de filas y columnas, adquisición de área rectangular
Adquisición de índice, df.row1 o df, df.iloc también se puede enumerar
gt; ; lista2=
gt; lista3=
gt;
gt;gt;gt; lista6=
gt;gt;gt; tempdate = (lista1, lista2, lista3, lista4, lista5, lista6)
gt;gt;gt;
gt;gt;gt;tempdate
([88, 64, 96, 85], [92, 99, 95, 94], [ 91 , 87, 99, 95], [78, 99, 97, 81], [88, 78
, 98, 84], [100, 95, 100, 92])
gt;gt;gt; fecha = vstack(tempdate)
gt;gt;gt;
gt;gt;gt;fecha
array ( [[ 88, 64, 96, 85],
[ 92, 99, 95, 94],
[ 91, 87, 99, 95],
[78, 99, 97, 81],
[88, 78, 98, 84],
[100, 95, 100, 92]]
gt; gt; gt; centroids, abc=kmeans(date, 2) # Encuentra el punto central del clúster. , 5 si hay 5 categorías
gt;gt;gt; centroids # Encuentra el punto central según cada columna, que puede ser el valor promedio
array([[88 , 71 , 97, 84],
[90, 95, 97, 90]])
gt;gt;gt;
gt;gt; gt; result, cde=vq(date, centroids) # Clasifica el conjunto de datos según el centro del clúster
gt; gt; 1, 1, 0, 1])
2. Conceptos básicos de dibujo
La biblioteca de gráficos de Python consta de dos partes:
Api de dibujo, m.
atplotlib proporciona varias interfaces de trazado.
La biblioteca integrada pylab (que incluye métodos comunes en numpy y matplotlib) hace que dibujar sea más rápido y conveniente.
importar numpy como np
importar matplotlib.pyplot como plt
t = np.range(0, 10)
plt. trama(t, t 2)
plt.show()
--------------------
importar pylab como pl
t = np.arange(0, 10)
plt.plot(t, t 2)
plt.show ()
3.title('trama de Python de Philip')
plt.xlabel('fecha')
plt.ylabel('valor ')
Otros: pl.figure(figsize=(8, 6), dpi =100)
pl.plot(x, y, color=(8, 6)) 4. trazado de pandas
Series, DataFrame admite el trazado directo y encapsula la interfaz para llamar a matplotlib, como
series.close.plot()
df .close .plot() # Los parámetros específicos son similares a la interfaz común de matplotlib
Control de atributos
Similar a la interfaz común de matplotlib, puede modificar varios tipos de imágenes, histogramas, gráficos de líneas, etc.
--------común-----------------
lista, tupla, dict
-------- numpy-----------------
ndarray, serie, marco de datos