Red de conocimiento informático - Problemas con los teléfonos móviles - Análisis y aplicación de datos de Python-Análisis de datos y aplicación de Python Versión interna con información completa en PDF

Análisis y aplicación de datos de Python-Análisis de datos y aplicación de Python Versión interna con información completa en PDF

Les traigo un recurso de libro electrónico relacionado con los datos de Python, que presenta el contenido de Python. Este libro es publicado por People's Posts and Telecommunications Press. El formato es PDF y el tamaño del recurso es 281 MB. Escrito por Huang Hongmei y Zhang Liangjun, la calificación completa actual de los libros electrónicos en Douban, Amazon, Dangdang, JD.com, etc. es: 7,8.

Introducción al contenido

Tabla de contenido

Capítulo 1 Descripción general del análisis de datos de Python 1

Tarea 1.1: Comprender el análisis de datos 1

1.1.1 Dominar el concepto de análisis de datos 2

1.1.2 Dominar el proceso de análisis de datos 2

1.1.3 Comprender los escenarios de aplicación del análisis de datos 4

Tarea 1.2 Familiarizarse con las herramientas de análisis de datos de Python 5

1.2.1 Comprender las herramientas comunes para el análisis de datos 6

1.2.2 Comprender las ventajas de los datos de Python análisis 7

1.2 .3 Comprender las bibliotecas de clases comunes para el análisis de datos de Python 7

Tarea 1.3 Instalar la distribución Anaconda versión 9 de Python

1.3.1 Comprender la distribución Anaconda versión 9 de Python

1.3.2 Instalar Anaconda en el sistema Windows 9

1.3.3 Instalar Anaconda en el sistema Linux 12

Tarea 1.4 Dominar el funciones comunes de Jupyter Notebook 14

1.4 .1 Domina las funciones básicas de Jupyter Notebook 14

1.4.2 Domina las funciones avanzadas de Jupyter Notebook 16

Resumen 19

Ejercicios después de clase 19

Capítulo 2 Conceptos básicos de computación numérica NumPy 21

Tarea 2.1 Dominar el objeto de matriz NumPy ndarray 21

2.1.1 Crear un objeto de matriz 21

2.1.2 Generar números aleatorios 27

2.1.3 Acceder a matrices a través de índices 29

2.1.4 Transformar la forma de matrices 31

Tarea 2.2 Dominar matrices NumPy y funciones generales 34

2.2.1 Crear matriz NumPy 34

2.2.2 Dominar la función ufunc 37

Tarea 2.3 Usar NumPy para análisis estadístico 41

2.3.1 Leer/escribir archivos 41

2.3.2 Usar funciones para análisis estadístico simple 44

2.3.3 Implementación de tareas 48

Resumen 50

p>

Formación práctica 50

Formación práctica 1: Crear matrices y realizar operaciones 50

Entrenamiento práctico 2: Crear un tablero de ajedrez 50

Ejercicio después de clase 51

Capítulo 3 Conceptos básicos de visualización de datos de Matplotlib 52

Tarea 3.1 Maestro la sintaxis básica y los parámetros comunes del dibujo 52

3.1.1 Dominar la sintaxis básica de pyplot 53

3.1.2 Establecer los parámetros rc dinámicos de pyplot 56

Tarea 3.2 Analizar la relación entre características 59

p>

3.2.1 Dibujar un gráfico de dispersión 59

3.2.2 Dibujar un gráfico de líneas 62

3.2.3 Implementación de tareas 65

Tarea 3.3 Función de análisis distribución y dispersión interna de datos 68

3.3.1 Dibujar un histograma 68

3.3.2 Dibujar un gráfico circular 70

3.3.3 Dibujar un diagrama de caja 71

3.3.4 Realización de tareas 73

Resumen 77

Formación práctica 78

Formación práctica 1 Analizando las características de la población de 1996 y 2015 datos La relación entre 78

Formación práctica 2: Analizar la distribución y dispersión de diversas características de los datos poblacionales en 1996 y 2015 78

Ejercicios extraescolares 79

Capítulo 4 pandas Conceptos básicos del análisis estadístico 80

Tarea 4.1 Lectura/escritura de datos de diferentes fuentes de datos 80

4.1.1 Lectura/escritura de datos de bases de datos 80

4.1.2 Lectura/escritura de archivos de texto 83

4.1.3 Lectura/escritura de archivos Excel 87

4.1.4 Implementación de la tarea 88

Tarea 4.2 Dominar el operaciones comunes de DataFrame 89

4.2.1 Ver propiedades comunes de DataFrame 89

4.2.2 Verificar, modificar, agregar y eliminar datos de DataFrame 91

4.2. 3 Describir y analizar datos de DataFrame 101

4.2.4 Implementación de tareas 104

Tarea 4.3 Conversión y procesamiento de datos de series de tiempo 107

4.3.1 Conversión de tiempo de cadena a hora estándar 107

4.3 .2 Extracción de información de datos de series de tiempo 109

4.3.3 Suma y resta de datos de tiempo 110

4.3.4 Implementación de tareas 111

Tarea 4.4 Usar agregación de agrupación para agrupar Cálculo interno 113

4.4.1 Usar el método groupby para dividir datos 114

4.4.2 Usar el método agg para agregar datos 116

4.4.3 Usar el método de aplicación para agregar datos 119

4.4.4 Usar el método de transformación para agregar datos 121

4.4.5 Implementación de tareas 121

Tarea 4.5 Crear tablas dinámicas y tablas cruzadas 123

4.5.1 Usar la función pivot_table para crear una tabla dinámica 123

4.5.2 Usar la función crosstab para crear una tabla cruzada 127

4.5.3 Implementación de tareas 128

Resumen 130

Formación práctica 130

Formación práctica 1: Leer y ver la información básica de la tabla maestra de datos de préstamos en línea P2P 130

Capacitación práctica 2: extraer información del usuario Información de tiempo para la tabla de actualización y la tabla de información de inicio de sesión 130

Capacitación práctica 3: Utilice el método de agregación de agrupación para analizar más a fondo la tabla de actualización de información del usuario y la tabla de información de inicio de sesión 131

Capacitación práctica 4: Convierta la tabla de actualización de información del usuario y la tabla de información de inicio de sesión a tablas de largo y ancho 131

Ejercicios posteriores a la clase 131

Capítulo 5 Uso de pandas para el preprocesamiento de datos 133

Tarea 5.1: Fusionar datos 133

5.1.1 Datos combinados apilados 133

5.1.2 Datos combinados de clave principal 136

5.1.3 Datos combinados superpuestos 139

5.1.4 Tarea implementación 140

Tarea 5.2 Limpieza de datos 141

5.2.1 Detectar y procesar valores duplicados 141

5.2.2 Detectar y procesar valores faltantes 146

5.2.3 Detección y procesamiento de valores atípicos 149

5.2.4 Implementación de la tarea 152

Tarea 5.3 Datos estandarizados 154

5.3.1 Dispersión de datos estandarizados 154

5.3.2 Desviación estándar de datos estandarizados 155

5.3.3 Escalado decimal de datos estandarizados 156

5.3.4 Implementación de tareas 157

Tarea 5.4 Convertir datos 158

5.4.1 Variables ficticias para procesar datos categóricos 158

5.4.2 Datos continuos discretizados 160

5.4.3 Implementación de la tarea 162

Resumen 163

Formación práctica 164

Formación práctica 1: Imputar valores faltantes de los datos de consumo de electricidad del usuario 164

Formación práctica 2: Fusión de pérdidas de línea, tendencia del consumo de electricidad y datos de alarma de línea 164

Formación práctica 3 Datos de muestra de expertos en modelización estandarizada 164

Ejercicios después de clase 165

Capítulo 6 Usando scikit-learn para construir un modelo 167

Tarea 6.1 Usar el convertidor sklearn para procesar datos 167

6.1.1 Cargar el conjunto de datos en el módulo de conjuntos de datos 167

6.1.2 Convertir los datos El conjunto se divide en conjunto de entrenamiento y conjunto de prueba 170

6.1.3 Uso del convertidor sklearn para el preprocesamiento de datos y la reducción de dimensionalidad 172

6.1.4 Implementación de la tarea 174

Tarea 6.2: Construir y evaluar el modelo de agrupamiento 176

6.2.1: Usar el estimador sklearn para construir el modelo de agrupamiento 176

6.2.2: Evaluar el modelo de agrupamiento 179

6.2.3 Implementación de tareas 182

Tarea 6.3 Construir y evaluar el modelo de clasificación 183

6.3.1 Usar sklearn estimador para construir el modelo de clasificación 183

6.3.2 Evaluación de modelos de clasificación 186

6.3.3 Implementación de tareas 188

Tarea 6.4: Construir y evaluar modelos de regresión 190

6.4.1 Usar el estimador sklearn para construir modelos de regresión lineal 190

6.4.2 Evaluar modelos de regresión 193

6.4 3. Implementación de tareas 194

Resumen 196

Capacitación práctica 196

Capacitación práctica 1. Utilice sklearn para procesar conjuntos de datos de vino y calidad del vino 196

Formación práctica Formación 2: Construcción de un modelo de agrupamiento de K-Means basado en el conjunto de datos del vino 196

Formación práctica 3: Construcción de un modelo de clasificación SVM basado en el conjunto de datos del vino 197

Formación práctica 4: Construcción de un conjunto de datos de calidad del vino Modelo de regresión 197

Ejercicios posteriores a la clase 198

Capítulo 7 Análisis del valor del cliente de las aerolíneas 199

Tarea 7.1 Comprender la situación actual de las aerolíneas y el análisis del valor para el cliente 199

7.1.1 Comprender la situación actual de las aerolíneas 200

7.1.2 Comprender el análisis del valor para el cliente 201

7.1 .3 Familiarizado con los pasos y procesos del análisis del valor del cliente de la aerolínea 201

Tarea 7.2 Preprocesamiento de datos de clientes de aviación 202

7.2.1 Manejo de datos faltantes y valores atípicos 202

7.2.2 Construcción de características clave del análisis de valor para el cliente de la aviación 202

7.2.3 Cinco características del modelo LRFMC estandarizado 206

7.2.4 Implementación de tareas 207

Tarea 7.3 Utilizar el algoritmo K-Means para la segmentación de clientes 209

7.3.1 Comprender el algoritmo de agrupamiento K-Means 209

7.3.2 Analizar los resultados del agrupamiento 210

7.3.3 Aplicación del modelo 213

7.3.4 Implementación de tareas 214

Resumen 215

Formación práctica 215

Formación práctica 1: Procesamiento Valores anormales de datos de tarjetas de crédito 215

Capacitación práctica 2: Construya las características clave de la evaluación de riesgos del cliente de tarjetas de crédito 217

Capacitación práctica 3: Construya el modelo de agrupamiento de K-Means 218

Ejercicios después de clase 218

Capítulo 8 Análisis de la previsión de ingresos fiscales 220

Tarea 8.1: Comprender los antecedentes y los métodos de previsión de ingresos fiscales 220

8.1.1 Analizar los antecedentes de la previsión de ingresos fiscales 220

8.1.2 Comprender los métodos de previsión de ingresos fiscales 222

8.1.3 Familiarizarse con los pasos y procesos de la previsión de ingresos fiscales 223

Tarea 8.2 Analizar la correlación de las características de los datos de ingresos fiscales 223

8.2.1 Comprender el análisis de correlación 223

8.2.2 Analizar los resultados del cálculo 224

8.2.3 Implementación de la tarea 225

Tarea 8.3 Uso de la regresión de Lasso para seleccionar ingresos fiscales Características clave de la predicción 225 <

/p>

8.3.1 Comprender el método de regresión Lasso 226

8.3.2 Analizar los resultados de la regresión Lasso 227

8.3.3 Implementación de tareas 227

Tarea 8.4 Usar predicción gris y SVR para construir un modelo de predicción de ingresos fiscales 228

8.4.1 Comprender el algoritmo de predicción gris 228

8.4.2 Comprender el algoritmo SVR 229

8.4. 3. Analizar resultados de predicción 232

8.4.4 Realización de tareas 234

Resumen 236

Formación práctica 236

Formación práctica 1: Obtener los coeficientes de correlación de la empresa entre varias características del impuesto sobre la renta 236

Formación práctica 2: Seleccionar características clave de la predicción del impuesto sobre la renta empresarial 237

Formación práctica 3: Construir una modelo de predicción del impuesto sobre la renta corporativo 237

Ejercicio después de clase 237

Capítulo 9 Análisis del comportamiento del usuario del calentador de agua doméstico e identificación de eventos 239

Tarea 9.1: Comprender los antecedentes y Pasos del análisis del comportamiento del usuario de calentadores de agua domésticos 239

9.1. 1. Analizar la situación actual de la industria de calentadores de agua domésticos 240

9.1.2 Comprender la situación básica de la recopilación de datos sobre calentadores de agua. 240

9.1.3 Familiarizado con los pasos y el proceso del análisis del comportamiento del usuario del calentador de agua doméstico 241

Tarea 9.2 Preprocesamiento de los datos de uso de agua del usuario del calentador de agua 242

9.2 .1 Eliminar funciones redundantes 242

9.2.2 Dividir eventos de uso de agua 243

9.2.3 Determinar el umbral de duración de un único evento de uso de agua 244

9.2 .4 Implementación de la tarea 246

Tarea 9.3 Construir características de comportamiento de uso del agua y filtrar eventos de uso de agua 247

9.3.1 Construcción Características de duración y frecuencia del uso del agua 248

9.3.2 Construcción de características de fluctuación y consumo de agua 249

9.3.3 Selección de eventos de baño candidatos 250

9.3.4 Implementación de la tarea 251

Tarea 9.4: Construir un Modelo de red neuronal de BP para análisis de eventos conductuales 255

9.4.1 Comprender los principios del algoritmo de red neuronal de BP 255

9.4.2 Construir un modelo 259

9.4 .3 Modelo de evaluación 260

9.4.4 Implementación de la tarea 260

Resumen 263

Formación práctica 263

Formación práctica 1: Operador de limpieza datos del cliente 263

Formación práctica 2: Detección de datos del operador del cliente 264

Formación práctica 3: Construcción de un modelo de predicción de red neuronal 265

Ejercicios extraescolares 265

Apéndice A 267

Apéndice B 270

Referencias 295

Notas de estudio

Jupyter Notebook (anteriormente conocido como cuaderno IPython)

es un cuaderno interactivo que admite la ejecución de más de 40 lenguajes de programación. Jupyter Notebook es esencialmente una aplicación web que facilita la creación y el intercambio de documentos de programas literarios, admite código en vivo, ecuaciones matemáticas, visualización y rebajas. Los usos incluyen: limpieza y transformación de datos, simulación numérica, modelado estadístico, aprendizaje automático, etc. Definición (Aprendizaje recomendado: videotutorial de Python) Los usuarios pueden compartir Jupyter Notebook con otras personas a través de correo electrónico, Dropbox, GitHub y Jupyter Notebook Viewer. En Jupyter Notebook, el código puede generar imágenes, vídeos, LaTeX y JavaScript en tiempo real. Los datos de Kaggle, la competencia más popular en el campo de la minería de datos, están todos en formato Jupyter. Arquitectura Componentes de Jupyter Jupyter incluye los siguientes componentes: Jupyter Notebook y...

Este artículo describe la función de análisis de datos de amigos de WeChat implementada en Python. Compártalo con todos para su referencia, los detalles son los siguientes: Aquí usamos principalmente Python para analizar amigos personales de WeChat y generar los resultados en un documento html. Los principales paquetes de Python utilizados son itchat, pandas, pyecharts, etc. itchat WeChat python SDK, utilizado para obtener relaciones personales con amigos. El código obtenido es el siguiente: import itchatimport pandas as pdfrom pyecharts import Geo, Baritchat.login()friends = itchat.get_friends(update=True)[0:] def User2dict(User): User_dict = {} User_dict["NickName" ] = Usuario["Apodo"] si Usuario["Apodo"] else "NaN" User_dict["Ciudad"] = Usuario["Ciudad"] if Usuario["Ciudad"] else "NaN" User_dict["Sexo"] = Usuario[ "Sexo"] si Usuario["Sexo"] else 0 User_dict["Signature"] = Usuario["Signature"] if Usuario["Signature"] else "NaN" ……

Basado en abierto en WeChat La biblioteca de Python de la interfaz de cuenta personal itchat realiza la adquisición de amigos de WeChat y realiza análisis de datos por provincia, género y firma de WeChat. Efecto: cargue el código directamente, cree tres archivos de texto vacíos stopwords.txt, newdit.txt, unionWords.txt, descargue la fuente simhei.ttf o elimine el código requerido por la fuente, y podrá ejecutarlo directamente.

#wxfriends.py 2018-07-09import itchatimport sysimport pandas as pdimport matplotlib.pyplot as pltplt.rcParams['font.sans-serif']=['SimHei']#Chinese plt.rcParams['axes.unicode_minus se puede mostrar cuando dibujo ']=False#Se puede mostrar chino al dibujar import jiebaimport jieba.posseg as psegfrom scipy.misc import imreadfrom wordcloud import WordCloudfrom os import path#Resolver el problema de codificación non_bmp_map = dict.fromkeys(range(0x10000, sys.maxunicode 1) , 0xfffd) #Obtener información de amigos def getFriends():...

Análisis de datos de Python de Shuangseqiu basado en un algoritmo de regresión lineal para predecir el siguiente ejemplo de resultado de lotería

Este artículo describe el Ejemplo de análisis de datos de Python de Shuangseqiu basado en regresión lineal. El algoritmo de regresión predice el próximo resultado de la lotería. Me gustaría compartirlo con usted para su referencia. Los detalles son los siguientes: He hablado sobre los diversos algoritmos de Shuangseqiu en el pasado. Aquí predeciremos los números de Shuangseqiu en el próximo período. piénsalo. El algoritmo de regresión lineal se usa en este escenario y el efecto de predicción es promedio. Puede considerar usar otros algoritmos para probar los resultados. Descubrí que antes una gran cantidad de código era un trabajo repetitivo. Para que el código pareciera más elegante, definí una función y la llamé, y de repente mejoré #!/usr/bin/python# -*- codificación: UTF. -8 -*- #Importar los paquetes requeridos import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport operatorfrom sklearn import datasets, linear_model from sklearn.linear_model import LogisticRegression #Leer archivo d...

Lo anterior Son los datos de Python introducidos esta vez. Todo el contenido relevante del libro electrónico. Espero que los recursos que hemos recopilado puedan ayudar a todos. Gracias por su apoyo a Guigui.

Nota·Cómo obtener: mensaje privado (666)