Python es en realidad muy simple Capítulo 21 Procesamiento de datos DataFrame
Después de leer los datos en Excel en el marco de datos DataFrame, es muy conveniente realizar diversos procesamientos de datos.
21.1 Suma entre columnas
Encuentre el puntaje total (puntuación total = chino, matemáticas, inglés)
Para la tabla de desempeño de los estudiantes mencionada en el capítulo anterior, Solo el cálculo y el llenado de la puntuación total se pueden completar con una sola declaración.
df, 0, inplace=True)
Reemplace los valores "98, 76, 99" en todo el DataFrame con "0" a la vez.
21.2 Orden
Puede ordenar una determinada columna como campo clave, o puede ordenar varias columnas como campos clave primarios y secundarios. La clasificación se puede realizar en orden ascendente o descendente.
El formato de sintaxis de la función sort_values() es el siguiente:
df.sort_values(by=))
Su función es encontrar la suma de los valores en la columna 'Chino' El registro con elementos consistentes en la lista apuntada por isin, si se encuentra, el resultado es Verdadero; de lo contrario, es Falso.
Resultado de salida:
0 Verdadero
1 Falso
2 Falso
3 Falso
4 Verdadero
Nombre: chino, tipo d: bool
21.9 Partición de datos
Según un determinado estándar de partición, los datos se dividen según el área a la que pertenece y representada por las etiquetas correspondientes, se puede implementar usando el método cut().
El formato de sintaxis es el siguiente:
cut(series, bins, right=True, etiquetas=NULL)
Entre ellos:
serie significa datos que deben agruparse;
bins representa la base para la agrupación, que es una lista cuyos elementos son los valores límite para dividir particiones. Por ejemplo, se divide en 3 particiones. , es decir, 0 ~ 72, 72 ~ 96, 96 ~ 120, el valor predeterminado es "la izquierda envuelve la derecha pero no envuelve"
la derecha indica si el lado derecho está cerrado al agrupar
;etiquetas indica la etiqueta personalizada del grupo y no es necesario redefinirla.
A continuación, se agrupan las puntuaciones de chino en la tabla de puntuación de los estudiantes anterior y se agrega una nueva columna "Nivel de chino".
importar pandas como pd
desde pandas importar read_excel #import read_execel
file='d:/student.xlsx'
df =read_excel(archivo, nombre_hoja=0, convertidores={'ID de estudiante': str})
df['Calificación']=df['ID de estudiante'].str.slice(0, 2)
df['Clase']=df['ID de estudiante'].str.slice(0,4)
df.Puntuación total=df.Chino df.Matemáticas df. Inglés
bins=[0, 72, 96, max (df. chino) 1] #
lab=['fallido', 'aprobado', 'excelente'] < / p>
calificación=pd.cut(df. chino, bins, right=False, etiquetas=laboratorio)
df['calificación china']=calificación
print ( df.head())
print("Resultados estadísticos de las calificaciones de desempeño chinas:")
print(df['Calificación china'].value_counts())
Los resultados de ejecución son los siguientes:
Número de serie Número de estudiante Nombre Grado Clase Chino Matemáticas Inglés Puntuación total Nivel de chino
0 1 070101 Wang Boyu 07 0701 84 71 93 248 Aprobado
1 2 070102 Chen Guantao07 0701 89 89 89 267 Aprobado
2 3 070103 Li Wenbo07 0701 89 72 76 237 Aprobado
3 4 070204 Jiang Haiyan 07 0702 89 89 89 267 Aprobado
4 5 070205 Lin Ruoxi 07 0702 91 95 83 269 Aprobado
Resultados estadísticos de puntuaciones en idioma chino:
Aprobado 17
Excelente 10
Reprobado 4
Nombre: nivel chino, tipo d: int64