Python: diferencias en el cálculo de la desviación estándar usando pandas y numpy
En primer lugar, popularicemos la diferencia entre pandas y numpy:
El conjunto de datos operado por pandas es Serie, que es esencialmente una mezcla de listas y diccionarios de datos de uso común. el formulario es DataFrame;
p>
El conjunto de datos sobre el que opera numpy es una matriz o matriz.
1. Calcular la media, la varianza y la desviación estándar de la matriz.
2. Calcular la desviación estándar de la matriz.
Nota: Hay algunos cosas a las que debes prestar atención al calcular la desviación estándar Pregunta:
1. En estadística, la desviación estándar se divide en dos tipos:
(1) Desviación estándar general: la. La fórmula de desviación estándar se divide por n dentro del signo raíz, que está sesgado.
(2) Desviación estándar de la muestra: la raíz de la fórmula de la desviación estándar se divide por n-1, que es insesgada.
2. La diferencia entre pandas y numpy al calcular la desviación estándar
(1) numpy
Al calcular la desviación estándar en numpy, se debe especificar en paréntesis El valor de ddof, ddof representa el grado de libertad. Cuando ddof = 0, se calcula la desviación estándar de la población; cuando ddof = 1, se calcula la desviación estándar de la muestra. Cuando no se establece ningún valor para ddof, el valor predeterminado es la población. desviación estándar.
(2) pandas
? Cuando se utilizan pandas para calcular la desviación estándar, es lo opuesto a la situación predeterminada de numpy. De forma predeterminada, la desviación estándar calculada por pandas es la muestra. Diferencia estándar.