Red de conocimiento informático - Aprendizaje de código fuente - Organizar 20 funciones estadísticas de Pandas

Organizar 20 funciones estadísticas de Pandas

Hola a todos, recientemente compilé 20 funciones estadísticas de uso común y su uso en pandas. Se recomienda recopilarlas y estudiarlas ~

Para ilustrar el uso de cada función, se simulan datos vacíos:

descirbe método Sólo se puede utilizar para secuencias o marcos de datos. Los arrays unidimensionales no tienen este método y por defecto sólo se puede utilizar para estadísticas de datos numéricos.

La información devuelta incluye:

Después de agregar parámetros, encontramos:

Devuelve el número de valores no nulos en cada campo

En [5]:

Salida[5]:

En [6]:

Aquí encontramos:

Si el campo pertenece al tipo de objeto, entonces el resultado de la función de suma es el resultado directo del valor del campo. El resultado de la función suma es la concatenación directa de todos los valores

Salida[6]:

Entrada[7]:

Para el valor máximo de la cadena (max o minima), la comparación se basa en el tamaño ASCII de las letras:

Out[7]:

La solución es similar a la función max:

En [8] :

Fuera[8]:

Devuelve el cuartil de la posición especificada

En [9]:

Salida[9 ]:

Entrada [10]:

Salida[10]:

Entrada [11]:

Fuera[11]:

El diagrama de caja muestra la mediana de 25, 50 y 75 en un conjunto de datos:

En [12]:

La información de visualización específica del diagrama de caja:

p>

Valor promedio de un conjunto de datos

Entrada [13]:

Salida [ 13]:

A través del siguiente ejemplo, podemos ver Para: Si faltan valores en el campo (valores faltantes en matemáticas), el tamaño de la muestra ignorará automáticamente el número total de faltantes valores

En [14]:

Salida[14]:

Por ejemplo: la mediana de 1, 2, 3, 4, 5 es 3

Otro ejemplo: la mediana de 1, 2, 3, 4, 5, 6 es 3 4 = 3,5

Entrada [15]:

Salida[15 ]:

El conjunto de datos más frecuente

En [ 16]:

Salida[16]:

idxmax() devuelve el valor máximo del índice

En [17]:

Fuera [17]:

En [18]:

Fuera [18]:

Esta función no se puede utilizar para campos de tipo carácter y Pandas no la admite:

En [19]:

Devuelve el índice donde se ubica el valor mínimo

Entrada [20]:

Salida[20]:

Entrada [21]:

Salida [21]:

En [22]:

Esta función no se puede utilizar en campos de caracteres, Pandas no admite:

Calcular la varianza de un conjunto de datos Tenga en cuenta que en numpy la varianza se llama varianza de población y en pandas se llama varianza de muestra

La desviación estándar (o varianza) de un conjunto de datos se llama desviación estándar.

p>La desviación estándar (o varianza) se divide en desviación estándar poblacional (varianza) y desviación estándar muestral (varianza)

En [23]:

Salida[23]:

Entrada [24]:

Salida[24]:

Entrada [25]:

Salida[25]:

Entrada[26]:

Salida[26]:

Entrada [27]:

Salida[27]:

El valor de retorno es la desviación estándar de un conjunto de datos

En [28]:

Salida[28]:

En [29]:

Salida[29]:

Entrada [30]:

Salida[30]:

Entrada [31]:

Out[31]:

Cómo entender la diferencia entre pandas y numpy al resolver la varianza:

In [32]:

Out[ 32]:

p>

Obtiene la edad del campo. En [33]:

Salida[33]:

En [34]:

Salida[34]:

En [ 35]:

Salida[35]:

Entrada [36]:

Salida[36]:

La asimetría es una medida de la asimetría de los datos estadísticos, una medida de la dirección de distribución y la asimetría de los datos estadísticos y una representación digital de la asimetría de la distribución de los datos estadísticos.

La asimetría, también conocida como coeficiente de inclinación y asimetría, es un número característico que representa el grado de asimetría de una curva de densidad de distribución de probabilidad con respecto al promedio.

Intuitivamente, es la longitud relativa de las colas de la curva de la función de densidad. La pendiente se define como el momento normalizado de tercer orden de la muestra:

Out[37]:

Out[37]:

In [38] :

Out[38]:

Devuelve el valor de curtosis

In [39]:

Out[39]:

Entrada [40].:

Salida[40]:

Entrada [41]:

Salida[41]:

Devuelve el valor absoluto de los datos:

In [45]:

Out[45]:

Si faltan valores, el La función de valor absoluto resuelve un valor que todavía es NaN:

In [ 46]:

Out[46]:

La función de valor absoluto funciona en campos numéricos , no en caracteres Campos:

Entrada [47]:

Entrada [48]:

Salida [48]:

Entrada [49]:

Salida[49]:

Entrada [50]:

Salida[50]:

Entrada [51 ]:

p>

Entrada [52]:

Salida [52]:

Entrada [53]:

Entrada [53 ]:

En [54]:

Finalmente, la función de resumen comúnmente utilizada en Pandas para describir información estadística: