Cómo implementar estos cinco tipos de potentes distribuciones de probabilidad en Python
El lenguaje de programación R se ha convertido en el estándar de facto en el análisis estadístico. Pero en este artículo te mostraré lo fácil que es implementar conceptos estadísticos en Python. Quiero implementar algunas distribuciones de probabilidad discretas y continuas usando Python. Si bien no entraré en detalles matemáticos de estas distribuciones, le daré enlaces a algunos buenos recursos para aprender estos conceptos estadísticos. Antes de analizar estas distribuciones de probabilidad, quiero hablar brevemente sobre qué es una variable aleatoria. Una variable aleatoria es una cuantificación del resultado de un experimento.
Por ejemplo, una variable aleatoria que representa el resultado de un lanzamiento de moneda se puede expresar como
Python
1
2 p>
X = {1 si cara,
2 si cruz}
Una variable aleatoria es una variable que toma un conjunto de valores posibles (discretos o continuos ) y sujeto a cierta aleatoriedad. Cada valor posible de una variable aleatoria está asociado a una probabilidad. Todos los valores posibles de una variable aleatoria y las probabilidades asociadas a ellos se denominan distribuciones de probabilidad.
Animo a todos a que echen un vistazo más de cerca al módulo scipy.stats.
Existen dos tipos de distribuciones de probabilidad: distribución de probabilidad discreta y distribución de probabilidad continua.
La distribución de probabilidad discreta también se llama función de masa de probabilidad. Ejemplos de distribuciones de probabilidad discretas incluyen la distribución de Bernoulli, la distribución binomial, la distribución de Poisson, la distribución geométrica, etc.
Las distribuciones de probabilidad continua también se denominan funciones de densidad de probabilidad. Son funciones con valores continuos (como el valor de una recta real). La distribución normal, la distribución exponencial y la distribución beta son todas distribuciones de probabilidad continua.
Para obtener más información sobre variables aleatorias discretas y continuas, puedes ver el vídeo de Khan Academy sobre distribuciones de probabilidad.
Distribución Binomial
Una variable aleatoria X que obedece a la distribución binomial representa el número de éxitos en n ensayos independientes sí/no, donde el éxito de cada ensayo La probabilidad es p.
E(X) =?np, Var(X) =?np(1?p)
Si quieres conocer el principio de cada función, puedes encontrarlo en el cuaderno IPython Utilice el comando del archivo de ayuda. ?E(X) representa la expectativa o media de la distribución.
Escriba stats.binom? para obtener más información sobre la función de distribución binomial binom.
Ejemplo de distribución binomial: Lanzando una moneda 10 veces, ¿cuál es la probabilidad de que salga cara exactamente dos veces?
Supongamos que la probabilidad de que salga cara en este experimento es 0,3, lo que significa que, en promedio, podemos esperar que la moneda caiga en cara 3 veces. Defino todos los resultados posibles de un lanzamiento de moneda como k = np.arange(0, 11): puedes observar 0 caras, 1 cara, hasta 10 caras. Utilizo stats.binom.pmf para calcular la función de masa de probabilidad para cada observación. Devuelve una lista de 11 elementos que representan los valores de probabilidad asociados con cada observación.
Puedes utilizar la función .rvs para simular una variable aleatoria binomial, donde el tamaño del parámetro especifica el número de veces que deseas simular. Le pedí a Python que devolviera 10.000 variables aleatorias binomiales con parámetros n y p. Generaré la media y la desviación estándar de estas variables aleatorias y luego dibujaré un histograma de todas las variables aleatorias.
Distribución de Poisson
Un número de veces variable aleatoria. El parámetro λ le indica la velocidad a la que ocurre este evento. La media y la varianza de la variable aleatoria X son ambas λ.
E(X) =?λ, Var(X) =?λ
Ejemplo de distribución de Poisson: Se sabe que la tasa de accidentes en una determinada intersección es 2 veces un día, entonces en ¿Cuál es la probabilidad de que ocurran 4 accidentes aquí en un día?
Consideremos el ejemplo de una media de 2 accidentes al día. La implementación de la distribución de Poisson es algo similar a la distribución binomial. En la distribución de Poisson necesitamos especificar el parámetro de relación. El resultado de la distribución de Poisson es una secuencia que contiene la probabilidad de 0, 1, 2 y hasta 10 accidentes. Utilicé los resultados para generar la siguiente imagen.
Puedes ver que el número de accidentes alcanza su punto máximo cerca de la media. En promedio, se puede esperar que el evento ocurra varias veces λ. Pruebe diferentes valores de λ y n y observe cómo cambia la forma de la distribución.
Ahora déjame simular 1000 variables aleatorias que obedecen a la distribución de Poisson.
Distribución Normal
La distribución normal es una distribución continua cuya función puede tomar valores en cualquier lugar de la recta real. La distribución normal se describe mediante dos parámetros: la media μ y la varianza σ2 de la distribución.
E(X) =?μ, Var(X) =?σ2
El valor de la distribución normal puede variar desde infinito negativo hasta infinito positivo. Puedes notar que usé stats.norm.pdf para obtener la función de densidad de probabilidad de la distribución normal.
Distribución Beta (Distribución Beta)
La distribución Beta es una distribución continua con valores entre ?[0, 1]?. por el valor.
La forma de la distribución beta depende de los valores de alfa y beta. La distribución beta se utiliza ampliamente en el análisis bayesiano.
Cuando estableces los parámetros α y β en 1, la distribución también se denomina distribución uniforme. Pruebe diferentes valores de α y β y observe cómo cambia la forma de la distribución.
Distribución exponencial
La distribución exponencial es una distribución de probabilidad continua que se utiliza para representar los intervalos de tiempo entre eventos aleatorios independientes. Por ejemplo, el intervalo de tiempo entre los pasajeros que ingresan al aeropuerto, el intervalo de tiempo entre las llamadas al centro de atención al cliente, el intervalo de tiempo entre la aparición de nuevas entradas chinas de Wikipedia, etc.
Establecí el parámetro λ en 0,5 y establecí el rango de valores de x en $[0, 15]$.
A continuación, simulé 1000 variables aleatorias bajo la distribución exponencial. El parámetro de escala representa el recíproco de λ. En la función np.std, el parámetro ddof es igual a la desviación estándar dividida por $n-1$.
Conclusión
La distribución de probabilidad es como el plano para construir una casa, y la variable aleatoria es un resumen de los eventos experimentales. Le sugiero que consulte las conferencias del curso de ciencia de datos de Harvard, donde el profesor Joe Blitzstein ofrece un resumen de todo lo que necesita saber sobre distribuciones y modelos estadísticos.