Teoría 2 de la probabilidad de la ciencia de datos. Calcular probabilidad
Para abordar situaciones en las que algunos resultados son más probables que otros, se necesita una teoría más general. En la década de 1930, el matemático ruso Andrey Kolmogorov (1903-1987) propuso algunas reglas básicas, llamadas axiomas, que cubrían muchas situaciones y se convirtieron en la base de la teoría de probabilidad moderna.
Los axiomas parten del espacio de resultados ω. Ahora supongamos que ω es finito. La probabilidad es una función p definida sobre un evento, que, como sabes, es un subconjunto de ω. Los dos primeros axiomas simplemente establecen la escala de medición: definen la probabilidad como un número entre 0 y 1.
El tercer y último axioma es la clave para que la probabilidad se convierta en la "escala" de los acontecimientos. Estudiémoslo nuevamente después de haber formulado algunos términos relevantes.
El tercer axioma se refiere a eventos mutuamente excluyentes. Extraoficialmente, si hay como máximo un evento, entonces los dos eventos A y B son mutuamente excluyentes, es decir, no pueden ocurrir al mismo tiempo;
Por ejemplo, supongamos que seleccionas al azar a un estudiante de una clase, de los cuales 40 son estudiantes de primer año y 20 son de segundo año. Cada estudiante puede ser estudiante de primer año, estudiante de segundo año o nada, pero ningún estudiante es al mismo tiempo estudiante de primer año y estudiante de segundo año. Entonces, si A es "El estudiante seleccionado es un estudiante de primer año" y B es el evento "El estudiante seleccionado es un estudiante de segundo año", entonces A y B son mutuamente excluyentes.
¿Cuál es el problema de los eventos mutuamente excluyentes? Para entender esto, primero considere el caso de que el estudiante seleccionado fuera un estudiante de primer o segundo año. En el lenguaje de la teoría de conjuntos, esta es la combinación de "estudiante de primer año" y "estudiante de segundo año". Es una buena idea utilizar un diagrama de Venn para mostrar eventos. En la siguiente figura, supongamos que A y B son dos eventos mutuamente excluyentes, mostrados como círculos azules y dorados respectivamente. Como los eventos son mutuamente excluyentes, los círculos correspondientes no se superponen. La unión es el conjunto de todos los puntos de dos circunferencias.
¿Cuál es la probabilidad de que un estudiante sea estudiante de primer o segundo año? En términos generales, 40 es un estudiante de primer año y 20 es un estudiante de segundo año, por lo que la respuesta natural es 60. Este es el porcentaje de estudiantes que cumplen con nuestros criterios de "primer o segundo grado". La suma simple funciona porque los dos grupos no se cruzan.
Kolmogorov utilizó esta idea para formular el tercer y más importante axioma de probabilidad. Formalmente, si la intersección está vacía, entonces A y B son eventos mutuamente excluyentes:
En el contexto de un espacio de resultados finito, los axiomas establecen:
Mostrarás en la práctica, este axioma contiene algo más general:
Este axioma aparentemente simple tiene un gran poder, especialmente cuando se generaliza a innumerables eventos mutuamente excluyentes. Primero, puede usarse para crear algunas herramientas de cálculo convenientes.
Supongamos que una clase tiene 50 estudiantes que toman ciencia de datos como una de sus especialidades y 40 estudiantes que se especializan en ciencia de datos e informática (CS). Si elige un estudiante al azar, ¿cuál es la probabilidad de que este estudiante se especialice en ciencias de datos y no en informática?
El siguiente diagrama de Venn muestra el círculo azul oscuro para el evento A (ciencia de datos como una de las especialidades) y el círculo dorado para el evento B (ciencia de datos y especialidades de informática) (no a escala). Estos dos eventos están anidados porque B es un subconjunto de A: todos en B tienen la ciencia de datos como una de sus especialidades.
Por lo tanto
Entre...
¿Cuál es la probabilidad de que este estudiante esté en la brecha celeste? Si respondió "50-40 = 10", estaría en lo cierto. Tu intuición te dice que la probabilidad es como una zona. Ellos son. De hecho, este cálculo se basa en el axioma de la aditividad, y vemos que estas áreas también se inspiran en él.
Supongamos que a y b son eventos.
Este es un conjunto disjunto.
Según el axioma de la suma:
Entonces,
Si la probabilidad de que ocurra un evento es 40, ¿cuál es la probabilidad de que no ocurra? La respuesta "obvia" de 60 es un caso especial de la regla de la resta.
Para cualquier evento b,
Demuestra que el siguiente diagrama de Venn muestra qué hacer. Toma a = ω en la fórmula de resta, recuerda el segundo axioma.
Cuando vea un signo negativo en un cálculo de probabilidad, como en la regla del complemento anterior, a menudo encontrará que el signo negativo se debe a la reordenación de los términos en la aplicación de la regla adicional.
Cuando aumentas o disminuyes la probabilidad, implícitamente descompones el evento en partes disjuntas. Esto se llama división de eventos y es una tecnología básica e importante que debe dominarse. En los siguientes capítulos, verá muchos usos de la división.
Veamos si podemos calcular algunas probabilidades usando los resultados que desarrollamos. Algunos pasos son claros sin cálculos; otras cosas requieren más trabajo.
Ejemplo 1: Cara y cruz en n lanzamientos
Lanza una moneda n veces para que todas
las preguntas obtengan al menos un sí y al menos un no. ¿Qué tan grande es?
Respuesta. Cada rostro aparece al menos una vez en muchas secuencias. Por ejemplo, si n = 4, dichas secuencias incluyen HTTT, HTHT, TTHT, etc.
Apéndice del método: cuando un evento podría ocurrir de muchas maneras diferentes, podría ser una buena idea analizar las formas en que no sucedería porque hay menos casos.
Para n = 4, las únicas secuencias que no aparecen al menos una vez en cada cara son HHHH y TTTT. De hecho, para cualquier n, sólo hay dos secuencias de las que no podemos obtener ambos lados: ambas son caras y ambas son cruces. Estas son dos secuencias donde todos los elementos son iguales.
Sea A el evento "Obtenemos al menos un positivo y al menos uno negativo". Este problema requiere P(A). Porque
De acuerdo con la regla del complemento:
Tenga en cuenta que a medida que n aumenta, la respuesta tiende a 1. Con mucho casting, es casi seguro que verás cara y cruz.
Tira el dado 12 veces, así todas
Pregunta 1. ¿Cuál es la probabilidad de que el valor máximo sea menor que 5?
Respuesta 1. La clave es observar que el evento "el valor máximo es menor que 5" y el evento "los 12 lados son menores que 5" son iguales. Para lograrlo, cada uno de los 12 puntos debe tener uno de los cuatro valores del 1 al 4. Entonces:
Sí, podemos simplificar aún más, pero no vamos a hacerlo, porque pronto veremos por qué.
Pregunta 2. ¿Cuál es la probabilidad de que el valor máximo sea menor que 4?
Respuesta 2. No hay nada nuevo aquí excepto reemplazar 5 en la pregunta 1 por 4.
Pregunta 3. ¿Cuál es la probabilidad de que el valor máximo sea igual a 4?
Respuesta 3: No es fácil anotar todas las secuencias con el valor máximo igual a 4. Veamos si podemos aprovechar lo que ya sabemos. El valor máximo es igual a 4:
El valor máximo debe ser inferior a 5.
Y no puede ser inferior a 4.
Consideramos el conjunto {4} como una diferencia: {1, 2, 3, 4}-{1, 2, 3}.
Entonces, según la regla de la resta,
No hay nada especial en 12 tiros. Todo el proceso se puede reemplazar por n en lugar de 12, y los parámetros serán los anteriores.
El valor máximo es un ejemplo de valor extremo, el otro es un valor mínimo.
Consejo para resolver problemas: cuando uses valores extremos, recuerda la observación que usamos en este ejemplo: decir que el máximo es pequeño equivale a decir que todos los elementos son pequeños. Asimismo, decir que el valor mínimo es grande equivale a decir que todos los elementos son grandes.
Un generador de números aleatorios genera dos números, por lo que los 100 pares son igualmente probables.
¿Cuál es la probabilidad de que el segundo dígito de la pregunta sea mayor que el primer dígito?
Respuesta, Método 1 - Dividir: Haz una lista organizada de todas las formas en que ocurrió el evento.
Una buena manera de enumerar números donde el segundo número es mayor que el primero es dividirlos según el valor del primer número:
Esta división facilita el cálculo. Entre 100 pares posibles, todos los pares en los que el segundo número es mayor que el primero: 9 8 7 6 5 4 3 2 1 = (9×10)/2 = 45 tipos. Entonces la respuesta es 0,45.
Respuesta, Método 2 - Simetría: Usa algo de simetría para convencerte: la probabilidad de que el segundo número sea mayor que el primer número es la misma que la probabilidad de que el primer número sea mayor que el segundo. Una forma es dividir el segundo evento según el valor del segundo número, prestando atención a la correspondencia con la división del primer método.
, la regla de la suma muestra:
Porque hay 10 pares de números iguales: 00, 11, 22,...99 Ahora resuelve para p:
<. p>Como Igual que antes.Es una buena idea aprender ambos métodos. A lo largo del curso se utilizará la división y la simetría.
El principal axioma de la probabilidad se refiere a eventos mutuamente excluyentes. Resulta que no necesitamos ningún otro axioma para manejar eventos de intersección.
Supongamos que a y b son dos eventos. La intersección A ∩ B significa que tanto A como B son eventos, como se muestra en azul brillante en el diagrama de Venn de la derecha.
Debido a que siempre encontraremos intersecciones, seremos un poco vagos al expresarlas: usaremos AB para representar las intersecciones en lugar de escribir el símbolo de intersección ∩. Debes recordar que AB es un evento, no un producto.
A continuación se muestra un ejemplo para ayudar a explicar algunas de las definiciones que profundizaremos.
Supongamos que tengo una pequeña baraja de cartas, formada por una carta roja, una carta verde y una carta azul. Supongamos que barajo el mazo, robo una carta, barajo las dos cartas restantes y saco una carta de ellas. A esto se le llama sacar dos cartas al azar sin reponerlas.
Un espacio de resultados razonable es ω = {rg, Rb, GB, GR, BR, BG}, donde los seis elementos son igualmente posibles.
La probabilidad de que obtengamos primero la tarjeta verde y luego la roja es la probabilidad de una sola secuencia GR:
Los cálculos simples contienen cosas más interesantes. Nota:
¿Cuál es el segundo factor 1/2? Para entender esto, basta con mirar los pares con G. Entre ellos, solo la siguiente carta de una persona es r. El segundo factor del producto es:
Esta puntuación se denomina probabilidad condicional de que R sea el segundo bajo la condición de que G sea el primero.
Se representa como p (segunda carta R∣primera carta g). Esta es una barra vertical, no una barra diagonal.
Ahora nuestro cálculo original para esta tarjeta se puede escribir una tarjeta a la vez:
Cálculos como el anterior inspiraron una nueva definición. Sean a y b dos eventos. Entonces, la probabilidad condicional de B bajo la condición de A se define como:
Regla de partición:
Aquí hay algunos abusos de símbolos. B|A no es un evento. Pero los símbolos son convenientes. Todo el lado izquierdo debe entenderse como "la probabilidad de que ocurra B si ocurre A".
La definición dice: A está dado, así que limite su atención al resultado de A. Este es su espacio completo ahora, por lo que todas las probabilidades deben ser relativas a P(A) para calcular. ¿Cuál es la probabilidad de que B suceda ahora? La respuesta es P(AB)/P(A).
Si dividimos por P(A), tendrás más cuidado. Quizás te preguntes qué pasa si P(A) = 0. Entonces, en este caso, no daremos A porque A no sucederá. Entonces no tenemos que preocuparnos por eso.
La regla de la multiplicación:
Esta es solo una reordenación de la definición de probabilidad condicional, pero es probablemente la regla más utilizada de todas.
Supongamos que a y b son dos eventos. Entonces la probabilidad de que ocurran todas es:
Tenga en cuenta que la respuesta es "un pequeño porcentaje de un pequeño porcentaje". La probabilidad de que sucedan A y B es menor que A: cuantas más condiciones haya en un evento, menor será la probabilidad de que suceda.
¿Por AB? B, sabes que P(AB) es menor que P(B). También querrás comprobar:
Terminaremos esta sección con algunos ejemplos sencillos.
La siguiente sección contiene algunos ejemplos que requieren mayor estudio.
La baraja estándar consta de 52 cartas, 4 de las cuales son ases. Las dos cartas se distribuyen aleatoriamente y no se devuelven.
Pregunta 1. Supongamos que la primera carta es una A y la segunda carta es una A, ¿cuáles son las probabilidades?
Respuesta 1. 3/51, porque ahora tu mazo tiene 51 cartas, tres de las cuales son ases.
Pregunta 2. ¿Cuál es la probabilidad de que ambas cartas sean ases?
Respuesta 2: Usando la regla de la multiplicación y la respuesta 1, la respuesta es:
Pregunta 3. ¿Cómo cambias las respuestas a las preguntas 1 y 2 si devuelves las tarjetas?
Respuesta 3 (¿Quién la trajo para repartir las cartas? Sólo en la clase de probabilidad...) Devuelves la carta antes de sacar la segunda carta. Bajo este supuesto, robas cartas del mismo mazo cada vez, por lo que:
La respuesta es la misma sin importar cuál sea la primera carta. Además:
Ten en cuenta que cambiar la naturaleza de la aleatoriedad no cambia si multiplicas las probabilidades. Todavía estás buscando la probabilidad de intersección, así que estás haciendo la multiplicación. Un cambio en las suposiciones solo cambia la forma de multiplicar.
Según la estimación del censo que ves en los datos 8, la población de EE. UU. en 2014 era 318.857.056. * * * Había 9.037 hombres de 99 años y 32.791 mujeres de 99 años.
Pregunta Supongamos que seleccionas al azar a una persona de la población de EE. UU. en 2014. Esta persona tiene 99 años. Según esta información, ¿cuáles son las posibilidades de que esta persona sea mujer?
Respuesta. La respuesta es, naturalmente, el porcentaje de mujeres de 99 años:
Esto es consistente con la definición de probabilidad condicional, que es que se debe calcular:
No se necesita toda la población de EE. UU.; se puede borrar. Esta es una observación importante sobre el medio ambiente. Cuando toma una muestra aleatoria y sabe que su selección está dentro de un subgrupo específico, el número dentro de ese subgrupo es muy importante.
Considerando la edad de 99 años, la probabilidad de que una persona sea casi cuatro veces mayor que la de un hombre. Pero como puede ver en el dato 8, hay más hombres que mujeres entre nuestros residentes más jóvenes, los recién nacidos.
Todo lo que necesitas es una regla de suma y una regla de multiplicación. A continuación se muestran algunos ejemplos de técnicas estándar de resolución de problemas.
Una caja contiene 6 piezas de chocolate negro y 4 piezas de chocolate con leche. Elegí dos al azar y no los devolví.
Pregunta ¿Cuáles son mis posibilidades de conseguir cada uno?
Respuesta. Notarás que la pregunta no dice si el primero es negro o lechoso. Ambas cosas pueden suceder. Por lo tanto, enumera las diferentes formas en que pueden ocurrir los eventos, es decir, divisiones de eventos:
Primero es negro y luego leche: según la regla de la multiplicación, la probabilidad es (6/10) (4/9).
El primero es leche y luego negro: la probabilidad es (4/10) (6/9).
(¡Ah! ¡Estos dos términos son iguales! Prepárate para más simetrías como esta en el muestreo sin reemplazo).
Ahora suma las dos probabilidades. La respuesta es 2 (6/10) (4/9).
Este método debe ser tan natural como respirar. Deberías rehacer la pregunta bajo la suposición antinatural de que el chocolate volvió a la muestra para ver qué cambió y qué permaneció igual.
Una caja contiene b bolas negras y w bolas blancas. Se selecciona una bola al azar, luego se devuelve y luego se colocan d bolas del mismo color. Luego se extrae una bola al azar del frasco.
Pregunta 1. ¿Cuáles son las posibilidades de que la primera bola extraída sea negra?
Respuesta 1. No requiere mucho esfuerzo.
Pregunta 2: ¿Cuál es la probabilidad de que la segunda bola sea negra?
Respuesta 2. Naturalmente pensarás en cuál es la primera bola, así que divídela según el color de esa bola y suma. El enfoque básico vuelve a funcionar.
Esta es la misma probabilidad que la primera bola sea negra, sin importar cuál sea D. ¡Este patrón es muy interesante!
Pregunta 3: Dado que la primera bola es negra, ¿cuál es la probabilidad de que la segunda bola sea negra?
Respuesta 3. Usamos esto en el cálculo anterior.
La probabilidad condicional de "seguir el ritmo de los tiempos" generalmente se puede leer a partir de la información de la pregunta, como por ejemplo:
$ P(\ text {Segunda bola negra} \ mid \ text {Primera bola negra }) =
\frac{b d}{b w d}$
Pregunta 4: Dado que la segunda bola es negra, ¿cuál es la probabilidad de que la primera bola sea negra? ?
Respuesta 4, la probabilidad condicional de esta "inversión del tiempo" no es fácil de leer. Aquí es donde entra en juego la regla de la división.
Esto realmente depende de D, pero es lo mismo que la respuesta 3. No parece haber diferencia entre el frente y la espalda.
Ahora empiezas a entender por qué esta ley lleva el nombre de su famoso fundador, George Polya (1887-1985). Puede continuar repitiendo esta regla (reemplazar la bola extraída con una bola D de otro color y luego dibujarla nuevamente) para obtener un proceso que es hermoso y útil para actualizar su vista a medida que ingresan datos. Lo veremos más adelante en este curso.
Los datos hacen cambiar de opinión. Podemos comenzar con una serie de suposiciones sobre cómo funciona el mundo, pero a medida que recopilamos más datos, es posible que necesitemos actualizar nuestras opiniones en función de lo que vemos en los datos.
Las vistas se pueden reflejar mediante probabilidades y estas vistas también se pueden actualizar a medida que ingresa información. En esta sección, construiremos un método de actualización probabilística con datos dados. Comenzaremos con un ejemplo y luego expondremos el método de manera más general.
Existe una enfermedad rara en la población: sólo 0,4 personas la padecen. Existe una prueba para esta enfermedad que se utiliza en personas con la enfermedad y tiene un 99% de posibilidades de arrojar un resultado positivo. Para las personas sin la enfermedad, existe un 99,5 de posibilidades de que arroje un resultado negativo. En general, esta es una buena prueba.
Selecciona una persona al azar entre la multitud. Suponiendo que el resultado de la prueba de esta persona es positivo, ¿cuál es la probabilidad de que tenga la enfermedad?
El siguiente es un diagrama de árbol que dibujamos en Data8 para resumir la información de la pregunta.
Para resolver este problema usaremos la regla de división. Sea D el evento de que el paciente padezca la enfermedad, y sea el evento de que el paciente dé positivo cuando se abusa de algunos símbolos matemáticos. Entonces lo que buscamos es P(D | ). Según la regla de división,
$ P(D \ mid )= \frac { P(D \ text { and } )} { P( )}
= \frac { 0.004 \ cdot 0.99 } { 0.004 \ cdot 0.99 0.996 \ cdot 0.005 }
= 44.3$
En general, si todo el espacio de resultados se puede dividir en eventos.