Algoritmo de modelado matemático (31) Análisis de varianza (Parte 1)
Ya hemos realizado dos pruebas de hipótesis sobre la media general. Por ejemplo, las piezas producidas por las dos máquinas herramienta son del mismo tamaño y un cierto índice fisiológico del paciente y de la persona normal es el mismo. . Si generalizamos este tipo de problema y comprobamos si las medias de dos o más poblaciones son iguales, todavía resulta difícil hacerlo utilizando el método presentado anteriormente. En la producción y la vida reales, se pueden citar muchos de estos problemas: de las bombillas fabricadas mediante varios procesos diferentes, extraiga varias de ellas y mida su vida útil para inferir si existe una diferencia significativa en la vida útil de las bombillas fabricadas mediante estos procesos. Se plantaron fertilizantes químicos y varias variedades de trigo en varios campos experimentales de trigo para inferir si los diferentes fertilizantes químicos y variedades tienen un impacto significativo en el rendimiento.
Los resultados de las pruebas que preocupan a las personas se denominan indicadores, las condiciones que deben examinarse y controlarse en la prueba se denominan factores o factores, y el estado de los factores se denomina nivel. La cuestión de la longevidad del bulbo mencionada anteriormente es una prueba de un solo factor, y la cuestión del rendimiento del trigo es una prueba de dos factores. Los métodos estadísticos utilizados para procesar los resultados de estos experimentos se denominan ANOVA unidireccional y ANOVA bidireccional.
Considere solo el impacto de un factor en los indicadores relevantes, tome varios niveles y realice varios experimentos en cada nivel. Todos los factores que afectan los indicadores permanecen sin cambios (solo existen factores aleatorios). de los resultados de la prueba se infiere si el factor tiene un impacto significativo en el índice, es decir, si el índice es significativamente diferente cuando se toman diferentes niveles.
Tratar un indicador de un determinado nivel como una variable aleatoria, determinar si existe una diferencia significativa entre indicadores de diferentes niveles equivale a probar si las medias de las cantidades totales son iguales.
Llama a la primera fila el primer conjunto de datos. Determinar si el nivel de un indicador tiene un efecto significativo equivale a realizar la siguiente prueba de hipótesis:
No todos son iguales.
Dado que los valores en diferentes niveles se ven afectados en diferentes grados y también se ven afectados por un factor aleatorio fijo, se descompone en:
donde y son independientes entre sí.
Recuerda:
es la media general, que es el grado de impacto en el indicador. El modelo de (1) y (2) se puede expresar como:
La hipótesis nula es (la hipótesis alternativa se omite más adelante):
Nota:
es la primera La media grupal de un conjunto de datos es la media general.
De la aditividad de la distribución, sabemos:
Es decir:
Luego obtenemos:
Análisis adicional de la distribución muestra:
Si es cierto, entonces:
Si no es cierto, la proporción será mucho mayor que 1. Cuando se cumple, la relación obedece a la distribución de grados de libertad, es decir:
Para la prueba, dado el nivel de significancia, los cuartiles de la distribución se escriben como los cuartiles de la distribución. es:
p>
Aceptarlo cuando sea verdadero y rechazarlo cuando sea falso.
El análisis anterior es equivalente al análisis de varianza entre grupos y al análisis de varianza dentro de grupos, por lo que este método de prueba de hipótesis se denomina análisis de varianza.
Los resultados del análisis y cálculo de los datos experimentales de acuerdo con el método anterior se organizan en la forma de la Tabla 2, que se denomina tabla de análisis de varianza de un factor (tabla de análisis de varianza proporcionada en Matlab). .
La última columna da la probabilidad de que el valor sea mayor o igual a .
El comando de análisis de varianza unidireccional en la caja de herramientas estadísticas de Matlab es anoval.
El uso para manejar datos balanceados es el siguiente:
El valor de retorno es la probabilidad de aceptar, como una matriz de datos donde cada columna es un nivel de datos (en este caso, cada nivel muestra tamaño). Además, se generan una tabla de varianza y un diagrama de caja.
Escribir el programa de la siguiente manera:
Matlab genera la tabla de análisis de varianza:
Buscar, entonces aceptar, es decir, no hay diferencia significativa en la productividad de los cinco trabajadores. La tabla ANOVA corresponde a las columnas 1 ~ 4 de la tabla ANOVA de un factor anterior, que es la magnitud de la distribución y se puede verificar:
Al mismo tiempo, el programa generará un diagrama de bloques.
Procesamiento de datos no uniformes:
x es un vector de datos del grupo 1 al grupo r, y el grupo es un vector con la misma longitud que x, utilizado para marcar x El grupo de datos (ingrese un número entero en la posición correspondiente al primer grupo de datos en x).
Solución: escriba el siguiente programa
para encontrar, por lo que existen diferencias significativas en la vida útil de las bombillas fabricadas mediante varios procesos.
En el problema de la vida de la bombilla, para determinar cuál de las bombillas fabricadas mediante varios procesos tiene una diferencia significativa en la vida, primero calculamos la media de cada conjunto de datos:
Aunque la media es la más grande, para determinar si es significativamente diferente de las demás, es necesario realizar múltiples comparaciones. En general, se deben realizar múltiples comparaciones entre las dos poblaciones para analizar en qué se diferencian entre sí. Dependiendo de las características específicas del problema, se puede reducir el número de comparaciones.
Para el problema anterior, el programa Matlab para comparaciones múltiples es: