Cómo comprender la dimensión VC, la rotura y el punto de quiebre en el aprendizaje automático de una manera popular
Fuente: Zhihu
Hu Keke
En términos sencillos, demos un ejemplo. Suponga que desea entrenar un modelo que prediga si una persona es bella o fea en función de su altura y peso. Este es un problema simple de dos clasificaciones.
Ahora imagina que hay un sistema de coordenadas cartesianas plano frente a ti. El eje horizontal (eje x) representa la altura de una persona y el eje vertical (eje y) representa el peso de una persona.
Ahora tomamos una decisión: nuestro modelo debe ser lineal (es decir, una línea recta). En términos simples, en su sistema de coordenadas cartesiano plano, usted dibuja una línea, y esta línea separa lo bello y lo feo. Esta línea es nuestro modelo final.
Ahora vamos a empezar a poner datos en el sistema de coordenadas cartesiano del plano.
Supongamos que solo tenemos dos conjuntos de datos (es decir, solo hay dos puntos en nuestro sistema de coordenadas). Estos dos conjuntos de datos se combinan aleatoriamente y hay tres situaciones en una ***.
La primera situación: tenemos los datos de dos bellezas
La segunda situación: tenemos los datos de dos personas feas
La tercera situación: tenemos datos sobre belleza y fealdad
No importa cuál sea la situación, podemos separar a las personas bellas de las feas a través de una línea. Esto muestra que un modelo lineal puede destruir por completo dos conjuntos de datos.
Pero supongamos que tenemos cuatro conjuntos de datos (cuatro puntos en el sistema de coordenadas). No podemos garantizar que el modelo lineal pueda explicar completamente la posibilidad de todos los datos. Por ejemplo, nuestros datos son (180 cm, 50 kg) = hermoso, (10 cm, 10 kg) = hermoso, (180 cm, 10 kg) = feo y (10 cm, 50 kg) = feo. Para este conjunto de datos, no importa cómo tracemos una línea recta, no hay forma de separar la belleza y la fealdad en ambos lados de la línea recta. Esto muestra que un modelo lineal no puede destruir 4 conjuntos de datos.
Supongamos que tenemos tres conjuntos de datos, siempre podemos separar belleza/fealdad dibujando líneas. (Piensen todos con cuidado).
Entonces, la dimensión VC del modelo lineal en el caso de estos datos bidimensionales es 3. (Porque el modelo lineal puede destruir 3 conjuntos de datos como máximo)
Ahora, si de repente cambiamos de opinión: nuestro modelo puede ser no lineal. La dimensión VC del modelo no lineal es muy alta. Imagínese, ¿podría teóricamente una curva separar toda la belleza y la fealdad en el sistema de coordenadas?
Así lo entiende la gente: la dimensión VC es la tolerancia de un determinado tipo de modelo a la cantidad de datos. Cuanto mayor sea la dimensión de la CV, más inclusiva será.
Dicho todo esto, ¿para qué sirve la dimensión VC? En pocas palabras, la dimensión VC puede ayudarnos a elegir un mejor modelo. El llamado modelo "mejor" puede entenderse como un modelo con menor riesgo.
¿Cómo estimar el riesgo del modelo? Tenemos esta fórmula:
El riesgo real lt; el riesgo f (dimensión VC) calculado en base a los datos existentes
f (dimensión VC) es una variable con función de dimensión VC. El modelo que queremos elegir debe hacer que f (dimensión VC) sea baja, de modo que el riesgo real sea bajo. Un modelo con menor riesgo es mejor.
Ps: Lo que dije anteriormente puede no ser del todo exacto. Sólo para explicar el concepto lo más claramente posible.
Publicado el 23-08-2017
Zhao Yin
En pocas palabras.
La dimensión VC es la complejidad del modelo. Cuanto mayor es el espacio de hipótesis del modelo, mayor es la dimensión VC.
El punto de rotura y de rotura son conceptos de la teoría de la dimensión VC. Destrozar significa que la hipótesis del modelo rompe los datos en pedazos, es decir, los separa.
El punto de ruptura se refiere a un punto crítico matemático en el que los datos pueden dispersarse lo suficiente cuando la complejidad del modelo se vuelve lo suficientemente alta.
Más importante aún, la importancia práctica de la dimensión VC es proporcionar apoyo teórico para la capacidad de aprendizaje del aprendizaje automático.
1. ¿La pérdida del conjunto de prueba está cerca de la pérdida del conjunto de entrenamiento? Cuanto más pequeña es la dimensión de VC, más cercana está la teoría.
2. ¿La pérdida del conjunto de entrenamiento es lo suficientemente pequeña? Cuanto mayor es la dimensión de VC, menor es la teoría de pérdidas.
En la práctica industrial general, se introduce la regularidad para controlar la complejidad del modelo (dimensión VC) para equilibrar la contradicción entre estas dos cuestiones.
Si desea comprender en profundidad, se recomienda leer este blog técnico del equipo de Tencent Guangdiantong: Los entresijos de la dimensión VC | Personalmente creo que se resume muy bien.