Clasificación de máquinas de vectores de soporte
Figura 2.2 Separación óptima del hiperplano y borde máximo de la máquina de vectores de soporte
La máquina de vectores de soporte (SVM) se utiliza para resolver problemas no lineales. Convierte el problema no lineal en un problema lineal de alta dimensión mediante la transformación no lineal representada por la función central φ (x) que se muestra en la Figura 2.2 (a). El hiperplano de separación óptimo se puede obtener en este espacio de características de transformación lineal. En el caso de la separabilidad lineal, el método SVM se basa en esta superficie de clasificación óptima. Combinado con el problema de clasificación binaria, el conjunto de datos dado se puede dividir en dos categorías mediante un hiperplano lineal, como se muestra en la Figura 2.2 (b). Por lo tanto, la máquina de vectores de soporte (SVM) apunta al borde máximo de dos regiones de interés, establece un hiperplano de separación lineal entre ellas, lo generaliza al hiperplano de separación lineal del espacio de alta dimensión y lo desarrolla en el hiperplano de separación óptimo.
En la Figura 2.2, los puntos sólidos y los puntos huecos representan dos tipos de muestras respectivamente. H es la línea de clasificación. H1 y H2 son líneas rectas que pasan por el punto más cercano en cada muestra y son paralelas al. línea de clasificación. La distancia entre ellos es La distancia se llama brecha de clasificación o margen de clasificación. La llamada línea de clasificación óptima requiere que la línea de clasificación pueda distinguir correctamente las dos categorías y maximizar el intervalo de clasificación. El primero es garantizar el riesgo empírico mínimo (0), y el intervalo de clasificación máximo es en realidad minimizar el intervalo de confianza dentro del límite de generalización, minimizando así el riesgo real. Cuando se extiende a dimensiones altas, la línea de clasificación óptima se convierte en la superficie de clasificación óptima.
El objetivo de las máquinas de vectores de soporte es encontrar un hiperplano. ¿Podemos combinar la función del núcleo para separar los datos de modo que todos los puntos con la misma etiqueta pertenezcan al mismo lado del hiperplano? Supongamos que el conjunto de datos de entrenamiento consta de k muestras de entrenamiento linealmente separables, denotadas como (xi, yi) (i = 1,...,k), donde x∈Rn es el vector de datos n-dimensional de cada muestra, perteneciente a el grupo etiquetado yi Dos categorías de ∈ {-1}. La máquina de vectores de soporte consiste en encontrar la función de decisión lineal definida por g (x) = w x b en un espacio de n dimensiones. La ecuación del hiperplano de clasificación (OSH) es la siguiente:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Si se pueden determinar el vector w y la escala b, y las funciones de juicio (2.5) y (2.6) se pueden satisfacer), entonces estos modos de entrenamiento se denominan linealmente separables:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Incluso si todas las muestras en las dos categorías satisfacen g | (xi) | ≥ 1, la muestra más cercana al plano de clasificación | g (xi) | 1, entonces el intervalo de clasificación es igual a 2/w, por lo que maximizar el intervalo equivale a minimizar w (o | | w‖2 ); se requiere que la línea de clasificación sea correcta. Para clasificar todas las muestras, se requiere satisfacer:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Por lo tanto, la superficie de clasificación que satisface la condicional. expresión (2.4) y minimiza ‖w‖2 es la superficie de clasificación Excelente óptima. Las muestras de entrenamiento en los hiperplanos H1 y H2 pasan por los puntos de los dos tipos de muestras que están más cerca del plano de clasificación y paralelos al plano de clasificación óptimo, que son aquellas muestras para las cuales el signo igual de la fórmula (2.4) es válido. y se llaman vectores de soporte. Debido a que soportan la superficie de clasificación óptima, como se muestra en la Figura 2.2, los puntos están marcados en H1 y H2.
De acuerdo con la discusión anterior, el problema de la superficie de clasificación óptima se puede expresar como el siguiente problema de programación cuadrática, es decir, encontrar la función bajo las restricciones de desigualdad de la expresión condicional (2.7)
Valor mínimo hiperespectral de la tecnología de extracción de información de imágenes de teledetección
.
Para ello, se puede definir la siguiente función lagrangiana:
Tecnología de extracción de información de imágenes de teledetección hiperespectral
donde ai > 0 es el coeficiente lagrangiano, encontremos W y B El valor mínimo de la función lagrangiana, use la ecuación (2.9) para derivar las derivadas de W y B respectivamente para hacerlas iguales a 0, de modo que el problema original pueda transformarse en un problema dual simple, de la siguiente manera, bajo las restricciones:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Resuelva el valor máximo de la siguiente función para ai:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Si es así, solución óptima, entonces
Tecnología de extracción de información de imágenes de detección remota hiperespectral
La fórmula anterior muestra que el vector de coeficiente de peso de la superficie de clasificación óptima es una combinación lineal de los vectores de muestra de entrenamiento. .
Este es un problema de valor extremo de función cuadrática bajo restricciones de desigualdad y tiene una solución única. Según la condición de Kuhn-Tucker, la solución a este problema de optimización debe satisfacer:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Por lo tanto, para la mayoría de las muestras, ai* será cero, Los valores distintos de cero correspondientes a las muestras que equivalen a la ecuación (2.7), es decir, los vectores de soporte, normalmente solo representan una pequeña fracción de todas las muestras.
La regla de clasificación basada en la superficie de clasificación óptima es la función de clasificación óptima obtenida resolviendo el problema anterior:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Entre ellos: sgn() es una función simbólica. Dado que ai correspondiente a los vectores que no son de soporte es todo cero, la suma en la ecuación (2.14) en realidad es solo para los vectores de soporte. B* es el valor del dominio de la clasificación, que se puede obtener a partir de cualquier vector de soporte mediante la ecuación (2.7), o tomando la mediana de cualquier par de vectores de soporte en las dos categorías. La superficie de clasificación óptima se obtiene bajo la premisa de separabilidad lineal. En el caso de la inseparabilidad lineal, es la superficie de clasificación óptima obtenida cuando algunas muestras de entrenamiento no pueden satisfacer la expresión condicional (2.7), que se denomina superficie de clasificación óptima generalizada. Por lo tanto, se puede agregar un término de relajación εi≥0 a la fórmula (2.7), que se convierte en:
Tecnología de extracción de información de imágenes de teledetección hiperespectral
El problema de la superficie de clasificación óptima generalizada puede ser más detallado evolucionó Para encontrar el valor mínimo de la siguiente función bajo las restricciones de la expresión condicional (2.15):
Tecnología de extracción de información de imágenes de teledetección hiperespectral
Donde: c > 0 es el Constante especificada, se utiliza para controlar el grado de castigo de las muestras mal clasificadas y lograr un compromiso entre la proporción de muestras mal clasificadas y la complejidad del algoritmo.
Además de la restricción (2.10), se convierte en:
Tecnología de extracción de información de imágenes de detección remota hiperespectral
Al resolver problemas de optimización y calcular planos de clasificación, solo se necesita capacitación. involucrado La operación del producto interno (xi, fácil) entre muestras significa que solo es necesario calcular la función del núcleo k (x x'). Las funciones del núcleo comúnmente utilizadas actualmente incluyen la función del núcleo lineal, la función del núcleo polinómico, la función de base radial gaussiana (función del núcleo RBF) y la función del núcleo sigmoide.