SVM se denomina máquina de vectores de soporte, una nueva y prometedora tecnología de clasificación propuesta por Vanpik en Bell Labs en 1963. SVM es un método de reconocimiento de patrones basado en la teoría del aprendizaje estadístico y se utiliza principalmente en el campo del reconocimiento de patrones. En ese momento, estos estudios aún no estaban completos, tendían a ser conservadores en la resolución de problemas de reconocimiento de patrones y eran matemáticamente difíciles, por lo que no recibieron suficiente atención. Hasta la década de 1990, la implementación de un sistema teórico relativamente completo: la teoría estadística del aprendizaje (SLT) y la investigación sobre métodos de aprendizaje automático relativamente nuevos, como las redes neuronales, encontraron algunas dificultades importantes, como cómo determinar la estructura de la red, el sobreaprendizaje y subaprendizaje, mínimo local, etc. Esto permite que SVM se desarrolle y mejore rápidamente. Muestra muchas ventajas únicas en la resolución de problemas de reconocimiento de patrones de muestras pequeñas, no lineales y de alta dimensión, y puede extenderse a otros problemas de aprendizaje automático, como el ajuste de funciones. Desde entonces, se ha desarrollado rápidamente y se ha utilizado con éxito en muchos campos (bioinformática, reconocimiento de textos y escritura a mano, etc.). ).
La función del kernel es la clave para SVM, y esto también es lo más gratificante. Los conjuntos de vectores en un espacio de baja dimensión suelen ser difíciles de dividir y la solución es asignarlos al espacio de alta dimensión. Sin embargo, la dificultad que plantea este método es el aumento de la complejidad computacional, y la función del núcleo resuelve este problema claramente. En otras palabras, siempre que se seleccione la función central adecuada, se puede obtener la función de clasificación del espacio de alta dimensión. En la teoría SVM, diferentes funciones del núcleo conducirán a diferentes algoritmos SVM.
Es un método de aprendizaje automático basado en la teoría estadística y la minimización del riesgo estructural, que es mejor que el aprendizaje por redes neuronales.