Red de conocimiento informático - Conocimiento del nombre de dominio - Información seca | Algoritmos básicos de aprendizaje automático

Información seca | Algoritmos básicos de aprendizaje automático

Este artículo está dirigido principalmente a principiantes en el aprendizaje automático e introduce algoritmos comunes de aprendizaje automático. Por supuesto, los intercambios entre pares son bienvenidos.

Las preguntas básicas que la filosofía necesita responder son de dónde vengo, quién soy y adónde voy. El proceso de encontrar respuestas puede basarse en rutinas de aprendizaje automático: organizar datos -> míos. conocimiento -> predecir el futuro. Organizar datos es diseñar características, generar muestras que cumplan requisitos de formato específicos, extraer conocimiento es modelar y predecir el futuro es aplicar el modelo.

El diseño de funciones se basa en la comprensión de escenarios comerciales y se puede dividir en funciones continuas, funciones discretas y funciones combinadas de alto orden. Este artículo se centra en la introducción de algoritmos de aprendizaje automático, que se pueden dividir en dos categorías: aprendizaje supervisado y aprendizaje no supervisado.

Existen muchos algoritmos de aprendizaje no supervisados. En los últimos años, la industria ha prestado más atención a los modelos temáticos LSA->PLSA->LDA, que son principalmente algoritmos típicos en las tres etapas de desarrollo. tienen diferencias en los supuestos de modelado. LSA supone que el documento tiene un solo tema, PLSA supone que la distribución de probabilidad de cada tema no cambia (theta es fija) y LDA supone que la probabilidad de tema de cada documento y palabra es variable.

La esencia del algoritmo LDA se puede entender con la ayuda de la tirada de dados de Dios. Para obtener información detallada, puede leer el artículo "LDA Data Gossip" escrito por Rickjin. Muchos conocimientos matemáticos. Es muy recomendable.

El aprendizaje supervisado se puede dividir en clasificación y regresión. El perceptrón es el clasificador lineal más simple. Actualmente tiene pocas aplicaciones prácticas, pero es la unidad básica de las redes neuronales y el aprendizaje profundo.

Cuando las funciones lineales se ajustan a los datos y se clasifican en función de umbrales, las muestras de ruido las interfieren fácilmente, lo que afecta la precisión de la clasificación. La regresión logística utiliza la función sigmoidea para restringir la salida del modelo entre 0 y 1, lo que puede debilitar efectivamente el impacto negativo de los datos ruidosos y se usa ampliamente en la estimación de la tasa de clics de publicidad en Internet.

Los parámetros del modelo de regresión logística se pueden resolver mediante máxima verosimilitud. Primero defina la función objetivo L (theta), y luego el procesamiento de registros convierte la lógica multiplicativa de la función objetivo en lógica de suma (maximizar probabilidad -> mínima). función de pérdida), y finalmente resolverlo usando el descenso de gradiente.

En comparación con la clasificación lineal, los clasificadores no lineales como los árboles de decisión tienen capacidades de clasificación más fuertes. ID3 y C4.5 son algoritmos típicos de árboles de decisión. El proceso de modelado es básicamente similar. La función de ganancia (función objetivo) se define de manera diferente.

La regresión lineal y la clasificación lineal son similares en la forma de expresión. La diferencia esencial es que la función objetivo de la clasificación es un valor discreto, mientras que la función objetivo de la regresión es un valor continuo. La diferencia en las funciones objetivo lleva a que la regresión defina generalmente la función objetivo basándose en mínimos cuadrados. Por supuesto, bajo el supuesto de que el error de observación satisface la distribución gaussiana, los mínimos cuadrados y la máxima verosimilitud pueden ser equivalentes.

Cuando se utiliza el descenso de gradiente para resolver los parámetros del modelo, se puede utilizar el modo por lotes o el modo estocástico. En términos generales, el modo por lotes es más preciso y el modo estocástico es menos complejo.

Como se mencionó anteriormente, aunque el perceptrón es el clasificador lineal más simple, puede considerarse como la unidad básica del aprendizaje profundo y los parámetros del modelo se pueden resolver mediante métodos como Auto Encoder.

Una de las ventajas del aprendizaje profundo puede entenderse como la abstracción de características, es decir, aprender de características de bajo nivel para obtener características de alto orden para describir estructuras de información más complejas. Por ejemplo, las características de contorno de borde que describen la estructura de la textura se abstraen del aprendizaje de características a nivel de píxel y se realiza un aprendizaje adicional para obtener características de orden superior que representan las partes locales del objeto.

Como dice el refrán, tres títeres son mejores que Zhuge Liang, ya sea clasificación lineal o aprendizaje profundo, ¿hay alguna manera de combinar las fortalezas de cientos de escuelas? el modelo para procesar datos? ¿Cómo se puede mejorar aún más la precisión? Por supuesto, Model Ensembel resuelve este problema. El embolsado es uno de los métodos para una tarea de procesamiento de datos determinada, se utilizan diferentes modelos/parámetros/características para entrenar múltiples conjuntos de parámetros del modelo y, finalmente, los resultados finales se generan mediante votación o promedio ponderado.

El impulso es otro método de Model Ensemble. La idea es mejorar la precisión general del procesamiento de las muestras de datos ajustando la pérdida de peso de las muestras erróneas en cada iteración del modelo. Los algoritmos típicos incluyen AdaBoost, GBDT, etc. .

Para diferentes escenarios de tareas de datos, puede elegir diferentes métodos de Model Ensemble. Para el aprendizaje profundo, puede utilizar el método DropOut para que los nodos de capa ocultos logren efectos similares.

Habiendo introducido tantos algoritmos básicos de aprendizaje automático, hablemos de los criterios básicos para evaluar la calidad de los modelos. El subajuste y el sobreajuste son dos situaciones que ocurren con frecuencia. Una forma sencilla de determinarlo es comparar la relación entre el error de entrenamiento y el error de prueba. Cuando el ajuste es insuficiente, se pueden diseñar más funciones para mejorar la precisión del entrenamiento del modelo. optimizado para reducir la complejidad del modelo y mejorar la precisión de las pruebas del modelo.

La cantidad de características es un reflejo intuitivo de la complejidad del modelo. Un método común es establecer la cantidad de características de entrada antes del entrenamiento del modelo. Introduce la función objetivo/función de pérdida para seleccionar características de alta calidad en función del proceso de capacitación.

El ajuste del modelo es un trabajo meticuloso y, en última instancia, debe poder ofrecer resultados de predicción confiables para escenarios reales y resolver problemas prácticos. ¡Estoy deseando aplicar lo que aprendí! Autor Xiaohuo Este artículo es una reproducción de Alibaba Technology. Se requiere autorización para la reimpresión.