Descripción general de la detección de valores atípicos
La detección de valores atípicos, como su nombre indica, consiste en identificar datos que son diferentes de los datos normales, es decir, datos que son significativamente diferentes del comportamiento esperado.
La identificación de problemas como fraudes con tarjetas de crédito, anomalías en la producción industrial y anomalías en el flujo de la red (intrusiones en la red) se centra en un pequeño número de eventos.
Anomalías puntuales: algunas instancias individuales son anormales, mientras que la mayoría de las instancias individuales son normales, por ejemplo, indicadores de salud de personas y pacientes normales.
Anomalías de contexto: también llamadas anomalías contextuales; referirse a Una sola instancia es anormal en un contexto específico, pero normal en todos los demás contextos, por ejemplo, anomalías contextuales: también conocidas como anomalías contextuales, se refiere a la situación en la que una instancia individual es anormal en un contexto específico, pero normal en otros. contextos, como p>
Anomalía de grupo: se refiere a la situación en la que una sola instancia en el conjunto de grupos es anormal, pero la instancia única en sí puede no ser anormal. Por ejemplo, el conjunto de cuentas falsas en una red social. La red es un subconjunto de la anomalía del grupo, pero una sola instancia del subconjunto es anormal. Los nodos pueden funcionar tan bien como las cuentas reales.
Supervisado: hay instancias etiquetadas positivas y negativas en el conjunto de entrenamiento
No supervisado: no hay etiquetas en el conjunto de entrenamiento
Semisupervisado: hay solo un tipo de instancias en el conjunto de entrenamiento (instancia normal), ninguna instancia anormal. Participa en la formación
Los métodos estadísticos hacen suposiciones sobre la normalidad de los datos. Suponen que los objetos de datos normales son generados por un modelo estadístico y que los datos que no se ajustan al modelo son datos anormales. La eficacia de los métodos estadísticos depende en gran medida de si se cumplen los supuestos del modelo estadístico hechos para los datos dados.
La idea general de los métodos estadísticos para la detección de anomalías es aprender un modelo generativo que sea adecuado para un conjunto de datos determinado y luego identificar objetos en regiones de baja probabilidad del modelo como valores atípicos.
Es decir, utilizar métodos estadísticos para construir un modelo y luego considerar la probabilidad de que un objeto se ajuste al modelo.
Supongamos que el conjunto de datos de entrada es y las muestras en el conjunto de datos siguen una distribución normal, es decir, podemos encontrar la suma de parámetros en función de las muestras.
Un ejemplo típico es el método PCA, Análisis de Componentes Principales o PCA para abreviar. La reducción de dimensionalidad preserva las características de los datos originales tanto como sea posible (medidas por la covarianza de los datos).
El principio de PCA es construir un nuevo espacio de características y mapear los datos originales en este nuevo espacio de baja dimensión. PCA puede mejorar el rendimiento informático de los datos y aliviar la "maldición de la alta dimensionalidad".
?Este tipo de algoritmo es adecuado para situaciones en las que los puntos de datos están muy agrupados y hay pocos valores atípicos. Al mismo tiempo, dado que los algoritmos de similitud generalmente necesitan calcular cada dato por separado, generalmente requieren una gran cantidad de cálculos y no son adecuados para datos de gran capacidad y alta dimensión.
Los métodos de detección basados en la similitud se pueden dividir aproximadamente en tres categorías:
La integración es un método común para mejorar la precisión de los algoritmos de minería de datos. Los métodos integrados combinan la salida de múltiples algoritmos o múltiples detectores subyacentes. La idea básica es que ciertos algoritmos funcionan bien en ciertos subconjuntos y ciertos algoritmos funcionan bien en otros subconjuntos, que luego se integran para hacer que la salida sea más sólida. Los métodos de conjunto tienen similitudes naturales con los métodos basados en subespacios, donde los subespacios están asociados con diferentes conjuntos de puntos, mientras que los métodos de conjunto utilizan detectores de bases para explorar subconjuntos de diferentes dimensiones y agregar a estos alumnos básicos.
Los métodos de integración más utilizados incluyen embolsado de funciones, bosque de aislamiento, etc.
**Método de embolsado de características**:
Similar al método de embolsado, excepto que el objeto es una característica.
Bosque de aislamiento:
El bosque de aislamiento supone que utilizamos hiperplanos aleatorios para cortar el espacio de datos, y un corte puede generar dos subespacios. Luego continuamos cortando cada subespacio con un hiperplano aleatorio, y así sucesivamente, hasta que solo haya un punto de datos en cada subespacio. Intuitivamente, los grupos de alta densidad requieren múltiples cortes antes de ser aislados, mientras que los puntos de baja densidad se asignan rápidamente a un subespacio separado.
Los bosques aislados tratan estos puntos rápidamente aislados como valores atípicos.
Utilizando cuatro muestras para hacer una visualización simple, d es la primera en separarse, por lo que es más probable que d sea un valor atípico.
En el caso de las etiquetas, se pueden utilizar modelos de árbol (gbdt, xgboost, etc.) para la clasificación. La desventaja es que las etiquetas de datos son desiguales en escenarios de detección de anomalías, pero la ventaja de utilizar algoritmos de aprendizaje automático es que se pueden construir diferentes características.
Scikit-learn:
Scikit-learn es una biblioteca de aprendizaje automático de código abierto para el lenguaje Python. Contiene varios algoritmos de clasificación, regresión y agrupamiento. También contiene algunos algoritmos de detección de anomalías como LOF y Bosque Aislado.
Sitio web oficial: https://scikit-learn.org/stable/
PyOD:
1. Aprenda las operaciones básicas de la biblioteca pyod p>
.Referencias:
.