Explicación detallada de las diez técnicas estadísticas principales que los científicos de datos deben dominar
Explicación detallada de las diez técnicas estadísticas principales que los científicos de datos deben dominar
"Los científicos de datos son mejores en estadística que los programadores y mejores en programación que los estadísticos". Diez técnicas estadísticas que los científicos de datos deben dominar. Grandes técnicas estadísticas, incluida la regresión lineal, la clasificación, el remuestreo, la reducción de dimensionalidad, el aprendizaje no supervisado, etc.
No importa cuál sea su actitud hacia la ciencia de datos, es imposible ignorar la importancia de analizar, organizar y clasificar los datos. El sitio web Glassdoor creó una lista de los "25 mejores empleos en los Estados Unidos" basándose en datos de comentarios de una gran cantidad de empleadores y empleados, y el primero es científico de datos. Aunque el ranking ya está en lo más alto, el contenido laboral de un científico de datos no se quedará ahí. A medida que tecnologías como el aprendizaje profundo se vuelven más ubicuas y campos candentes como el aprendizaje profundo ganan más atención por parte de los investigadores e ingenieros, así como de las empresas que los emplean, los científicos de datos continúan estando a la vanguardia de la innovación y el avance tecnológico.
Si bien es importante tener sólidas habilidades de programación, la ciencia de datos no se trata solo de ingeniería de software (de hecho, solo la familiaridad con Python es suficiente para las necesidades de programación). Los científicos de datos deben tener una combinación de habilidades de programación, estadística y pensamiento crítico. Como dijo Josh Wills: "Los científicos de datos son mejores en estadística que los programadores y mejores en programación que los estadísticos". Conozco personalmente a muchos ingenieros de software que quieren transformarse en científicos de datos, pero utilizan ciegamente marcos de aprendizaje automático como TensorFlow o Apache Spark. procesar datos sin una comprensión integral de la teoría estadística detrás de ellos. Por lo tanto, necesitan estudiar sistemáticamente el aprendizaje automático estadístico, que se deriva de la estadística y el análisis funcional y combina la teoría de la información, la teoría de la optimización, el álgebra lineal y otras disciplinas.
¿Por qué estudiar aprendizaje estadístico? Es importante comprender los conceptos detrás de las diferentes tecnologías para ayudarlo a comprender cómo y cuándo usarlas. Al mismo tiempo, también es muy importante evaluar con precisión el desempeño de un método porque puede decirnos qué tan bien se desempeña un determinado método en un problema específico. Además, el aprendizaje estadístico también es un campo de investigación interesante con importantes aplicaciones en la ciencia, la industria y las finanzas. Finalmente, el aprendizaje estadístico es un componente fundamental de la formación de científicos de datos modernos. Los temas de investigación clásicos en métodos de aprendizaje estadístico incluyen:
Modelo de regresión lineal
Perceptrón
método del vecino más cercano k
Método ingenuo de Bayes p>
Árbol de decisión
Regresión logística al modelo de máxima entropía
Máquina de vectores de soporte
Método de impulso
Algoritmo EM
Modelo oculto de Markov
Campo aleatorio condicional
Después de eso, presentaré 10 técnicas estadísticas para ayudar a los científicos de datos a procesar las estadísticas de grandes conjuntos de datos de manera más eficiente. Antes de eso, me gustaría aclarar la diferencia entre aprendizaje estadístico y aprendizaje automático:
El aprendizaje automático es una rama que está sesgada hacia la inteligencia artificial
Los métodos de aprendizaje estadístico son una rama que sesgado hacia las estadísticas.
El aprendizaje automático se centra más en aplicaciones a gran escala y en la precisión de las predicciones.
El Departamento de Estadística se centra en los modelos y su interpretabilidad, así como en la precisión y la incertidumbre.
La distinción entre ambos es cada vez más borrosa.
1. Regresión lineal
En estadística, la regresión lineal predice la variable objetivo ajustando la mejor relación lineal entre la variable dependiente y la variable independiente. El mejor ajuste se logra minimizando la suma de las distancias entre la expresión lineal predicha y las observaciones reales. Ninguna otra posición genera menos errores que esta forma y, desde esta perspectiva, el ajuste de esta forma es el "mejor". Los dos tipos principales de regresión lineal son la regresión lineal simple y la regresión lineal múltiple.
La regresión lineal simple utiliza una variable independiente para predecir cambios en la variable dependiente ajustando la mejor relación lineal. La regresión lineal múltiple utiliza múltiples variables independientes para predecir la tendencia cambiante de la variable dependiente ajustando la mejor relación lineal.
Elige aleatoriamente dos objetos usados y relevantes que se utilizan a diario. Por ejemplo, tengo datos sobre gastos mensuales, ingresos mensuales y número de viajes mensuales durante los últimos tres años.
Ahora necesito responder las siguientes preguntas:
¿Cuáles serán mis gastos mensuales el próximo año?
¿Qué factor (ingreso mensual o número de viajes mensuales) es más importante para determinar los gastos mensuales?
¿Cuál es la relación entre el ingreso mensual y el número de viajes mensuales y gastos mensuales?
2. Clasificación
La clasificación es una técnica de minería de datos que asigna categorías a los datos para ayudar a realizar predicciones y análisis más precisos. La clasificación es un método para analizar eficientemente grandes conjuntos de datos. Las dos técnicas de clasificación principales son: regresión logística y análisis discriminante.
La regresión logística es adecuada para análisis de regresión donde la variable dependiente es una categoría binaria. Como todos los análisis de regresión, la regresión logística es un análisis predictivo. La regresión logística se utiliza para describir datos y explicar la relación entre una variable dependiente binaria y una o más variables independientes que describen características de algo. Los tipos de preguntas que la regresión logística puede examinar incluyen las siguientes:
El efecto de cada libra de peso sobre el peso estándar o cada paquete de cigarrillos fumados por día sobre la probabilidad de desarrollar cáncer de pulmón (sí o no) .
¿La ingesta de calorías, la ingesta de grasas y la edad influyen (sí o no) en las enfermedades cardíacas?
En el análisis discriminante, se pueden utilizar dos o más conjuntos y conglomerados como categorías a priori, y luego una o más observaciones nuevas se clasifican en categorías conocidas en función de las características de la medición. El análisis discriminante modela la distribución del predictor X en cada clase correspondiente por separado y luego usa el teorema de Bayes para convertir esto en una estimación de la probabilidad de la clase correspondiente basada en el valor de X. Este tipo de modelo puede ser un análisis discriminante lineal (Análisis Discriminante Lineal) o un análisis discriminante cuadrático (Análisis Discriminante Cuadrático).
Análisis discriminante lineal (LDA): Calcula un "valor discriminante" para cada observación para clasificar la clase de variable de respuesta a la que pertenece. Estos puntajes se pueden obtener encontrando la conexión lineal de las variables independientes. Se supone que las observaciones para cada clase se toman de una distribución gaussiana multivariada y que la covarianza de la variable predictora es común en todos los k niveles de la variable de respuesta Y.
Análisis discriminante cuadrático (QDA): proporciona otro método. Al igual que LDA, QDA supone que las observaciones para cada categoría de Y se obtienen a partir de una distribución gaussiana. Sin embargo, a diferencia de LDA, QDA supone que cada clase tiene su propia matriz de covarianza. Es decir, la variable predictiva no es universal en todos los k niveles de Y.
3. Método de remuestreo
El método de remuestreo (Remuestreo) implica extraer muestras repetidas de muestras de datos originales. Este es un método no paramétrico de inferencia estadística. Es decir, el remuestreo no utiliza una distribución universal para aproximar el valor de la probabilidad p.
El remuestreo genera una distribución de muestreo única basada en los datos reales. Utiliza métodos empíricos, en lugar de métodos analíticos, para generar esta distribución muestral. El remuestreo obtiene una estimación imparcial basada en una muestra imparcial de todos los resultados posibles de los datos. Para comprender el concepto de remuestreo, primero debe comprender Bootstrapping y Cross-Validation:
Bootstrapping es adecuado para muchas situaciones, como validar el rendimiento de modelos predictivos, métodos de conjunto, estimaciones de sesgo y modelos. diferencia. Muestra datos realizando un muestreo con reemplazo de los datos originales, utilizando puntos de datos "no seleccionados" como muestras de prueba. Podemos hacer esto varias veces y calcular el promedio como una estimación del rendimiento del modelo.
La validación cruzada se utiliza para verificar el rendimiento del modelo y se realiza dividiendo los datos de entrenamiento en k partes. Usamos la parte k-1 como conjunto de entrenamiento y la parte "reservada" como conjunto de prueba. Repita este paso k veces y finalmente tome el promedio de k puntuaciones como estimación de rendimiento.
Por lo general, para los modelos lineales, los mínimos cuadrados ordinarios son el criterio principal para ajustar los datos. Los siguientes tres métodos pueden proporcionar una mejor precisión de predicción e interpretabilidad del modelo.
Selección de 4 subconjuntos
Este método seleccionará un subconjunto de p predictores, y creemos que este subconjunto es muy relevante para el problema que necesita resolverse, y luego podemos ajustarlo. el modelo que utiliza este subconjunto de características y mínimos cuadrados.
Selección del mejor subconjunto: podemos ajustar una regresión MCO separada para cada combinación de p predictores y luego examinar qué tan bien se ajusta cada modelo. El algoritmo se divide en dos etapas: (1) ajustar todos los modelos que contienen k predictores, donde k es la longitud máxima del modelo; (2) seleccionar un único modelo utilizando la pérdida de predicción de validación cruzada. Es importante utilizar errores de validación o prueba y no simplemente utilizar errores de entrenamiento para evaluar el ajuste del modelo porque RSS y R^2 aumentan de forma monótona al aumentar las variables. La mejor manera de hacer esto es seleccionar el modelo con validación cruzada que tenga el R^2 más alto y el RSS más bajo en el conjunto de prueba.
La selección gradual hacia adelante considera un subconjunto más pequeño de p predictores. Comienza con un modelo sin predictores y gradualmente agrega predictores al modelo hasta que todos los predictores estén incluidos en el modelo. El orden de agregar predictores se determina en función del grado en que las diferentes variables mejoran el rendimiento de ajuste del modelo. Agregaremos variables hasta que no haya más predictores que puedan mejorar el modelo en el error de validación cruzada.
Primero, seleccione hacia atrás por pasos. Comience con todos los p predictores del modelo y luego elimine iterativamente los predictores menos útiles, uno a la vez.
El método mixto sigue un enfoque paso a paso, pero después de agregar cada nueva variable, el método también puede eliminar variables que no son útiles para ajustar el modelo.
5. Contracción
Este método implica el uso de todos los p predictores para el modelado; sin embargo, los coeficientes que estiman la importancia de los predictores se reducirán hacia cero según el error de mínimos cuadrados. Esta contracción también se denomina regularización y tiene como objetivo reducir la varianza para evitar el sobreajuste del modelo. Debido a que utilizamos diferentes métodos de contracción, hay algunas variables cuyas estimaciones se pondrán a cero. Por lo tanto, este método también puede realizar la selección de variables. Las técnicas más comunes para reducir las variables a cero son la regresión Ridge y la regresión Lasso.
La regresión de crestas es muy similar al método de mínimos cuadrados, excepto que estima los coeficientes minimizando un valor ligeramente diferente. La regresión de crestas, como OLS, busca reducir las estimaciones de coeficientes de RSS. Sin embargo, todos penalizan esta contracción ya que los coeficientes se acercan a cero. No necesitamos análisis matemáticos para ver que Ridge Regression es muy buena para reducir características al espacio más pequeño posible. Como el análisis de componentes principales, la regresión de Ridge proyecta los datos en un espacio D-dimensional y reduce los componentes con menor varianza en el espacio de coeficientes mientras retiene los componentes con mayor varianza.
La regresión de Ridge tiene al menos una desventaja , requiere Contiene todos los p predictores del modelo final, principalmente porque el término de penalización hará que los coeficientes de muchos predictores se acerquen a cero, pero no serán iguales a cero. Por lo general, esto no supone un problema para la precisión del pronóstico, pero hace que los resultados del modelo sean más difíciles de interpretar. Lasso supera esta deficiencia porque puede forzar a que los coeficientes de algunos predictores sean cero cuando el grupo s es pequeño. Debido a que s = 1 dará como resultado una regresión MCO normal, y cuando s se acerque a 0, los coeficientes se reducirán a cero. Por lo tanto, la regresión de lazo también es una buena forma de realizar la selección de variables.
6. Reducción de dimensionalidad
El algoritmo de reducción de dimensionalidad simplifica el problema de los coeficientes p+1 en el problema de los coeficientes M+1, donde M
La regresión de componentes principales (PCR) puede verse como un método para derivar conjuntos de características de baja dimensión a partir de conjuntos de variables grandes. El primer componente principal de los datos se refiere a la dirección en la que los datos observados cambian más a lo largo de esta variable.
En otras palabras, el primer componente principal es la recta que mejor se ajusta a los datos, y el *** total se puede ajustar con p componentes principales diferentes. El segundo componente principal es una combinación lineal de variables que no están correlacionadas con el primer componente principal y tiene la mayor varianza bajo esta restricción. La idea principal es que los componentes principales pueden capturar la varianza máxima utilizando combinaciones lineales de datos en todas las direcciones mutuamente perpendiculares. Con este método, también podemos combinar los efectos de variables relacionadas para obtener más información de los datos. Después de todo, una de las variables relacionadas debe descartarse en el método de mínimos cuadrados convencional.
El método de PCR descrito anteriormente requiere la extracción de combinaciones lineales de X para obtener una representación óptima del par de predictores. Dado que la salida de X no se puede utilizar para ayudar a determinar las direcciones de los componentes principales, estas combinaciones (direcciones) se extraen mediante métodos no supervisados. Es decir, Y no puede supervisar la extracción de componentes principales y, por lo tanto, no puede garantizar que estas direcciones sean representaciones óptimas del predictor, ni puede garantizar un resultado de predicción óptimo (aunque esto a menudo se supone). Los mínimos cuadrados parciales (PLS) son un método supervisado que se utiliza como alternativa a la PCR. Similar a PCR, PLS también es un método de reducción de dimensionalidad. Primero extrae un nuevo conjunto de características más pequeño (combinación lineal de las características originales) y luego ajusta el modelo original en uno nuevo con M características mediante el método de mínimos cuadrados. .
7. Modelo no lineal
En estadística, la regresión no lineal es una forma de análisis de regresión en la que los datos observados se utilizan en función de una combinación no lineal de parámetros del modelo (dependiendo de uno). o más variables independientes) modelado. Utiliza el método de aproximación sucesiva para ajustar los datos. A continuación se presentan varias técnicas importantes para trabajar con modelos no lineales.
Función escalonada (función escalonada), la variable es un número real y se puede escribir en forma de una combinación lineal finita de la función indicadora del intervalo. La explicación informal es que una función escalonada es una función constante por partes con sólo partes finitas.
Una función por partes se define a través de múltiples subfunciones, y cada subfunción se define en un cierto intervalo del dominio de la función principal. La segmentación es en realidad una forma de representar una función más que una característica de la función en sí, pero con salvedades adicionales puede usarse para describir la esencia de la función. Por ejemplo, una función polinómica por partes es una función que es un polinomio en cada subdefinición, donde cada polinomio puede ser diferente.
Spline es una función especial definida por partes con polinomios. En gráficos por computadora, una spline es una curva parametrizada polinomial por partes. Las curvas spline se utilizan comúnmente debido a su simplicidad de construcción, facilidad y precisión de evaluación y capacidad para aproximar curvas complejas mediante el ajuste de curvas y el diseño de curvas interactivo.
El modelo aditivo generalizado es un modelo lineal generalizado en el que el predictor lineal depende linealmente de funciones suaves desconocidas de algunas variables predictoras, y su función principal es especular sobre estas funciones suaves.
p>
8. Métodos basados en árboles
Los métodos basados en árboles se pueden utilizar para problemas de regresión y clasificación, incluida la estratificación o segmentación del espacio predictor en varias regiones simples. Dado que el conjunto de reglas separadas para el espacio predictor se puede resumir como un árbol, dichos métodos se denominan métodos de árbol de decisión. Los métodos siguientes son varios árboles diferentes que se pueden combinar para generar una única predicción coherente.
El embolsado puede reducir la varianza de las predicciones generando datos adicionales a partir de los datos originales (combinándolos y repitiéndolos para generar múltiples datos del mismo tamaño que los datos originales) para el entrenamiento. No se puede mejorar el poder predictivo de un modelo aumentando el conjunto de entrenamiento; solo se puede reducir la varianza y ajustar cuidadosamente las predicciones para obtener el resultado deseado.
El impulso es un método para calcular la producción mediante el uso de múltiples modelos diferentes y luego promediar los resultados usando un promedio ponderado. Generalmente combinamos las ventajas de cada método cambiando los pesos asignados a estos métodos. Además, también podemos utilizar diferentes ajustes para obtener poder predictivo para una gama más amplia de datos de entrada.
El algoritmo de bosque aleatorio es en realidad muy similar al algoritmo de embolsado. También extrae muestras de arranque aleatorias del conjunto de entrenamiento.
Sin embargo, además de las muestras de arranque, se pueden extraer subconjuntos aleatorios de características para entrenar árboles individuales, mientras que en el embolsado, cada árbol debe recibir el conjunto completo de características; Debido a que la selección de características es aleatoria, cada árbol es más independiente entre sí que los algoritmos de ensacado convencionales, lo que generalmente resulta en un mejor rendimiento de predicción (gracias a una mejor compensación entre sesgo de varianza). También es computacionalmente más rápido porque cada árbol solo necesita aprender un subconjunto de características.
9. Máquina de vectores de soporte
La máquina de vectores de soporte (SVM) es una tecnología de clasificación de aprendizaje supervisado de uso común. Hablando informalmente, se utiliza para encontrar el hiperplano que mejor separa dos tipos de conjuntos de puntos (hiperplano, que es una línea en el espacio 2D, una superficie en el espacio 3D y un hiperplano en el espacio de alta dimensión. Más formalmente, el argumento es que un hiperplano es un subespacio de n-1 dimensiones de un espacio de n-dimensionales). La máquina de vectores de soporte es un hiperplano de separación que conserva el margen más grande, por lo que, esencialmente, es un problema de optimización restringida, donde el margen de la máquina de vectores de soporte se maximiza bajo las restricciones para clasificar los datos perfectamente (dispositivo de clasificación de margen estricto).
Aquellos puntos de datos que “soportan” el hiperplano se denominan “vectores de soporte”. En la imagen de arriba, el círculo azul relleno y dos cuadrados rellenos son los vectores de soporte. En los casos en que los dos tipos de datos no sean separables linealmente, los puntos de datos se proyectarán en un espacio de dimensiones superiores para que los datos se vuelvan separables linealmente. Los problemas que contienen puntos de datos de múltiples categorías se pueden descomponer en múltiples problemas de clasificación binaria "uno contra uno" o "uno contra el resto".
10. Aprendizaje no supervisado
Hasta ahora sólo hemos discutido técnicas de aprendizaje supervisado, en las que se conoce la clasificación de los datos, y la experiencia que se aporta al algoritmo son las entidades y su relación de clasificación. . Cuando se desconoce la clasificación de los datos se utiliza otra técnica. Se denominan no supervisados porque necesitan descubrir patrones en los datos por sí mismos. La agrupación es un tipo de aprendizaje no supervisado en el que los datos se dividen en grupos según la correlación. Estos son algunos de los algoritmos de aprendizaje no supervisados más utilizados:
Análisis de componentes principales: ayuda a generar una representación de baja dimensión de un conjunto de datos al preservar las conexiones lineales entre características que tienen una variación máxima y no están correlacionadas entre sí. . Esta técnica de reducción de dimensionalidad lineal ayuda a comprender las interacciones de variables latentes en el aprendizaje no supervisado.
Agrupación de K-significa: divida los datos en k grupos diferentes según la distancia desde el centro del grupo.
Clúster jerárquico: construcción de diferentes clústeres mediante representación jerárquica de datos.