Red de conocimiento informático - Aprendizaje de código fuente - Diez técnicas estadísticas básicas que los científicos de datos deben dominar

Diez técnicas estadísticas básicas que los científicos de datos deben dominar

Diez técnicas estadísticas básicas que los científicos de datos deben dominar

No importa cuál sea su posición respecto de la naturaleza científica de los datos, su continua importancia no se puede ignorar ni subestimar. Capacidad para analizar, organizar y contextualizar datos. Según una gran cantidad de datos laborales y estadísticas de comentarios de los empleados, los científicos de datos ocuparon el primer lugar en la clasificación de las "25 mejores oportunidades laborales estadounidenses". No hay duda de que las tareas específicas realizadas por los científicos de datos se ampliarán aún más. A medida que tecnologías como el aprendizaje automático se vuelven más ubicuas y campos emergentes como el aprendizaje profundo reciben un enorme impulso en la demanda de investigadores e ingenieros, los científicos de datos están ganando protagonismo una vez más en la ola de innovación y avances tecnológicos.

Sólidas habilidades de codificación son importantes, pero la ciencia de datos no se dedica a la ingeniería de software (de hecho, estar familiarizado con Python es suficiente). Los científicos de datos viven en la intersección de la codificación, la estadística y el pensamiento crítico. Como dijo Josh Wills: "Un científico de datos es mejor estadístico que cualquier programador y mejor en programación que cualquier estadístico". Personalmente, sé que muchos ingenieros de software quieren convertirse en científicos de datos y aprovechar ciegamente los marcos de aprendizaje automático TensorFlow o Apache Spark sin un comprensión profunda de la teoría estadística detrás de ellos. De ahí el surgimiento del "aprendizaje estadístico", un marco teórico relacionado con el aprendizaje automático que abarca una variedad de campos especializados desde la estadística hasta el análisis funcional.

¿Por qué estudiar aprendizaje estadístico? Es importante comprender las ideas detrás de varias técnicas para saber cómo y cuándo utilizarlas. De lo simple a lo complejo, primero debe comprender los métodos más simples antes de poder dominar los métodos más complejos. Es importante evaluar con precisión el desempeño de un método y comprender qué tan bien o mal funciona. Además, es un área de investigación apasionante con importantes aplicaciones en la ciencia, la industria y las finanzas. En última instancia, el aprendizaje estadístico es un elemento esencial en la formación del científico de datos moderno. Ejemplos de problemas de aprendizaje estadístico incluyen:

Determinar los factores de riesgo del cáncer de próstata.

Categorías los fonemas grabados según el diagrama del periodo de grabación.

Predecir si alguien desarrollará una enfermedad cardíaca basándose en mediciones demográficas, dietéticas y clínicas.

Sistema de detección de spam personalizado.

Reconocer números en códigos postales escritos a mano.

Clasifica muestras de tejido en una de varias categorías de cáncer.

Establecer la relación entre salarios y variables demográficas en datos censales.

La diferencia entre aprendizaje estadístico y aprendizaje automático es:

El aprendizaje automático es un subcampo de la inteligencia artificial.

El aprendizaje estadístico es una rama de la estadística.

El aprendizaje automático pone más énfasis en las aplicaciones a gran escala y en la precisión de las predicciones.

El aprendizaje estadístico enfatiza los modelos y su interpretabilidad, precisión e incertidumbre.

1 - Regresión lineal:

En estadística, la regresión lineal es un método para predecir una variable objetivo ajustando la mejor relación lineal entre variables independientes. La mejor práctica es garantizar que la suma de todas las distancias entre la forma de cada punto y la observación real sea lo más pequeña posible. El ajuste de la forma es "mejor" porque ninguna otra posición en la elección de la forma produce menos error. Los 2 tipos principales de regresión lineal son la regresión lineal simple y la regresión lineal múltiple. La regresión lineal simple utiliza una variable independiente para predecir la variable dependiente ajustando una relación lineal óptima. La regresión lineal múltiple utiliza múltiples variables independientes para predecir una variable dependiente ajustando una relación lineal óptima.

Elige dos cosas relacionadas que utilices en tu vida diaria. Datos como gastos mensuales, ingresos mensuales y número de viajes por mes durante los últimos tres años. Debes responder las siguientes preguntas:

¿Cuáles serán mis gastos mensuales el próximo año?

¿Qué factor (ingresos mensuales o número de viajes mensuales) es más importante para determinar mis gastos mensuales?

¿Cómo se relacionan los ingresos mensuales y los viajes mensuales con los gastos mensuales?

2 - Clasificación:

La clasificación es una técnica de extracción de datos que asigna categorías a Recopilaciones de datos para predicciones y análisis más precisos. La clasificación, a veces denominada árbol de decisión, es uno de varios métodos utilizados para analizar conjuntos de datos muy grandes.

Actualmente destacan dos grandes técnicas de clasificación: la regresión logística y el análisis discriminante.

El análisis de regresión logística es un análisis de regresión apropiado que se realiza cuando la variable dependiente es dicotómica (binaria). Como todos los análisis de regresión, la regresión logística es un análisis predictivo. La regresión logística se utiliza para describir datos y explicar la relación entre una variable binaria correlacionada y una o más variables independientes en los niveles nominal, ordinal, de intervalo o de relación. Tipos de preguntas que la regresión logística puede examinar:

¿Cómo cambia la probabilidad de cáncer de pulmón (sí o no) por cada libra adicional de exceso de peso y paquete de cigarrillos fumados al día?

¿El peso corporal, la ingesta de calorías, la ingesta de grasas y la edad de los participantes tienen algún efecto sobre el ataque cardíaco (con o sin)?

En el análisis discriminante, se conocen a priori 2 o más grupos o grupos, y clasifica 1 o más observaciones nuevas en 1 grupo conocido según las características medidas. El análisis discriminante modela la distribución de predictores. Estos modelos pueden ser lineales o cuadráticos.

El análisis discriminante lineal calcula una "puntuación discriminante" para cada observación para clasificarla en la categoría de la variable de respuesta. Estas puntuaciones se obtienen encontrando combinaciones lineales de las variables independientes. Se supone que las observaciones dentro de cada categoría provienen de una distribución gaussiana multivariada y que las covarianzas de los predictores son las mismas en todos los k niveles de la variable de respuesta Y.

El análisis discriminante cuadrático proporciona un enfoque alternativo. Al igual que LDA, QDA supone que las observaciones de cada clase Y se obtienen a partir de una distribución gaussiana. Sin embargo, a diferencia de LDA, QDA supone que cada clase tiene su propia matriz de covarianza. En otras palabras, no se supone que los predictores tengan la misma varianza en cada k nivel en Y.

3 - Método de remuestreo:

El remuestreo es el método de extraer muestras repetidas de las muestras de datos originales. Este es un método no paramétrico de inferencia estadística. En otras palabras, el método de remuestreo no implica el uso de una tabla de distribución general para calcular valores de probabilidad p aproximados.

El remuestreo genera una distribución de muestreo única basada en los datos reales. Utiliza métodos experimentales en lugar de analíticos para generar distribuciones de muestreo únicas. Produce una estimación imparcial porque es una muestra insesgada de todos los resultados posibles basados ​​en los datos que el investigador está estudiando. Para comprender el concepto de remuestreo, debe comprender los términos Bootstrapping y validación cruzada:

Bootstrapping es una técnica que puede ayudarle a validar el rendimiento de un modelo predictivo, método de conjunto y estimar el sesgo del modelo. y varianza. Muestra los datos originales con reemplazo y toma los puntos de datos "no seleccionados" como casos de prueba. Podemos hacer esto varias veces y calcular la puntuación promedio como una estimación del rendimiento de nuestro modelo.

Por otro lado, la validación cruzada es una técnica para verificar el rendimiento del modelo, que se realiza dividiendo los datos de entrenamiento en k partes. Tomamos k - 1 partes como conjunto de entrenamiento y utilizamos la "parte extendida" como nuestro conjunto de prueba. Repetimos k veces de diferentes maneras. Finalmente, tomamos el promedio de k-scores como nuestra estimación de desempeño.

Generalmente para los modelos lineales, los mínimos cuadrados ordinarios son el principal criterio considerado para ajustarlos a los datos. Los siguientes 3 métodos son alternativas que pueden proporcionar una mejor precisión de predicción e interpretabilidad del modelo para el ajuste del modelo lineal.

4 - Selección de subconjunto:

Este método identifica un subconjunto de p predictores que creemos que son relevantes para la respuesta. Luego ajustamos el modelo usando mínimos cuadrados en las características del subconjunto.

Mejor selección de subconjunto: aquí ejecutamos una regresión OLS separada para cada combinación posible de p predictores y luego analizamos el ajuste final del modelo. El algoritmo se divide en 2 etapas: (1) ajustar todos los modelos que contienen k predictores, donde k es la longitud máxima del modelo (2) seleccionar un único modelo utilizando el error de predicción de validación cruzada. Es importante utilizar el error de prueba o validación en lugar del error de entrenamiento para evaluar el ajuste del modelo porque RSS y R2 aumentan de forma monótona con más variables. El mejor enfoque es realizar una validación cruzada de la estimación del error de prueba y elegir el modelo con el R2 más alto y el RSS más bajo.

La selección gradual hacia adelante considera un subconjunto mucho más pequeño de predictores.

Comienza con un modelo sin predictores y luego agrega predictores al modelo hasta que todos los predictores estén en el modelo. Las variables se agregan en el orden que proporciona la mayor mejora aditiva al ajuste, hasta que no haya más variables que mejoren el ajuste del modelo utilizando el error de predicción con validación cruzada.

La selección gradual hacia atrás comienza con todos los predictores del modelo y luego elimina de forma iterativa los predictores menos útiles.

El método mixto sigue el enfoque de regresión por pasos hacia adelante; sin embargo, después de agregar cada nueva variable, este método también elimina las variables que no contribuyen al ajuste del modelo.

5 - Contracción:

Este enfoque se ajusta a un modelo que involucra todos los p predictores; sin embargo, los coeficientes estimados se reducen hacia cero en relación con la estimación de mínimos cuadrados. Esta contracción, también conocida como regularización, tiene el efecto de reducir la varianza. Dependiendo del tipo de contracción que se realice, se puede estimar que algunos de estos coeficientes son exactamente cero. Por lo tanto, este método también realiza la selección de variables. Las dos técnicas más conocidas para reducir las estimaciones de coeficientes a cero son Ridge Regression y Lasso.

La regresión de crestas es similar a los mínimos cuadrados en que estima los coeficientes minimizando una cantidad ligeramente diferente. Al igual que OLS, la regresión de crestas busca reducir las estimaciones de los coeficientes de RSS, pero también tiene una penalización de contracción cuando los coeficientes se acercan a cero. El efecto de esta penalización es reducir las estimaciones de los coeficientes a cero. Sin entrar en matemáticas, es útil saber que la regresión de crestas reduce las características que minimizan la variación del espacio de las columnas. Al igual que en el análisis de componentes principales, la regresión de crestas proyecta los datos en un espacio bidireccional y luego reduce los coeficientes de los componentes de baja varianza en comparación con los componentes de alta varianza, que corresponden a los componentes principales máximo y mínimo.

La regresión de crestas tiene al menos una desventaja: incluye todos los valores p predichos en el modelo final. Las cláusulas inapropiadas acercarán muchas de ellas a cero, pero no exactamente a cero. Por lo general, esto no supone un problema para la precisión de la predicción, pero puede dificultar que el modelo interprete los resultados. Lasso supera esta deficiencia y puede forzar algunos coeficientes a cero siempre que s sea lo suficientemente pequeño. Dado que s = 1 da como resultado una regresión MCO regular, los coeficientes se reducen a cero cuando s se acerca a 0. Por lo tanto, la regresión de Lasso también realiza una selección de variables.

6 - Reducción de dimensionalidad:

La reducción de dimensionalidad reduce el problema de estimar coeficientes p + 1 al simple problema de M + 1 coeficientes, donde M

Principal La regresión de componentes puede describirse como un método para derivar conjuntos de características de baja dimensión a partir de una gran cantidad de variables. La primera dirección componente importante de los datos es la que tiene la mayor variación en las observaciones. En otras palabras, la primera PC estaba lo más cerca posible de una línea de datos. Las personas pueden adaptarse a diferentes componentes principales. El segundo PC es una combinación lineal de variables que no están correlacionadas con el primer PC y, sujeto a esta restricción, el cambio es mayor. La idea es que los componentes principales capturen la mayor variación en los datos utilizando combinaciones lineales posteriores de los datos en direcciones ortogonales. De esta manera también podemos combinar los efectos de las variables correlacionadas para obtener más información de los datos disponibles, mientras que en los mínimos cuadrados regulares tendríamos que eliminar una de las variables correlacionadas.

El método de PCR que describimos anteriormente implica determinar la combinación lineal de X que mejor representa los predictores. Estas combinaciones (direcciones) se identifican de manera no supervisada porque la respuesta Y no se utiliza para ayudar a determinar la dirección del componente principal. Es decir, la respuesta Y no supervisa la identificación de los componentes principales y, por lo tanto, no hay garantía de que la dirección que mejor explique los predictores sea la mejor para predecir la respuesta (incluso si a menudo se supone). Los mínimos cuadrados parciales (PLS) son una alternativa supervisada a la PCR. Al igual que PCR, PLS es un método de reducción de dimensionalidad que primero identifica un nuevo conjunto de características más pequeñas que son combinaciones lineales de las características originales y luego ajusta un modelo lineal a las nuevas M características mediante el método de mínimos cuadrados. Sin embargo, a diferencia de la PCR, PLS utiliza variables de respuesta para identificar nuevas características.

7 - Modelo no lineal:

En estadística, la regresión no lineal es una forma de análisis de regresión en la que los datos observados se modelan mediante una función que es una combinación no lineal de parámetros del modelo que depende sobre una o más variables independientes. Los datos fueron ajustados por el método de aproximación sucesiva. A continuación se ofrecen algunos consejos importantes para trabajar con modelos no lineales:

Un número real se denomina función si su función se puede escribir como una combinación lineal finita de funciones indicadoras de intervalo. De manera informal, una función escalonada es una función constante por partes con solo muchas partes.

Una función por partes es una función definida por múltiples subfunciones, cada una de las cuales se aplica a un cierto intervalo del dominio de la función principal. La segmentación es en realidad una forma de expresar una función, más que una característica de la función en sí, pero con calificaciones adicionales que describen las propiedades de la función. Por ejemplo, una función polinómica por partes es una función que es polinómica en cada uno de sus subdominios, pero que puede ser diferente en cada subdominio.

Las funciones spline son funciones especiales definidas por partes mediante polinomios. En gráficos por computadora, una spline se refiere a una curva paramétrica polinómica por partes. Las curvas spline son curvas populares debido a su estructura simple, evaluación conveniente y precisa y capacidad de aproximar formas complejas mediante el ajuste de curvas y el diseño de curvas interactivo.

El modelo aditivo generalizado es un modelo de predicción lineal en el que las variables predictoras lineales dependen linealmente de funciones suaves desconocidas de algunas variables predictoras, y el interés se centra en la inferencia de estas funciones suaves.

8 - Métodos basados ​​en árboles:

Los métodos basados ​​en árboles se pueden utilizar tanto para problemas de regresión como de clasificación. Estos implican estratificar o segmentar el espacio de predicción en varias regiones simples. Debido a que el conjunto de reglas de división utilizadas para dividir el espacio del predictor se puede generalizar en árboles, estos tipos de métodos se denominan métodos de árbol de decisión. El siguiente método genera varios árboles, que luego se combinan para producir una única predicción de conocimiento.

El embolsado es un método para reducir la varianza de la predicción mediante el uso de combinaciones repetidas para generar datos de entrenamiento a partir del conjunto de datos original, generando así la misma diversidad que los datos originales. Al aumentar el tamaño de su conjunto de entrenamiento, no mejora el poder predictivo del modelo, solo reduce la varianza y apenas ajusta las predicciones a los resultados esperados.

El impulso es un método para calcular la producción utilizando varios modelos diferentes y luego promediar los resultados utilizando un método de promedio ponderado. Al cambiar su fórmula de ponderación para incorporar las fortalezas y debilidades de estos métodos, puede utilizar diferentes modelos estrechamente ajustados para proporcionar un buen poder predictivo para una gama más amplia de datos de entrada.

El algoritmo de bosque aleatorio es en realidad muy similar al embolsado. También puede trazar muestras de arranque aleatorias del conjunto de entrenamiento. Sin embargo, además de arrancar muestras, también puede extraer subconjuntos aleatorios para entrenar árboles individuales en el embolsado, dándole a cada árbol un conjunto completo de características; Debido a la selección aleatoria de características, los árboles son más independientes entre sí que el embolsado normal, lo que generalmente conduce a un mejor rendimiento de predicción (debido a una mejor compensación entre sesgo de varianza) y es más rápido porque cada árbol sólo se puede extraer de un subconjunto. de funciones.

9 - Máquina de vectores de soporte:

SVM es una tecnología de clasificación en el modelo de aprendizaje supervisado en aprendizaje automático. Informalmente, implica encontrar un hiperplano (una línea en 2D, un plano en 3D y un hiperplano en dimensiones superiores; más formalmente, un hiperplano es un espacio de n dimensiones en un espacio de n dimensiones) con el margen máximo. un problema de optimización restringida cuyos límites se maximizan, sujeto al hecho de que clasifica los datos perfectamente (margen duro).

Los puntos de datos que "soportan" el hiperplano se denominan "vectores de soporte". Para los casos en los que las dos clases de datos no son separables linealmente, los puntos se proyectan en un espacio descompuesto (de alta dimensión) donde la separación lineal es posible. Los problemas que involucran múltiples clases se pueden descomponer en múltiples problemas de clasificación uno a uno o uno a dos.

10 - Aprendizaje No Supervisado:

Hasta ahora sólo hemos discutido técnicas de aprendizaje supervisado donde se conocen los grupos y la experiencia que se proporciona al algoritmo son las entidades reales y a qué relaciones pertenecen. entre grupos. Se puede utilizar otro conjunto de técnicas cuando se desconocen los grupos (categorías) de los datos. Se denominan no supervisados ​​porque corresponde al algoritmo de aprendizaje encontrar patrones en los datos proporcionados. La agrupación es un ejemplo de aprendizaje no supervisado, donde diferentes conjuntos de datos se agrupan en grupos de elementos estrechamente relacionados. A continuación se muestra una lista de los algoritmos de aprendizaje no supervisados ​​más utilizados:

El análisis de componentes principales ayuda a producir una representación de baja dimensión de un conjunto de datos mediante la identificación de un conjunto de combinaciones lineales de características que tienen una varianza máxima y no están correlacionadas. unos con otros. Esta técnica de dimensionalidad lineal ayuda a comprender las posibles interacciones de variables en un entorno no supervisado.

Agrupación de k-medias: divide los datos en k grupos diferentes según la distancia al centroide del grupo.

Agrupación jerárquica: cree una estructura jerárquica de varios niveles del clúster mediante la creación de un árbol de clúster.

Lo anterior es una explicación simple y una explicación de algunas técnicas estadísticas básicas que pueden ayudar a los gerentes y ejecutivos de proyectos de ciencia de datos a comprender mejor lo que se esconde detrás de sus equipos de ciencia de datos. De hecho, algunos grupos de ciencia de datos ejecutan algoritmos únicamente a través de bibliotecas de Python y R. La mayoría de ellos ni siquiera tienen que pensar en las matemáticas subyacentes. Sin embargo, ser capaz de comprender los conceptos básicos del análisis estadístico puede proporcionarle a su equipo un mejor enfoque.