Red de conocimiento informático - Problemas con los teléfonos móviles - selección de función de aprendizaje del kit de ciencia ficción (selección de función)

selección de función de aprendizaje del kit de ciencia ficción (selección de función)

VarianceThreshold es un método de selección de características simple que elimina características cuya variación no alcanza el umbral. De forma predeterminada, se eliminarán las funciones con variación cero (como las funciones con un solo valor).

Supongamos que tenemos un conjunto de datos con características booleanas y luego queremos eliminar aquellas características donde más de 80 muestras son 0 (o 1). Las características booleanas son variables aleatorias de Bernoulli con varianza p(1-p).

VarianceThreshold elimina la primera columna y la proporción de 0 en la primera columna es 5/6.

La selección de características univariadas puede verse como un paso de preprocesamiento en el que el estimador selecciona características a través de pruebas estadísticas univariadas. Sklearn trata la selección de funciones como una operación de transformación diaria:

SelectKBest y SelectPerecntile pueden devolver la puntuación y el valor p de la evaluación de funciones:

El parámetro score_func tiene las siguientes opciones:

p>

mutual_info_regression: información mutua, la información mutua mide la información que disfrutan X e Y***: mide en qué medida conocer una de las dos variables puede reducir la incertidumbre de la otra.

Referencia: blogs.com/gatherstars/p/6004075.html

Al darle a la característica un peso generado por un modelo externo (por ejemplo, coeficientes del modelo lineal), RFE utiliza recursivamente Cuanto menos funciones que hay para seleccionar funciones. Primero, cree un modelo a partir de los datos originales y asigne un peso a cada característica. Luego, se eliminan las características con los pesos absolutos más pequeños y el proceso se realiza de forma recursiva hasta alcanzar el número deseado de características.

RFECV utiliza un método de validación cruzada para encontrar el número óptimo de características.

SelectFromModel es un metaconvertidor que se puede utilizar en modelos con atributos coef_ o feature_importances_. Si coef_ o feature_importances_ es menor que el umbral, consideramos que la característica no es importante. Además de especificar umbrales, también se pueden utilizar heurísticas. Las heurísticas válidas son la media, la mediana o los coeficientes multiplicativos como 0,1*media.

Un modelo lineal que utiliza la norma L1 tiene una solución dispersa: muchos coeficientes estimados son 0. Cuando el propósito de la reducción de dimensionalidad es utilizar otros clasificadores, se puede utilizar junto con feature_selection. Seleccione Frommon para seleccionar coeficientes distintos de cero. En particular, la estimación dispersa es muy útil para modelos lineales. Lazo en regresión, modelos_lineales. Máquinas de regresión logística y vectores de soporte. LinearSVC en clasificación.

En SVM y regresión logística, el parámetro c controla la escasez y cuanto más pequeña es c, menos características se seleccionan. En Lasso, cuanto mayor es el parámetro alfa, menos funciones se seleccionan.

El uso de la regularización L1 en regresión y clasificación tiene limitaciones bien conocidas en términos de selección de características. Por ejemplo, Lasso seleccionará una de un conjunto de características altamente correlacionadas. Además, incluso si la correlación entre características no es fuerte, la regularización L1 seguirá seleccionando una característica "buena".

Para resolver este problema, podemos utilizar el método de aleatorización de selección de estabilidad en sklearn.linear_model. En la selección de estabilidad, se utiliza un subconjunto de datos para ajustar el modelo y se reduce la penalización por un subconjunto aleatorio de coeficientes.

Es una prueba independiente de una variable aleatoria de Bernoulli justa 0

RandomizedLasso usa esta estrategia en la regresión de Lasso, y RandomizedLogisticRegression se puede usar para la clasificación. Para obtener todas las puntuaciones de todo el proceso, puede utilizar lasso_stability_path.

Los modelos dispersos aleatorios son mucho más potentes que la estadística F estándar para detectar características distintas de cero. Un modelo de verdad real debe ser disperso; en otras palabras, solo unas pocas características son distintas de cero.

Los árboles de decisión se pueden utilizar para calcular la importancia de las características, que luego se pueden utilizar para eliminar características irrelevantes.