Red de conocimiento informático - Problemas con los teléfonos móviles - normalización de puntuación z

normalización de puntuación z

Normalice los datos de entrada

donde σ es la desviación estándar de los datos (tenga en cuenta, no la varianza) y µ es la media muestral. Una vez normalizados los datos, la media de los datos se vuelve 0 y la varianza se vuelve 1.

Los datos originales se ven así al principio:

Restando la media en los dos primeros pasos, la distribución de los datos es la siguiente:

Nota: En esta vez, característica x2 La varianza de es mucho mayor que la varianza de x1.

Después de eso, divida los datos por la desviación estándar de los datos. La distribución de los datos es:

Nota: Se deben usar los mismos μ y σ para normalizar la prueba. conjunto y el conjunto de entrenamiento en lugar de predecir μ y σ en el conjunto de entrenamiento y el conjunto de prueba respectivamente, ya que queremos que tanto los datos de entrenamiento como los de prueba usen los mismos μ y σ para definir la misma transformación de datos. Entre ellos, μ y σ se calculan en función de los datos del conjunto de entrenamiento.

Si no usamos la normalización, obtendremos una función de costo delgada y estrecha (la flecha en la figura marca el punto mínimo)

El proceso de descenso del gradiente es:

>

El siguiente es el proceso de descenso de gradiente de la función de costo:

El siguiente es la función de costo normalizada

El proceso de descenso de gradiente es

Cuando Cuando los datos no están normalizados, el rango de x1 es mayor (aquí se supone que es 0 ~ 1000), el rango de x2 es más pequeño (se supone que aquí es 0 ~ 1000) y el rango de x2 es más pequeño (se supone que es 0 ~ 1000 aquí). ), el rango de x2 es pequeño (se supone que es 0 ~ 10). Se puede observar que el rango de valores de x2 aquí es mucho mayor que x2, por lo que la función de pérdida se puede expresar de la siguiente manera: <. /p>

Dibujado así Los contornos del gráfico de función son elípticos y el proceso de encontrar la solución óptima será más tortuoso

Y si se normaliza, la función de pérdida se puede expresar de la siguiente manera

Debido a dos Los coeficientes son casi iguales, por lo que los contornos del gráfico de función dibujado de esta manera serán similares a un círculo, por lo que el proceso de encontrar la solución óptima será más fluido:

De lo anterior se puede ver que después de normalizar los datos, la búsqueda final de la solución óptima obviamente se volverá más fluida y será más fácil converger correctamente a la solución óptima, acelerando así el descenso del gradiente del solución óptima.

Para decirlo de otra manera, las unidades de tamaño de diferentes características pueden ser diferentes y el orden de magnitud del intervalo de cambio también puede ser diferente. Si no se realiza la normalización, es posible que se ignoren algunas características. Por ejemplo, el rango de características de x1 está entre 1 ~ 1000 y el rango de características de x2 está entre 0 ~ 1. En este momento, si queremos clasificar, entonces x2. Es muy posible que se ignore. Incluso si no se ignora, la velocidad del descenso del gradiente será muy lenta o incluso imposible de converger.

Se utiliza cuando los intervalos de características son muy diferentes. Por ejemplo, si X1 abarca y X2 abarca, entonces los contornos resultantes serán muy nítidos. Cuando se utiliza el descenso de gradiente para encontrar una solución óptima, es probable que siga una ruta en zigzag (contorno vertical), lo que resulta en múltiples iteraciones antes de la convergencia.

Este es mi blog

.