Red de conocimiento informático - Aprendizaje de código fuente - Explicación detallada de la detección de series temporales

Explicación detallada de la detección de series temporales

/BigData_Mining/article/details/81092750

1. Descripción general

1. Estacionariedad de las series de tiempo

Estas series de tiempo se denominan una serie de tiempo estacionaria. También se puede decir que si la serie de tiempo no tiene una tendencia obvia hacia arriba o hacia abajo y los valores observados fluctúan alrededor de su valor medio, y el valor medio es una constante relacionada con el tiempo, entonces la serie de tiempo es estacionaria (débilmente estática) .

De hecho, existen dos definiciones de estacionariedad, y también existe un proceso fuertemente estacionario:

Estacionariedad estricta: para todos los n posibles, todos los posibles t1, t2... . , tnt1, t2, ..., tn, si la distribución conjunta de todos los posibles Zt1, Zt2, ..., ZtnZt1, Zt2, ..., Ztn es la misma, se dice que es fuertemente estacionario.

Estos dos procesos estacionarios no tienen una relación inclusiva; la estacionariedad débil no es necesariamente una estacionariedad fuerte, y la estacionariedad fuerte no es necesariamente una estacionariedad débil. La estacionariedad fuerte es una estacionariedad de facto, mientras que la estacionariedad débil es una estadística (media, varianza) que es estacionaria en un sentido observacional.

La idea básica del suavizado es que el comportamiento de la serie temporal no cambia con el tiempo. La suavidad describe la invariancia de las propiedades estadísticas de una serie de tiempo con respecto a las transformaciones de tiempo. Uno de los puntos de partida más importantes para estudiar series de tiempo es obtener algunas predicciones para el futuro a partir de los datos históricos de la serie de tiempo. En otras palabras, esperamos que algunos atributos de la serie de tiempo en los datos históricos permanezcan sin cambios en el tiempo. futuro. Este es el método de traducción del tiempo. Por el contrario, si la serie temporal no es fluida, entonces las propiedades estadísticas derivadas de los datos históricos no tienen sentido para las predicciones futuras.

2. Componentes de las series temporales

Los componentes principales de cada serie temporal:

Existen dos métodos para eliminar el ruido en la detección de series temporales, media móvil ( MA) ) y suavizado exponencial, ARIMA utiliza suavizado exponencial

1.

Su principio básico: para cualquier número impar de puntos consecutivos, el valor del punto medio se utiliza como valor de otros puntos En lugar del valor promedio, asumiendo que {xixi} representa el punto de datos, el valor suavizado en la posición i-ésima es sisi, entonces hay:

si=12k 1∑ j=?kkxi j

si=12k 1∑ j=?kkxi j

Este método simple tiene un problema grave. Es similar al filtrado medio en el procesamiento de imágenes (solo que es unidimensional). aquí). El uso de este método de suavizado simple y tosco hará que los datos se vuelvan "borrosos". Cuando un pico ingresa a la ventana de suavizado, el pico distorsionará repentinamente los datos actuales hasta que el punto anormal abandone la ventana de suavizado. Es decir, los datos originales perderán detalles debido a datos ruidosos. En el procesamiento de imágenes, utilizamos el filtrado gaussiano para resolver este problema. Los puntos más cercanos al centro de los datos tienen mayor peso y los puntos más cercanos al borde de la ventana de suavizado tienen pesos más pequeños. Lo mismo ocurre aquí, utilizamos el método de media móvil ponderada, la fórmula es la siguiente:

si=∑j=?kkwjxi j, donde ∑j=?kkwj=1

si=∑j= ?kkwjxi j, donde ∑j=?kkwj=1

Aquí, wjwj es el factor de ponderación. La fórmula para usar la función gaussiana para generar el factor de peso es la siguiente:

f(x,σ)=12πσ2√exp(?12(xσ)2)

f( x,σ)=12πσ2exp (?12(xσ)2)

El parámetro σ determina el ancho de la curva. Cuando x es mayor que 3,5 σσ, el valor de la función es 0. Por lo tanto, f(x,1) se puede utilizar para generar un factor de ponderación de 9 puntos simplemente tomando el valor de la función en f(x,1). Establecer σσ en 2 nos da un factor de ponderación de 15 puntos para todos los números enteros entre -7 y 7, y así sucesivamente.

Hay muchos problemas con las medias móviles:

Supongamos p=1, q=2, y la secuencia es estacionaria después de la primera diferencia, entonces:

X ^t?Xt?1=?1(Xt?1?Xt?2)) θ1εt?1 θ2εt?2

2) θ1εt?1 θ2εt?2

Es decir:

X^t=Xt?1 ?1(Xt?1?Xt?2) θ1εt?1 θ2εt?2

Entre ellos, X^t?

Entre ellos, X tX t es el valor predicho. El modelo ARIMA (p, d, q) se puede definir como:

(1?∑i=1p?iLi)(1?L)dXt=(1 ∑i=1qθiLi)εt

(1?∑i=1p?iLi)(1?L)dXt=(1 ∑i=1qθiLi)εt

Donde L es el operador de retraso) El proceso general de aplicación del ARIMA El modelo es el siguiente:

1. Determine la estacionariedad de la serie de tiempo basándose en el diagrama de dispersión, la función de autocorrelación y el gráfico de la función de autocorrelación parcial de la serie de tiempo.

2. Datos de series de tiempo fluidos y no fluidos. Hasta que la función de autocorrelación procesada y la función de autocorrelación parcial tengan valores no significativos distintos de cero.

3. Establecer un modelo de serie temporal correspondiente en función de las características identificadas. Después del suavizado, si la función de autocorrelación parcial está censurada y la función de autocorrelación está a la cola, se establece un modelo AR; si la función de autocorrelación parcial está a la cola y la función de autocorrelación está a la cola, se establece un modelo MA si la función de autocorrelación parcial está a la cola; y la función de autocorrelación está censurada, se establece un modelo MA. Si tanto la función de correlación como la función de autocorrelación están siguiendo, la secuencia es adecuada para establecer un modelo ARMA;

4. Estimación de parámetros y prueba de significación estadística.

5. Prueba de hipótesis para determinar (diagnosticar) si la secuencia residual es una secuencia de ruido blanco.

6. Utilice el modelo probado para hacer predicciones.

Cuatro: Determinación de la suavidad

/bi_hu_man_wu/article/details/64918870

Cinco: Suavizado de secuencias no suaves

( 1) Eliminar la tendencia (utilizado para determinar la tendencia)

Idea: yt=Tt xtyt=Tt xt donde TtTt es el suavizado de la tendencia xtxt Principalmente encontramos la tendencia y la eliminamos. Generalmente utilizamos el método de ajuste de tendencia para obtener la expresión de la tendencia. Si aún no es uniforme después de eliminarla, se trata de un error de ajuste. (Para la parte de búsqueda de tendencias, consulte el análisis de tendencias a continuación: ajuste y suavizado)

(2) Diferencia

Diferencia de un paso Δy=yt?yt?=(I ?B) yt Δy=yt?yt?1=(I?B)yt

Diferencia de un paso Δsy=(I?Bs)yt Δsy=(I?Bs)yt

Por ejemplo, para datos semanales, puede elegir s=7. Si obtiene ruido blanco sin sentido después de una diferencia, puede elegir una diferencia fraccionaria. Pero la diferencia hará que la variación sea mayor.

(3) Transformación

Para secuencias de cambio de varianza, puede elegir la transformación logarítmica () para eliminar la tendencia exponencial.

En general, se puede considerar la transformación de caja-Cox.

VI: Caso

/Fredric_2014/article/details/85699116

/Fredric_2014/article/details/85340339

/weixin_ 41988628 /article/details/83149849

VII.Discusión y análisis

Debido a sus buenas propiedades estadísticas, el modelo ARIMA es el modelo de series de tiempo más utilizado y se pueden utilizar varios modelos de suavizado exponencial. implementarse utilizando el modelo ARIMA. En otras palabras, el modelo establecido por Holter-winter también se puede implementar utilizando ARIMA. Aunque ARIMA es muy flexible y puede construir varios modelos de series de tiempo (AR, MA, ARMA), ARIMA también tiene limitaciones. La principal limitación es que ARIMA solo puede construir modelos lineales, y los modelos lineales puros a menudo no son satisfactorios.