Interpretación de los documentos del sistema de recomendación (20): recomendación SIM de Alimama basada en el comportamiento histórico de secuencia larga de los usuarios
Título de la tesis: "Modelado de intereses de usuario basado en búsquedas y predicción de la tasa de clics de datos de comportamiento de secuencia larga"
Dirección: https://arxiv.org/pdf/ 2006.05639 .pdf
Este es otro excelente artículo publicado por Alimama en 2020SIGIR. Leamos este artículo juntos.
En el campo de la estimación de CTR/CVR, el comportamiento histórico de los usuarios tiene una gran importancia como guía para el modelado de la estimación de CTR/CVR. La secuencia de comportamiento histórico del usuario contiene "puntos de interés" ricos del usuario, y el comportamiento de cada usuario es una respuesta a un determinado punto de interés. Por ejemplo, me gustan varios productos de lápiz labial, me gusta el limpiador facial, pero no estoy particularmente interesado en una determinada marca, impulsado por estos puntos de interés, puedo navegar y hacer clic en una gran cantidad de contenido o productos en campos relacionados, por lo que estos. Comportamientos históricos ¿Ayuda a predecir mi comportamiento futuro? La respuesta es sí. Es en base a este patrón de comportamiento subjetivo que necesitamos modelar el comportamiento histórico del usuario. Cuanto más larga sea la cola de comportamiento del usuario, más ricos serán los intereses del usuario, pero esto también traerá mayores desafíos, porque los intereses del usuario en realidad están dispersos y diversos, es importante cómo encontrar la tarea actual entre los intereses dispersos y diversos del usuario. .
Antes de presentar este artículo, se recomienda echar un vistazo a otro artículo de Alibaba: MIMN, que también predice las tasas de clics en función de largas secuencias de usuarios. Sin embargo, MIMN tiene varios problemas. Comportamiento Cuando la longitud de la secuencia aumenta aún más (por ejemplo, 10 veces o más), MIMN no puede capturar con precisión el interés del usuario en un interés candidato específico determinado. Otra razón es que MIMN no resuelve bien el espinoso problema del cuello de botella de la latencia y el almacenamiento, es decir, cómo lograr una latencia similar a la de otros modelos livianos cuando se implementan en línea.
En Taobao, la longitud de las secuencias de navegación de los usuarios puede alcanzar miles o incluso decenas de miles. ¿Cómo utilizar de manera eficiente esta información de secuencia larga? Alimama ha propuesto un modelo SIM para extraer más puntos de interés valiosos de los usuarios a partir de sus ricas colas de comportamiento histórico a largo plazo y proporcionar una solución factible para secuencias de comportamiento largas de servicios en línea. Echemos un vistazo a este artículo.
Descripción general del modelo:
SIM se divide en dos etapas, ambas etapas tienen sus propias partes centrales. Este artículo divide el modelado de secuencias largas de características de comportamiento del usuario en dos módulos. , Unidad de Búsqueda General (GSU) y Unidad de Búsqueda Exacta (ESU), que son los módulos centrales de las dos etapas. Primero, presentemos brevemente las funciones de estos dos módulos. GSU, como se muestra en la figura, simplemente entiende que selecciona el elemento K más similar al elemento candidato en TopK de una larga secuencia de cientos de miles de usuarios, similar al módulo de recuperación en el sistema de recomendación, y primero acorta el largo secuencia en tareas posteriores. La longitud del elemento en la secuencia. El otro es ESU. La función de este módulo es realizar un modelado de secuencia en el GSU recién extraído de K Item, para obtener un vector de secuencia larga que pueda representar los pares de intereses del usuario y utilizar este vector para realizar una clasificación posterior de los pares de intereses. .
La tarea principal de GSU es extraer K elementos similares a los elementos candidatos de una secuencia de longitud T. Como se mencionó anteriormente, existen dos métodos para que GSU seleccione elementos TopK, a saber, búsqueda dura y búsqueda suave. Recuerdo basado en incrustación y recuerdo basado en reglas estratégicas, donde la búsqueda exhaustiva es un recuerdo basado en reglas y la búsqueda suave es un recuerdo basado en incrustación, hablemos de estos dos métodos en detalle a continuación.
Este método es relativamente intuitivo y simple de implementar. Es decir, filtramos el conjunto de candidatos relacionados con la tarea objetivo actual de la secuencia de comportamiento del candidato de acuerdo con reglas dadas. Por ejemplo, busqué en Taobao históricamente. una amplia variedad de mercancías (como productos electrónicos, lápiz labial, zapatos de hombre, etc.
Cuando el anuncio candidato es iphone12, el método de búsqueda exhaustiva filtrará el modelado de comportamiento relacionado con productos electrónicos de mi cola de comportamiento histórico para la predicción PCTR, y la probabilidad de lápiz labial y zapatos de hombre no tendrá ningún impacto en esta predicción. Debería poder comprender esta forma de pensar basada en reglas y estrategias con los ejemplos. El artículo señala que el método de búsqueda exhaustiva utiliza categorías de productos como criterio de selección.
Este método se basa en la extracción incrustada. La estructura completa de la búsqueda suave se puede ver en el lado izquierdo del diagrama del modelo anterior. Esta parte también es un submodelo. La entrada del modelo es el elemento candidato y la secuencia larga. El objetivo es predecir la tasa de clics. De esta manera, se aprende la información de incrustación del elemento candidato y la secuencia larga. Con la información de incrustación, podemos calcular la similitud del producto interno entre las incrustaciones de anuncios candidatos y las incrustaciones en comportamientos históricos, y usar el método de recuperación aproximado del vecino más cercano (ALSH se usa en este artículo) para obtener las K secuencias de comportamiento candidatas más relevantes.
En este submodelo, la entrada del DNN es la concatenación de elementos candidatos y Ur, donde Ur:
Tenga en cuenta que si el comportamiento del usuario crece hasta cierto punto, Es imposible combinar todo el comportamiento del usuario y se introduce directamente en el modelo. En este caso, los conjuntos de secuencias se pueden extraer aleatoriamente de una larga secuencia de comportamientos del usuario, y estos conjuntos de secuencias aún deben seguir la misma distribución que la secuencia original.
La desventaja de este método es que la sobrecarga computacional es relativamente grande y no es tan conveniente como la búsqueda exhaustiva basada en reglas. La ventaja es que los resultados deberían ser mejores. Sin embargo, el artículo también menciona que la diferencia de efectos entre los dos métodos no es particularmente grande, por lo que al final, basándose en el equilibrio entre rendimiento y efecto, se adoptó el método relativamente simple de búsqueda exhaustiva.
Desde la perspectiva general del modelo, esta parte utiliza principalmente los elementos K extraídos de GSU para obtener un vector que puede representar los intereses a largo plazo del usuario y completa la predicción general de la tasa de clics junto con otras características enviadas internamente por la tarea DNN.
En este artículo, estas entradas K extraídas de GSU se modelan como secuencias a través de la autoatención:
donde:
El primero en la conexión Uno es el incrustación original, y el segundo es la incrustación relacionada con el tiempo.
Basado en el método de autoatención, obtenemos otro vector que representa los intereses a largo plazo del usuario y completa la tarea general de estimación de la tasa de clics junto con otras características enviadas al DNN.
Aquí, el segundo submodelo también se predice mediante ctr. Las características se dibujan en la entrada del gráfico del modelo. También se introdujo Dien en artículos anteriores. en detalles.
La pérdida final es:
Entre ellos, α y β son hiperparámetros que controlan el peso de la pérdida. En nuestros experimentos, si la GSU usa el modelo de búsqueda suave, tanto α como β se establecen en 1, mientras que la GSU que usa el modelo de búsqueda dura no es paramétrica y α se establece en 0;
Dado que el sistema de recomendación publicitaria debe garantizar la experiencia de usuario más básica para los usuarios, los requisitos para el consumo de tiempo de cálculo de líneas siguen siendo relativamente estrictos. Con el mayor crecimiento de las secuencias de comportamiento del usuario, el consumo de tiempo y memoria que implica calcular directamente largas secuencias de comportamiento del usuario utilizando métodos tradicionales aumentará muy rápidamente. Por lo tanto, es necesario llevar a cabo actualizaciones y transformaciones específicas del sistema en línea. El artículo menciona que la elección entre búsqueda dura y búsqueda suave se basó en los resultados de una gran cantidad de experimentos fuera de línea. La decisión final fue utilizar la búsqueda dura, que es conveniente, rápida y efectiva, y la pérdida de información también está dentro. un rango aceptable.
El diagrama general de la arquitectura del sistema de implementación en línea es el siguiente:
Para permitir que SIM brinde mejor a los usuarios una experiencia de baja latencia, Alibaba ha creado la estructura de servicio en línea de SIM:
Se puede ver que para la secuencia de comportamiento del usuario, este artículo adopta una estructura de índice de dos capas para cada usuario: clave-clave-valor La primera clave es valor-clave y la primera clave es id_usuario. y la segunda clave es user_id. La clave es la identificación de la categoría y el valor es el elemento que pertenece a la categoría correspondiente en la secuencia de comportamiento del usuario.
De esta forma, podemos encontrar rápidamente elementos pertenecientes a la misma categoría a través de este árbol de índice.
Efecto experimental de la prueba A/B en línea:
El comportamiento histórico del usuario es cada vez más importante para toda la tarea de estimación de CTR/CVR. Si no se consideran el tiempo y el almacenamiento, todas las secuencias lo serán. be Al ingresar los puntos clave de los intereses a largo plazo en el modelo, los intereses a largo plazo del usuario se pueden ubicar con precisión. Sin embargo, debido a razones de rendimiento, debemos considerar el uso de métodos especiales para filtrar esta secuencia larga. Realice una selección de esta secuencia larga para seleccionar K elementos candidatos similares, que pueden lograr el efecto de recorte sin causar ninguna pérdida en la predicción de la tasa de clics. El proceso de detección también se divide en dos métodos, pero para implementarlo en línea, es necesario considerar el uso del método de búsqueda exhaustiva de mejor rendimiento para las tareas de detección TopK. Este método tiene un efecto de detección similar al de la incrustación, pero es más rápido que el de incrustación. Incrustar, así que adopte este enfoque.
En el futuro, debería haber más artículos para la recomendación de secuencias. Simplemente centrarse en la etapa de secuencia larga también traerá cierto sesgo de interés. Por lo tanto, cómo extraer de manera efectiva el valor comercial detrás de las características de comportamiento más ricas de los usuarios. es necesario considerar el problema.