Red de conocimiento informático - Problemas con los teléfonos móviles - Registro de aprendizaje de Pytorch: varios modelos clásicos de coincidencia de texto

Registro de aprendizaje de Pytorch: varios modelos clásicos de coincidencia de texto

Registro de aprendizaje de Pytorch: coincidencia de texto TextMatching 01

Este artículo son las notas de lectura de este artículo sobre Zhihu. Revisé los artículos sobre TextMatching en ACL y arXiv a lo largo de los años. Entonces busqué literatura de otras personas. Echa un vistazo a la reseña, pero parece ser diferente de lo que imaginaba, ¡así que todavía tengo que ir primero! He estado emparejando durante muchos años, pero no sé cómo empezar. Miré las reseñas literarias de otras personas, pero parece ser diferente de lo que imaginaba. Todavía tengo que hacerlo primero.

Este artículo está escrito sobre la base de resumir el desarrollo de la coincidencia de texto profunda. Espero que pueda servir como una forma de leer la literatura en el futuro.

El modelo clásico es DSSM (2013), del artículo Learning Deep Structured Semantic Models for Web Search usando Clickthrough Data

Estructura del modelo. DNN se utiliza para mapear características de texto disperso de alta dimensión en características densas de baja dimensión en el espacio semántico. La primera capa oculta tiene 30.000 unidades y se utiliza para completar el hash de palabras. Luego, las características de hash de palabras se proyectan a través de múltiples capas de proyección no lineal.

La actividad neuronal de la última capa del DNN forma características en el espacio semántico.

Las deficiencias de este modelo también son obvias: no considera la conexión temporal entre palabras y la similitud del coseno utilizada para la coincidencia de similitud es una fórmula de coincidencia no paramétrica.

El modelo clásico es el modelo MV-LSTM de la Academia China de Ciencias (2015), "Una arquitectura profunda para la coincidencia semántica con representaciones de oraciones posicionales múltiples"

Uso de Bi-LSTM Para construir una red neuronal, para que coincida con la salida de la capa oculta de LSTM, el autor cree que este modelo puede examinar el significado de cada palabra en diferentes contextos y luego usar Bi-LSTM para procesar oraciones, lo que puede lograr un descifrado gradual con variables. ventanas de longitud. Oraciones, examina el efecto de las oraciones desde múltiples granularidades.

La suma en el modelo es la oración de entrada, y la representación del discurso posicional (indicada por el cuadro discontinuo naranja) se obtiene primero a través de Bi-LSTM. Luego, la agrupación k-Max selecciona las k interacciones principales de cada matriz de interacción (representada por la cuadrícula azul en la figura). Finalmente, el perceptrón multicapa MLP calcula la puntuación de coincidencia.

Debido a la diversidad de representaciones lingüísticas, las fórmulas con parámetros parecen más razonables que las fórmulas sin parámetros. Luego, se realiza la operación de agrupación dinámica k-Max en la matriz coincidente, es decir, se seleccionan las k características más grandes y, finalmente, se utiliza una capa completamente conectada para la compresión y clasificación de dimensiones.

Este artículo construye una matriz de coincidencia a partir de tres aspectos. Teniendo en cuenta con mayor precisión la relación por pares de palabras entre oraciones, construimos 3 matrices para superposición, tratamos estas matrices como imágenes y utilizamos una red neuronal convolucional para extraer características de las matrices.

En el artículo I ***, hay tres formas de construir una matriz de coincidencia. El indicador es si una determinada palabra en esta oración aparece en otra oración. producto escalar entre ellos, el tercero es la similitud del coseno. Apilar estas tres matrices coincidentes y luego usar CNN para realizar la extracción de características en las matrices es la idea general de este artículo.

En el proceso de coincidencia real, una situación común es que el conjunto de entrenamiento y el conjunto de prueba contienen palabras que no están en el corpus (problema OOV). El empalme de palabras del modelo de interacción profunda entre oraciones utiliza el preentrenamiento de Glove y la convolución de caracteres como entrada de incrustación de palabras. La convolución de caracteres asigna aleatoriamente un vector a cada letra, y las características producidas por la convolución de todas las letras de la palabra sirven como características de finalización de la palabra, con el objetivo de aliviar el problema OOV.

2017 IBM Coincidencia bilateral y multiperspectiva de oraciones en lenguaje natural

Concordancia de oraciones bilateral y multiperspectiva.

Puntos de innovación del artículo

Diagrama de marco general del modelo La entrada son incrustaciones de guantes y caracteres previamente entrenados. Después de la codificación BiLSTM, la salida LSTM de cada PASO varía de. p a q, de Match q a p en pares, hay cuatro métodos de combinación, y luego empalme todos los resultados para predecir el resultado.

Se utilizaron cuatro métodos de comparación y la fórmula de comparación utilizó similitud de coseno con parámetros

Razonamiento del lenguaje natural en espacios interactivos, Universidad de Nueva York, 2018

Inferencia interactiva Red (IIN, red de inferencia interactiva)

DenseNet aún puede retener la información de características original en gran medida a través de redes neuronales profundas complejas. (Pero para conservar las características originales, ¿no sería mejor usar el mecanismo de ATENCIÓN ahora?

Del marco general del modelo, se puede ver que la parte de entrada tiene cuatro partes de características (Glove, char, EM (coincidencia exacta), POS. Es una red de procesamiento jerárquica de niveles múltiples compuesta por 5 partes, cada parte es compatible con diferentes tipos de implementaciones, como árboles de decisión, máquinas de vectores de soporte y redes neuronales). Los métodos se pueden portar a esta arquitectura para reemplazar algunos de sus componentes.

¿Qué es una red de carreteras?

Las características se codifican utilizando una red de carreteras y se construye la salida de esta codificación. Atención dentro de una oración (específicamente, la fórmula es que concatena los vectores de las palabras ayb y sus productos escalares, y luego realiza un mapeo lineal para obtener parámetros de peso, que están normalizados por softmax. Después de la normalización de softmax Después de unificarse, se convierte el parámetro de peso de la atención dentro de la oración). Luego, refiriéndose al diseño de LSTM, los vectores de la autopista y los vectores de los elementos de atención interactiva dentro de la oración se filtran a través del mecanismo de puerta para obtener la representación vectorial de cada palabra. , y luego haga coincidir las representaciones vectoriales para formar una matriz coincidente y, finalmente, haga coincidir la matriz coincidente a través de DenseNet

2018 Universidad Nacional de Seúl, Corea del Sur, "Utilizando información recursiva densamente conectada e información de coatención. Realizar. coincidencia de oraciones semánticas"

Las innovaciones de este artículo son:

1: 1.1. El empalme de la incrustación de guante fijo y la incrustación de guante variable mejora el efecto del modelo; 2. LSTM utiliza descomposición de pila Estructura de capas, agregando la idea de DenseNet a la estructura de capas, uniendo los parámetros de la capa superior a la siguiente capa, conservando la información característica de la capa superior en el modelo de larga distancia hasta cierto punto; empalme continuo, los parámetros de mayor reducción de dimensionalidad utilizando codificadores automáticos tienen un efecto de regularización y mejoran la precisión del modelo.

¿Por qué siento que el modelo se está volviendo cada vez más complejo? La estructura del modelo utilizada es diferente de la que yo. He visto antes la parte GEC. Es fácil entender por qué la parte de coincidencia de texto es más complicada.