Red de conocimiento informático - Problemas con los teléfonos móviles - Uso de la máscara suave BERT para la corrección ortográfica

Uso de la máscara suave BERT para la corrección ortográfica

La corrección ortográfica es una tarea importante pero desafiante porque una solución satisfactoria requiere inherentemente una comprensión del lenguaje a nivel humano. Sin pérdida de generalidad, este artículo considera el problema de la corrección de errores ortográficos en chino. El enfoque más moderno para resolver esta tarea es seleccionar un carácter para corregir (incluido el no corregido) en cada posición de la oración de acuerdo con BERT (Modelo de representación del lenguaje) de una lista de caracteres candidatos. Sin embargo, la precisión de este enfoque puede no ser óptima ya que BERT no es lo suficientemente potente como para detectar la presencia de errores en cada posición, aparentemente debido al hecho de que BERT está previamente entrenado utilizando modelado de lenguaje enmascarado. En este trabajo, proponemos una nueva red neuronal para resolver los problemas anteriores, que consta de una red de detección de errores basada en BERT y una red de corrección de errores, la primera conectada a la segunda mediante tecnología de enmascaramiento suave. Nuestro enfoque que utiliza "BERT con máscara suave" es general y puede usarse para otros problemas de detección de idiomas y corrección de errores. Los resultados experimentales en dos conjuntos de datos muestran que nuestro método propuesto supera significativamente las líneas de base, incluidas las basadas únicamente en BERT.

La corrección ortográfica es una tarea encaminada a corregir errores ortográficos a nivel de palabras y caracteres. Se usa comúnmente para búsqueda (por ejemplo, Baidu sabe si lo que está buscando es: xxx), reconocimiento óptico de caracteres (la corrección de errores mejora la precisión) y puntuación de ensayos. ? Este artículo considera la corrección ortográfica china a nivel de caracteres.

En el primer ejemplo, cambiar "torre dorada" por "torre dorada" requiere conocimiento del mundo humano (conocimiento del mundo). ? En el segundo ejemplo, el cambio de "deseo de ganar" a "deseo de sobrevivir" requiere un razonamiento contextual. ? Resume métodos anteriores que no son BERT, centrándose en los métodos que utilizan redes de punteros. Métodos BERT actuales para tareas CSC: primero entrene previamente BERT a nivel de personaje utilizando una gran cantidad de conjuntos de datos sin etiquetar y luego ajústelo utilizando conjuntos de datos etiquetados. Los datos anotados se pueden obtener mediante el aumento de datos, como el uso de grandes conjuntos de confusión para generar errores ortográficos. Finalmente, el modelo se utiliza para obtener el carácter más probable según la lista de caracteres candidatos para cada posición de la oración dada. La razón por la que este método es poderoso es que BERT tiene cierta capacidad para adquirir conocimientos comprensivos. ? Sin embargo, los experimentos realizados por los autores demuestran que la precisión se puede mejorar aún más. Primero, las capacidades de detección de errores del modelo no son lo suficientemente altas como para detectar errores y, por lo tanto, tener más posibilidades de corregirlos. Se supone que esto se debe al entrenamiento previo del modelo MLM, ya que el modelo MLM solo enmascara el 15% de los personajes y por lo tanto solo puede aprender la distribución de tokens enmascarados y tiende a optar por no realizar ningún cambio. Para resolver este problema, el autor propuso una red neuronal llamada SoftMasked-BERT, que consta de dos redes, una es una red de detección basada en BERT y la otra es una red de corrección. ? La red de corrección utiliza un método similar a BERT. La red de detección utiliza una red Bi-GRU para predecir la probabilidad de que un carácter en cada posición sea incorrecto y luego usa esa probabilidad para enmascarar suavemente el carácter en esa posición. El enmascaramiento suave es una extensión del enmascaramiento tradicional. Cuando la probabilidad de error es 1, el enmascaramiento suave también es el mismo. El enmascaramiento suave es una extensión del enmascaramiento tradicional. Después del enmascaramiento suave, la máscara suave incrustada en cada posición se introduce en la red de corrección para su corrección. Este enfoque obliga al modelo a aprender el contexto de corrección de errores correcto con la ayuda de la red de detección durante el proceso de entrenamiento conjunto de un extremo a otro. ? Experimentos posteriores demostraron la eficacia del enmascaramiento suave.

La tarea CSC se puede formalizar como: Secuencia original:? Ambas secuencias tienen la misma longitud (los errores de eliminación e inserción no se manejan) y los caracteres erróneos en X se reemplazan correctamente en Y. Los experimentos realizados por los autores muestran que el rendimiento de este método mejora si se especifican caracteres incorrectos. Sin embargo, los métodos basados ​​en BERT prefieren no corregir, y el autor atribuye la razón al hecho de que en el entrenamiento previo de BERT, solo el 15% de los caracteres están enmascarados para la predicción, lo que resulta en que el modelo no tenga suficientes capacidades de detección de errores.

Consiste en una red de detección basada en Bi-GRU (predice la probabilidad de error) y una red de corrección basada en BERT (predice la probabilidad de corrección de errores), y los resultados se pasan entre las dos a través de máscaras suaves. Este enfoque tiende a crear una incrustación de entrada para cada carácter en la oración de entrada e introducirla en la red de detección para ingresar la probabilidad de error para cada incrustación de caracteres. Luego, se calcula una combinación ponderada de la incrustación de entrada y la incrustación de [máscara] (ponderada por la probabilidad de error). Las incrustaciones calculadas enmascaran posibles errores en la secuencia de una manera "suave", y las secuencias de incrustación enmascaradas suavemente se ingresan a la red de corrección de errores para generar probabilidades de corrección de errores. La red de corrección de errores es un BERT con la última capa que consta de una función soft max de todos los caracteres. También existe cierta conexión entre la incrustación de entrada y la incrustación de la última capa.

La red de detección es un modelo de etiquetado de secuencia binaria. La entrada es la secuencia incrustada "...", donde "..." es la incrustación de caracteres, que es la incrustación y la posición de los caracteres. suma de incrustaciones y incrustaciones de cola (BERT). La salida es la etiqueta de la secuencia, donde "..." significa la etiqueta del i-ésimo carácter, "1" significa que el carácter es incorrecto y "0" significa que el carácter es correcto. Cada carácter tiene una probabilidad ? que indica que cuanto mayor sea la probabilidad de que el carácter sea incorrecto. Cuanto mayor sea la probabilidad, más probable es que el personaje esté equivocado. La red de detección del autor es una red GRU bidireccional. Para cada carácter de la secuencia, la probabilidad de error se define como:

Entre ellos, representa la probabilidad condicional dada por la red de detección. función sigmoidea, ? Representa el estado oculto de Bi-GRU, y ? El estado oculto se define de la siguiente manera:

Entre ellos, ? representa el estado oculto de GRU serial bidireccional. La máscara suave es igual a la suma ponderada de la incrustación de entrada y la incrustación de la máscara ponderada por la probabilidad de error. La incrustación del i-ésimo carácter en la máscara suave es

donde está la incrustación de entrada y ? ¿Está incrustada la máscara? Si la probabilidad de error es alta, la incrustación de la máscara suave está cerca de la incrustación de la máscara; de lo contrario, está cerca de la incrustación de entrada.

La red modificada es un modelo de etiquetado secuencial de múltiples clases basado en BERT. ¿Secuencia de incrustación de máscara suave en la entrada y secuencia de caracteres en la salida? BERT consta de 12 bloques idénticos, con la secuencia completa como entrada. Cada bloque consta de una operación de autoatención de múltiples cabezales, seguida de una red de retroalimentación, que se define de la siguiente manera:

El estado oculto de la última capa está representado por ? secuencia, la probabilidad de corrección de errores Definida como ? donde ? representa la probabilidad de corregir el carácter ? La probabilidad de corregir el carácter ? es la probabilidad de corregir el carácter ? en la lista de candidatos, softmax es la función máxima suave, ? es el estado oculto y W y b son parámetros. Entre ellos, ? es el estado oculto de la última capa y ? es el carácter incrustado de entrada. La última capa de la red de corrección utiliza la función softmax para seleccionar el personaje con la mayor probabilidad de la lista de candidatos como salida de personaje.

Siempre que BERT esté entrenado con anticipación y se le proporcione un par de secuencias (como la secuencia original corregida), se puede lograr el aprendizaje BERT con máscara suave de un extremo a otro. Los pares de entrenamiento están representados por ? Una forma de crear datos de entrenamiento es utilizar conjuntos de confusión para aumentar el error. El proceso de aprendizaje está impulsado por la optimización de dos objetivos correspondientes a la detección y corrección de errores:

? es el objetivo de entrenamiento de la red de detección, mientras que ? es el objetivo de entrenamiento de la red de corrección. Estos dos objetivos se convierten en el objetivo general mediante una combinación lineal.

El conjunto de datos básico utiliza SIGHAN. Además de esto, también se capturan los titulares de las noticias de hoy para agregar errores con mayor probabilidad de error. Tres personas realizaron cinco rondas de corrección, corrigiendo cuidadosamente los errores de ortografía en el título. El conjunto de datos contiene 15730 textos. Entre ellos, hay 5.423 textos que contienen errores y 3.441 tipos de errores. Dividimos los datos en conjuntos de prueba y desarrollo, cada conjunto de prueba contiene 7865 textos. Además, se generaron automáticamente datos erróneos para aproximadamente 5 millones de titulares de noticias. El 15% del texto fue reemplazado por otros caracteres, el 80% de los cuales eran caracteres homofónicos del conjunto de ofuscación y el 20% eran caracteres aleatorios.

NTOU: Un método clasificador que usa n-gramas y reglas NCUT-NTUT: Un método que usa vectores de palabras y crf Hanspeller++: Un método que usa HMM, filtros y reordenamiento Híbrido: Aumento de datos y BiLSTM Confusionset: seq2seq, puntero red, mecanismo de replicación Faspell: seq2seq, usando BERT como codificador y decodificador automático de eliminación de ruido BERTPretrain: BERT de preentrenamiento BERT-Finetune: BERT de ajuste fino

Nivel de oración Exactitud, precisión, recuperación y F1.

Cuantos más datos de entrenamiento se utilicen, mejor será el rendimiento.

En comparación con BERT-Finetune, BERT con máscara suave puede utilizar información de contexto global de manera más eficiente. Con el enmascaramiento suave, se pueden identificar posibles errores, por lo que el modelo puede aprovechar mejor el poder de BERT para referirse no solo al contexto local, sino también al contexto global para razonar racionalmente sobre los errores.

El modelo que llamamos BERT de máscara suave consta de una red de detección y una red de corrección basada en BERT. La red de detección identifica caracteres potencialmente erróneos en una frase determinada y los enmascara suavemente. La red de corrección toma caracteres de máscara suave como entrada y los corrige. La tecnología de blindaje suave es versátil y puede usarse para otras tareas de detección y corrección. Los resultados experimentales en dos conjuntos de datos muestran que BERT con máscara suave supera significativamente a los métodos BERT puros de última generación. En trabajos futuros, planeamos extender BERT con máscara suave a otros problemas, como la corrección de errores gramaticales, y explorar otras posibilidades para implementar redes de detección.