Red de conocimiento informático - Conocimiento del nombre de dominio - Métodos comunes para tareas de etiquetado de secuencias

Métodos comunes para tareas de etiquetado de secuencias

En HMM, existen cinco elementos básicos: {N, M, A, B, π}, combinados con la tarea de anotación de secuencia (NER), su concepto se define como:

Los elementos anteriores se pueden calcular estadísticamente utilizando un corpus de entrenamiento. Finalmente, en base a estos valores estadísticos, se aplica el algoritmo de Viterbi para calcular la secuencia de anotaciones detrás de la secuencia de palabras. El reconocimiento de entidades con nombre es esencialmente una secuencia de etiquetas. Solo necesita definir las etiquetas y cadenas de patrones correspondientes para extraer entidades de la secuencia de etiquetas

Suponiendo que para una palabra en el momento t, la fórmula se puede escribir como:

p>

Hipótesis de la propiedad de Markov homogénea: el estado de la cadena de Markov oculta en cualquier momento t depende solo de su estado en el momento anterior y no tiene nada que ver con el estado y los valores de observación en otros momentos. veces, y no tiene nada que ver con el tiempo t

Supuesto de irrelevancia del valor de observación: se supone que el valor de observación en cualquier momento solo depende del estado de la cadena de Markov en ese momento y no tiene nada que ver con otros valores de observación, es decir, independientes del estado. La fórmula de probabilidad de observación se puede expresar de la siguiente manera:

Combinando la probabilidad de emisión y la probabilidad de transición, podemos obtener la fórmula final de la oración completa:

En comparación con HMM, CRF tiene dos ventajas

Supongamos que es la secuencia de observación, es la secuencia de estados y es el parámetro del modelo CRF, entonces la probabilidad condicional es:

Entre ellos, está el conjunto de funciones de características CRF , más el término de regularización, se puede pasar Obtenido mediante transformación logarítmica.

El propósito del entrenamiento CRF es resolver

El modelo BiLSTM-CRF aplicado a NER consta principalmente de una capa de incrustación (principalmente vectores de palabras, vectores de palabras y algunas características adicionales), una Composición de capa LSTM bidireccional y capa CRF. Los resultados experimentales muestran que biLSTM-CRF ha alcanzado o superado el modelo CRF basado en características ricas y se ha convertido en el modelo más común entre los métodos NER actuales basados ​​en aprendizaje profundo. En términos de características, este modelo hereda las ventajas de los métodos de aprendizaje profundo. No requiere ingeniería de características y puede lograr buenos resultados utilizando vectores de palabras y vectores de caracteres. Si hay características de vocabulario de alta calidad, se puede mejorar aún más. >

El filtro de CNN ordinario actúa sobre el área continua de la matriz de entrada y se desliza continuamente para la convolución. CNN dilatado agrega un ancho expandido al filtro. Cuando se aplica a la matriz de entrada, omite todos los datos de entrada en el medio del ancho expandido, el tamaño del filtro en sí permanece sin cambios, por lo que el filtro puede obtener más información en el filtro. matriz de entrada. Para una gran variedad de datos, parece que se está expandiendo. Parece que se está expandiendo. De hecho, el ancho de expansión aumenta exponencialmente con el número de capas. Por lo tanto, a medida que aumenta el número de capas, el número de parámetros también aumenta linealmente, mientras que el campo receptivo aumenta exponencialmente, lo que permite cubrir rápidamente todos los datos de entrada.

Como se puede observar en la figura, el campo receptivo se expande a un ritmo exponencial. El centro del campo receptivo original es un área de 1x1:

Para texto, la entrada es un vector unidimensional y cada elemento es una incrustación de caracteres:

IDCNN es la entrada Se genera un logaritmo para cada palabra, que es exactamente el mismo que el logaritmo de salida del modelo BiLSTM. Luego se agrega una capa CRF y los resultados etiquetados se decodifican mediante el algoritmo de Viterbi. Adjuntar una capa CRF al final de un modelo de red como BiLSTM o IDCNN es un método común para la anotación de secuencias. BiLSTM o IDCNN calcula la probabilidad de etiqueta de cada palabra, mientras que la capa CRF introduce la probabilidad de transición de la secuencia y finalmente calcula la pérdida retroalimentada a la red.

Modelo BERT + capa completamente conectada: vector de codificación de BERT se asigna a través de la capa FC A un conjunto de etiquetas, la salida de una sola etiqueta se asigna a un vector softmax. Después de que Softmax procesa el vector, el valor de cada dimensión representa la probabilidad de que la parte del discurso marcada sea una determinada parte del discurso. Con base en estos datos, se puede calcular la pérdida y entrenar el modelo. Sin embargo, inspirado en el modelo BiLSTM+CRF, se agrega una capa CRF basada en la capa BERT+FC y se agregan algunas restricciones para garantizar la validez del resultado final de la predicción.

La capa CRF puede aprender automáticamente estas restricciones al entrenar datos, lo que reduce la probabilidad de errores de predicción.

La ventaja de BiLSTM + CRF es su gran capacidad de generalización, y la desventaja es que requiere una gran cantidad. de muestras etiquetadas. En el caso de muestras pequeñas, los resultados serán muy insatisfactorios. Para implementar el extractor de entidades más rápido y mejorar la facilidad de uso del sistema, se puede adoptar la idea de aprendizaje por transferencia para entrenar el modelo en función del conocimiento previo, utilizando así BERT+BiLSTM+CRF

De manera similar, la entrada es a través del tokenizador wordPiece strong> El tokenid obtenido