Red de conocimiento informático - Aprendizaje de código fuente - Abstracción de extracción de texto

Abstracción de extracción de texto

Palabras clave: extracción, algoritmo BM25, posprocesamiento del conocimiento de la industria.

Antecedentes

Mi empresa ya tiene un módulo de resumen automático y acabo de realizar algunas optimizaciones en áreas específicas basadas en el original.

En primer lugar, el resumen automático de texto se divide en dos categorías: extractivo y generativo. El resumen extractivo extrae principalmente directamente algunas oraciones del texto de entrada para resumir el contenido de todo el párrafo. Este método de implementación es relativamente simple (los algoritmos comúnmente utilizados incluyen TextRank, TF-IDF, etc., en este artículo usamos el algoritmo BM25). . La otra es la fórmula generativa. La composición de la fórmula generativa es relativamente compleja y difícil de implementar. El efecto no es ideal en el proceso de implementación real. Por lo tanto, a continuación se analiza principalmente el resumen automático extractivo.

Abstracción algorítmica del problema

La primera es la abstracción extractiva. Este problema se puede reducir a seleccionar las oraciones más relevantes de artículos y otras oraciones. Es decir, trate cada oración como si se hubiera ingresado en el "cuadro de búsqueda", luego calcule las puntuaciones de relevancia de otras oraciones y luego seleccione la oración con la puntuación de relevancia más alta como resumen.

Algoritmo BM25:

En primer lugar, el algoritmo BM25 es muy útil en el campo de los motores de búsqueda. Aquí hay un buen artículo sobre el análisis de BM25: BM25 - ywl925 - Blog Park. No lo ampliaré aquí.

Normalización de las puntuaciones del algoritmo BM25

Después de que el algoritmo BM25 calcula la puntuación, el rango será muy diferente. Para lograr la puntuación estática posterior, el autor primero realizó el cálculo. la puntuación calculada por BM25. Hay dos métodos de normalización comúnmente utilizados: Min-Max y puntuación Z, que son conceptos relativamente comunes. Puede consultar el blog: Normalización de datos y dos métodos de normalización de uso común - ChaoSimple - Blogspot

Acumulación de conocimientos en campos específicos

Para que quede claro, lo que se dice aquí Específico del dominio El conocimiento se refiere principalmente a ciertas palabras y frases muy diferenciadas. Hay más módulos de bajo nivel involucrados aquí.

La primera es la acumulación de corpus en campos específicos.

Tomando a China como ejemplo, además de algunos corpus públicos, también necesitamos expandir algunos corpus en campos específicos. y etiquetarlos.

Luego, fortalezca el módulo de segmentación de palabras en consecuencia.

Especialmente aquellos términos que son específicos del campo. Dado que la tecnología actual de segmentación de palabras chinas es relativamente madura, esto no es un gran desafío. Además, incluso si la segmentación de palabras se basa en HMM o CRF, ya tiene un rendimiento práctico muy impresionante y es bastante versátil. Sin embargo, también sería útil si se pudiera mejorar el rendimiento y la precisión de los módulos subyacentes. Después de todo, en el procesamiento de textos en chino, la segmentación de palabras es la primera operación básica que se debe realizar.

Adición estática de conocimientos de la industria

La implementación aquí todavía es relativamente tosca. Primero, resuma las palabras diferenciadas en cada industria. La adquisición de esta palabra será el corpus específico de la industria mencionado anteriormente, así como la segmentación para este campo.

Después de calcular y normalizar la puntuación BM25 para la oración, se juzga si hay palabras clave de dominio dentro de la oración. Si hay palabras clave de dominio, se agrega estáticamente a la puntuación BM25 normalizada. Posteriormente, cada frase se clasifica según esta nueva puntuación. Se extraerá la frase con mayor puntuación.

Hay otro tema que se puede explorar más a fondo aquí, es decir, la premisa actual del autor para implementar la puntuación del conocimiento del dominio es que se ha clasificado de antemano, lo que significa que además del texto original, el Los parámetros entrantes también incluirán información específica sobre a qué campo pertenece. Si esta información de clasificación de dominio no se obtiene de antemano, entonces todo el párrafo debe clasificarse de manera aproximada, lo que será mucho más difícil. Podemos seguir discutiendo esta situación más tarde.