Red de conocimiento informático - Material del sitio web - Cómo medir la similitud semántica entre dos palabras

Cómo medir la similitud semántica entre dos palabras

Cómo medir la similitud semántica entre dos palabras

Cómo medir la similitud semántica de una oración, es fácil pensar en el modelo de espacio vectorial (VSM) y editar métodos de distancia Por ejemplo, A: "Mi padre es Li Gang", B: "Mi hijo es Li Gang", utilice el método VSM A (yo, papá, soy, Li Gang) B (yo, hijo, soy, Li Gang). para calcular el valor del coseno del ángulo entre los dos vectores, no es necesario entrar en detalles; editar la distancia es mejor reemplazar "Papá" e "Hijo" respectivamente, D (A, B) = reemplazar_cost

Estos son dos métodos bastante estúpidos, que pertenecen a Para la línea base en línea base, si observa dos ejemplos, sabrá A: "¿Cómo construir un edificio?", B: "¿Cómo jugar al golf?", C: "¿Cómo ¿Construir una casa?", si usa VSM para calcular, es obvio porque B, hay la misma palabra "cómo" en C, por lo que la similitud de BC es mayor que la de AC; la distancia de edición es la misma;

No es difícil resolver este problema, siempre que todas las oraciones se procesen a través de la expansión del diccionario de sinónimos, "cómo", "cómo", "edificio" y "casa" son todos sinónimos o sinónimos después de la expansión, calcular vsm o editar la distancia puede resolver este problema correctamente. Este método resuelve hasta cierto punto el problema de la baja tasa de recuperación, pero la introducción de ruido después de la expansión es inevitable, especialmente si la oración original contiene polisemia. Por ejemplo: "hacer salsa de soja", "hacer suéter". Algunas palabras de un solo carácter en caracteres chinos expresan muchos significados. HowNet del Sr. Dong Zhendong tiene una buena explicación de las relaciones semánticas de este tipo de caracteres chinos. A través de la estructura de árbol de las palabras con los significados en Hownet, podemos medir el. similitud de granularidad de palabras.

La pregunta parece haber sido bien respondida aquí, pero en realidad está lejos de ser suficiente. El método VSM trata las palabras de la oración como características independientes e ignora el impacto de la relación de secuencia de la oración y la relación posicional en la semántica de la oración; Editar distancia considera la relación del orden de las palabras en la oración, pero esta relación es un reemplazo mecánico, movimiento, Eliminación y adición De hecho, cada palabra expresa una cantidad diferente de información. La misma palabra contiene cantidades de información muy diferentes o expresa información semántica en diferentes combinaciones de palabras. ¿Qué pasa con el análisis sintáctico, calculando la similitud de árboles sintácticos? Este es más confiable que los dos primeros métodos, porque el árbol sintáctico describe bien la posición de la palabra en la oración. El efecto real debe confirmarse mediante experimentos.

Por cierto, existe otro método llamado modelo de traducción, que es una iniciativa importante de IBM en el campo de la traducción automática. Requiere una gran cantidad de corpus de entrenamiento para obtener resultados de traducción ideales. Por supuesto, incluye los resultados de la alineación de la palabra intermedia. Si puede utilizar recursos web para crear un corpus de alta calidad, alinee palabras iterativamente a través de EM para pares de oraciones similares y genere similitudes de oraciones a partir de la alineación de palabras. . ¡Es una buena idea pensar en ello!