¿Cuál es la similitud semántica entre dos palabras que son sinónimas según la distancia de Google?
Uno consiste en calcular el concepto de palabras a través de un diccionario semántico, que organiza los conceptos de las palabras en una estructura de árbol;
El otro El primero es utilizar métodos estadísticos para resolver problemas a través de la información de contexto de las palabras.
1. Similitud semántica
Lin Dekang cree que la similitud de dos palabras cualesquiera depende de su relación (común) e individualidad (diferencia), y desde la perspectiva de la información. teoría La fórmula de definición se da desde la perspectiva:
Entre ellos, el numerador representa la cantidad de información necesaria para describir A y B **** el denominador representa la cantidad de información necesaria para describir A completamente; y b.
Entre ellos, Sl y S2 representan dos elementos semánticos, S representa el ancestro idéntico más cercano a ellos y p(s) es el número de nodos secundarios del nodo (incluido él mismo) y el número de nodos secundarios. nodos en el árbol. La proporción del número de todos los nodos.
En la traducción automática basada en instancias, Liu Qun y Li Sujian creen que la similitud semántica significa que dos palabras se pueden usar indistintamente en diferentes contextos sin cambiar el grado de estructura sintáctica y semántica del texto. Sin cambiar la estructura sintáctica y semántica del texto, cuanto mayor es la posibilidad de que dos palabras se utilicen indistintamente en diferentes contextos, mayor será la similitud entre ellas y, a la inversa, menor será la similitud.
Para dos palabras W1 y W2, si su similitud se escribe como Sim(W1, W2) y su distancia entre palabras se escribe como Dis(W1, W2), según la fórmula de Liu Qun y Li Sujian :
Donde a es un parámetro ajustable, n representa: el valor de distancia de la palabra cuando la similitud es 0,5.
La distancia de palabras y la similitud de palabras son expresiones diferentes de las mismas características de relación de un par de palabras. Si la distancia semántica entre dos conceptos es más cercana, se consideran más similares, por lo que se les puede dar una. Correspondencia simple:
Entre ellos, Dis (Wl, W2) es la distancia en el árbol entre los nodos representados por W1 y W2 en el árbol, y k es el factor de escala.
En general, la similitud suele definirse como un número real entre 0 y 1. En particular, cuando dos palabras son exactamente iguales, su similitud es 1; cuando dos palabras son conceptos completamente diferentes, su similitud es cercana a 0
Método de cálculo de similitud semántica
2.1 Método para calcular la distancia semántica de palabras según el sistema de clasificación
Este método también se denomina método de investigación de similitud semántica basado en árboles. Algoritmo de cálculo de similitud semántica basado en árboles. Se divide aproximadamente en dos tipos: el primero es una medida de similitud semántica basada en la distancia y el segundo es una medida de similitud semántica basada en el contenido de la información. En términos generales, un diccionario semántico (como Wordnet, Hownet) es un diccionario semántico que organiza todas las palabras en una o más estructuras jerárquicas en forma de árbol. En una jerarquía de árbol, sólo hay un camino entre dos nodos cualesquiera. Por lo tanto, la longitud de este camino se puede utilizar para medir la distancia semántica entre los conceptos de estas dos palabras, ya que cuanto más profundos estén ubicados los conceptos en los nodos, más rica será la información semántica que contienen, con mayor precisión se podrá determinar el concepto; La naturaleza juega un papel decisivo en la similitud semántica.
2.1.1 La idea básica de calcular la similitud semántica basada en una estructura jerárquica de árbol
Por ejemplo, en la Figura 1 (tomada de una pequeña parte de la ontología de Wordnet), entre niños y niñas El camino más corto entre niño-hombre-individuo-mujer-niña, la longitud mínima del camino es 4 mientras que la longitud mínima del camino entre maestro y niño es 6, por lo tanto, la niña está semánticamente más cerca del niño que del maestro;
2.1.2 Cálculo de similitud semántica basado en la red de palabras Hownet
Dado que las palabras en la red de palabras Hownet no están organizadas en una estructura jerárquica en forma de árbol, sino en una estructura de red. ; al mismo tiempo, los conceptos se describen con la ayuda de la semántica y los símbolos.
Para dos palabras chinas Wl y W2, si W1 tiene n métodos de formación de palabras (conceptos), entonces los métodos de formación de palabras (conceptos) de W2 son: Sll, S12, ..: Sll, S12,..., S1n y W2. Hay m topologías (conceptos): S21, S22,..., S2m. Liu Qun y Li Sujian creen que la similitud entre W1 y W2 es el valor máximo de la similitud de cada concepto, es decir:
<. p >Para mayor precisión, W1 y W2 son similares. p>Para calcular la similitud semántica de las palabras con mayor precisión, la descripción de las palabras de contenido en la red de conocimiento se puede representar mediante una estructura de características, que contiene las siguientes cuatro características:
*Primera descripción del principio de razón básica: Su valor es un principio de razón básica, que describe la similitud de esta parte de los dos conceptos como Siml(Sl, S2);
*Otras descripciones de elementos semánticos básicos : Expresiones semánticas correspondientes excepto la primera El valor de todos los descriptores de significado básico excepto un descriptor de significado básico es un conjunto de significados básicos, y la similitud de esta parte que describe dos conceptos es Sim2(S1, S2);
*Descripción del elemento semántico relacional: correspondiente a todos los descriptores de elementos semánticos relacionales en la expresión semántica, su valor es una estructura de características. Para cada característica en la estructura de características, su atributo es Siml (Sl, S2);
. *Descripción del elemento semántico relacional: correspondiente a todos los elementos semánticos relacionales en la expresión semántica, su valor es una estructura característica. Para cada característica en la estructura, su atributo es un elemento semántico relacional y su valor es un elemento básico. una palabra específica. Registre la similitud de esta parte de los dos conceptos como Sim3 (S1, S2);
*Descriptor de símbolo relacional: corresponde a todos los descriptores de símbolo relacional en la expresión semántica y su valor también es una estructura de característica. Para cada característica de la estructura de características, su atributo es un elemento semántico relacional, su valor es un conjunto y su elemento es un elemento semántico básico o una palabra específica. Sea esta parte de la similitud entre los dos conceptos Sim4(S1, S2).
A través del análisis anterior, se puede ver que en la estructura real de la red de conocimiento, debido a que cada elemento semántico está en un nivel diferente, su impacto en la similitud de las palabras también es diferente, es decir, digamos, el peso de esta parte de similitud en la similitud general también es diferente, y el peso (porcentaje) está representado por β. Por lo tanto, en la red de conocimiento, la similitud general de conceptos se puede escribir como: donde β (1≤i≤4) es un parámetro ajustable y su valor es: β1 β2 β3 β4=1, β1≥β2≥P3≥β4 . Esto último refleja el papel cada vez menor desempeñado por Siml (Sl, S2) frente a Sim4 (Sl, S2) en la similitud general. Dado que el primer significado independiente del descriptor original refleja la característica más importante del concepto, su peso debe definirse relativamente grande, generalmente superior a 0,5. En el cálculo anterior, el promedio ponderado de cada parte es igual al final. De esta forma, el problema de la similitud entre dos palabras se reduce al problema de la similitud entre dos conceptos.
2.2 Estadísticas que utilizan corpus a gran escala
La investigación de similitud de palabras basada en corpus utiliza principalmente métodos de descripción estadística contextualizados, es decir, el contexto de una palabra puede ser la definición de la palabra. afirmación que proporcione suficiente información. El modelo de espacio vectorial de palabras es una de las estrategias de cálculo de similitud de palabras basadas en estadísticas más utilizadas en la actualidad y se puede lograr su complejidad algorítmica. El modelo selecciona un conjunto de palabras características de antemano y luego calcula la correlación entre este conjunto de palabras características y cada palabra (generalmente, la frecuencia de aparición de la palabra en el contexto se mide por la frecuencia de aparición de este conjunto de palabras). en el corpus real a gran escala), por lo tanto, obtenga un vector de palabra característico relevante para cada palabra y luego use la similitud entre estos vectores como la similitud entre las dos palabras.
El método de cálculo de similitud semántica fue propuesto por Rudi L. Cilibrasi y Paul M.B Vitanyi [2007.12]. La base teórica de este método involucra la teoría de la información, el principio de compresión, la complejidad de Kolmogorov, la WEB semántica y la idea básica. es utilizar Internet como un corpus grande, Google (también aplicable a otros motores de búsqueda como Baidu) como motor de búsqueda y el número de resultados arrojados por la búsqueda como base numérica. La fórmula de cálculo es la siguiente:
Entre ellos, NGD (distancia normalizada de Google, entre 0 y 1) representa la distancia estándar de Google (como indicador de similitud semántica), y f(x) y f(y) representan los conceptos que contienen x e y respectivamente. El número de páginas web, f (x, y) representa el número de páginas web que contienen dos conceptos y N representa el número total de páginas web de Internet citadas por Google.
Podemos ilustrar esto mediante un experimento: supongamos que la búsqueda de la palabra "caballo" en Google obtendrá 46.700.000 resultados (indicados como f(x)), y la búsqueda de "jinete" generará 46.700.000 resultados. (indicado como f(x)). La palabra obtendrá 12.200.000 resultados (indicado como f(y)), y el número de páginas web que contienen "caballo y jinete" durante la búsqueda es 2.630.000 (indicado como f(x)). , y)), Google** **El número de páginas web citadas es N=8058044651, que se puede obtener sustituyendo en la fórmula anterior:
NGD(caballo, jinete)≈0.443
3. Comparación de dos métodos principales de cálculo de similitud semántica