Red de conocimiento informático - Aprendizaje de código fuente - Minería de sinónimos, sinónimos e hiperónimos en motores de búsqueda

Minería de sinónimos, sinónimos e hiperónimos en motores de búsqueda

En los buscadores nos encontraremos con una gran cantidad de requisitos de sinónimos. Cuando los usuarios describan lo mismo, tendrán varias descripciones.

? En el entorno de búsqueda del comercio electrónico, los sinónimos se dividen en varias categorías:

?1. Sinónimos de marca: nokia=Nokia, Adidas=Adidas

?2. Sinónimos de producto: proyector≈proyector, teléfono≈celular;?automóvil y automóvil.

?3. Palabras antiguas y palabras nuevas: bicicleta? -> bicicleta

?4. Palabras del sur y palabras del norte: tomate -> tomate.

?5. Sinónimos tradicionales: taquillas y armarios de almacenaje.

?6. Sinónimos de errores tipográficos: yoga y yoga (escrito incorrectamente como Xie Wang a continuación)

En correspondencia con el inglés, también existe la extracción de raíces de palabras, como singular y plural, verbo. prototipo y forma ing; el inglés también tiene un fenómeno especial, por ejemplo, dos palabras se pueden escribir por separado o fusionarse, como llavero y llave chian (llavero), novio y novio.

Hay más sinónimos: ?Incluyendo talla grande≈talla grande; pantalones cortos y pantalones cortos de frontera y frontera;

? Hiperónimo: El hiperónimo del teléfono móvil de Apple es teléfono móvil.

Antónimos: suelto y esbelto. Cuando reescribimos la consulta, no debemos reescribir los antónimos.

Si observamos con atención, encontraremos que algunas palabras se pueden reemplazar entre sí y algunas palabras solo se pueden reemplazar en una dirección (cambiar en una dirección está mal. Por ejemplo, Jay Chou puede ser reemplazado por Jay Chou, pero Jay Chou solo puede ser reemplazado por Jay Chou (puede ser reemplazado por Jay Chou bajo ciertas circunstancias).

Podemos obtenerlo de los términos de búsqueda de los usuarios, títulos de productos, búsquedas y clics. La fuente más fundamental es la optimización de los títulos de los productos por parte de los comerciantes. Los comerciantes inteligentes agregarán sinónimos en el título con la esperanza de generar más tráfico.

A juzgar por el registro de clics, si w1 y w2 son sinónimos, al buscar w1 y w2, teóricamente habrá una gran cantidad de productos x1, x2, x3, etc. en los que se haga clic simultáneamente. .

? Los títulos de los productos obtienen una gran cantidad de corpus, como proyectores y retroproyectores, cajas de barras de tracción y equipaje.

Encuentre palabras muy relevantes a través de estadísticas o correlación de palabras de entrenamiento de word2vec. Cuente la cantidad de veces que estas palabras aparecen juntas en el título, es decir, la cantidad de veces que aparecen w1 y w2.

fromgensim.test.utilsimportcommon_texts,get_tmpfile

fromgensim.modelsimportWord2Vec

model_path="./data/word2vec_en_50d.model"

modelo =Word2Vec.load(model_path)

model.wv['computadora']

Salida[6]:

matriz([-0.48867282, -0.10507897, -0.23138586, -0.10871041,? 0.1514824, -0.32512784, -0.9063424,? 67 7, 0,6565156, 0,02183418 , ? 0,07939139,? 0,03485253,

0,319492?,

0,249212?,? , -0,03233343, -0,36086813, 0,34835583 ,

? -0.07177112,? 0.0828275 ,? 0.6612073 ,? 0,135 80324,?0,183159,

0.15528682,? 0.01727525, -0.43599448, -0.2579532, -0.23192754,

-0.32965428,? - 0,21699691,? , -0.06555454,? 0.35746607, -0.06610812],

? dtype=float32)

En[13]:

similitud('case. ','cover') # case y cover son básicamente sinónimos cuando se describen fundas para teléfonos móviles

Out[13]:

0,8538678

In[22]:

defget_top_sim(palabra):

similary_words=model.wv.most_similar(palabra,topn=10)

forw,sinsimilary_words:

print(palabra,"=",w,s)

?

get_top_sim('caso')

caso = titular 0.8879926800727844

estuche = clamshell 0.887456476688385

estuche = tableta 0.8748524188995361

estuche = almacenamiento 0.

8703626990318298

estuche = transporte 0.8672872185707092

estuche = estuche rígido 0.8580055236816406

estuche = transporte 0.8558304309844971

estuche = sello 0.85523694 753 64685

case = cover 0.8538679480552673

case = stand 0.8476276993751526

A través de word2vec podemos encontrar la palabra original y las 10 palabras más similares, y luego contamos origen y sustituto (original palabra y palabras sustitutas) en el título A través de esta extracción, encontramos una gran cantidad de pares de palabras candidatas, que pueden usarse como candidatas a sinónimo mediante revisión manual.

Ampliando ligeramente esta situación, podemos obtener la correspondencia entre consulta sinónima y consulta sinónima.

Analice estadísticamente los hiperónimos y cuente las palabras de producto en cada categoría de producto. La palabra de producto w con las n primeras apariciones corresponde a la palabra de categoría de producto c, entonces es probable que w -> c sea una relación de hiperónimo.

A la hora de mantener el vocabulario, no debemos olvidar el vocabulario artificial. El mantenimiento de listas de vocabulario artificial requiere herramientas de backend.

1. Amplíe los sinónimos en las palabras índice correspondientes al título del producto, para que se pueda buscar independientemente del sinónimo que se utilice.

2. En el módulo QueryProcess, la expansión de sinónimos y la reescritura de sinónimos se realizan en la palabra. El peso del sinónimo reescrito será menor que el peso de la palabra original. Durante la reescritura, también encontraremos un problema. Cuando Q (la segmentación de palabras es w1, w2, w3) se reescribe en q1 (w1, w2) y q2 (w2, w3), encontraremos q1, q2 y Q respectivamente. Cómo calcular la correlación.

?3. Cuando la consulta se reescribe como sinónimos, se necesitan algunas palabras como contexto. Por ejemplo, "la nueva canción del Dr. Jay Chou" se puede cambiar por "la nueva canción de Jay Chou", pero "la compañía del Dr. Jay Chou" puede no ser necesariamente la compañía de Jay Chou.

Referencias:

1. Mecanismo de retroalimentación de sinónimos del motor de búsqueda Departamento de I+D de búsqueda de Baidu

2. /p-1136208118.html

3 Minería de sinónimos para recuperar información