Red de conocimiento informático - Aprendizaje de código fuente - Minería de datos ¿Las reseñas de compras en línea son verdaderas o falsas?

Minería de datos ¿Las reseñas de compras en línea son verdaderas o falsas?

Fuente | 36BigData

Cuando compras online, hay miles de productos similares. ¿Qué factores te influirán para comprar un determinado producto? Las reseñas de productos deben ser una referencia importante. En términos generales, siempre analizamos los máximos históricos de ventas y las opiniones de los usuarios antes de realizar un pedido.

Durante los recientes festivales de compras en línea Double 11 y Double 12, innumerables internautas comenzaron a comprar y vender bajo los carteles de promoción de varios sitios web de comercio electrónico. Sin embargo, cuando compra productos en línea, hay miles de productos similares. ¿Qué factores afectarán la compra de un determinado producto? Las reseñas de productos deben ser una referencia importante. Generalmente, siempre nos fijamos en el historial de ventas elevado y las buenas opiniones de los usuarios antes de realizar un pedido.

Sin embargo, debes haber oído que lo que compras no es tan bueno como lo que vendes. El fenómeno de deslizar, deslizar y deslizar reseñas en línea siempre está muy extendido. Es posible que las reseñas que ves lo sean. Escrito por los propios vendedores. De hecho, muchos vendedores inteligentes de Taobao venderán "artículos populares" durante los períodos pico de compras en línea, como Double Eleven, y "se retirarán después de un voto". Este es un caldo de cultivo para reseñas falsas. A veces, cuando compramos productos, nos encontramos con que muchos comentarios parecen exagerados, por ejemplo, un comentario sobre un determinado producto de calzado de mujer:

"Los zapatos son súper bonitos. Me siento como una diosa. cuando los combino con cualquier ropa, y no me rascan los pies." , No me cansaré después de estar de pie todo el día. ¡Lo compraré la próxima vez y conseguiré el nuevo modelo pronto!"

"Los zapatos más satisfactorios de todos los tiempos. Mi madre dijo que eran de cuero genuino y el vendedor fue muy amable y entregó los productos. Vendedor súper rápido y honesto, una compra muy satisfactoria. "

¡Con cientos de miles de "! "Reseñas positivas reales" escritas así, me temo que a muchos clientes les lavarán el cerebro: ¡las ventas de este producto son realmente altas y las críticas son muy altas! ¡No está mal, entonces compre este! Como resultado, comprar los artículos más populares en línea se ha convertido en un desperdicio. De hecho, los compradores somos la parte más vulnerable a la información. No sabemos si las descripciones dadas por los vendedores son verdaderas o falsas. Es difícil protegerse de las buenas críticas. Entonces, ¿cómo identificar críticas positivas? Aquí presentamos un método para descifrar con la ayuda del modelo de minería de texto.

En primer lugar, para resolver el problema de la fuente de datos, puedes descargar estos comentarios en lotes desde el sitio web, que es un rastreador. Actualmente existen dos métodos, uno es la programación, puede usar Python, Java y otros lenguajes de programación para escribir programas de rastreo, el otro es usar software de rastreo maduro, puede usar operaciones de interfaz para rastrear; Decidí utilizar el software gratuito gooseeker. Este software es un complemento para el navegador Firefox. Evita el problema del difícil análisis de la representación dinámica de muchos sitios web. Aprovecha las funciones del navegador y puede utilizar todos los elementos que se ven en él. el navegador. Fácil de descargar. El software proporciona tutoriales detallados y comunidades de usuarios, que pueden guiar a los usuarios paso a paso para configurar el rastreo de contenido, rutas de rastreo, acciones continuas, rastreo repetido del mismo tipo de páginas web, etc. Todos pueden aprenderlo y usarlo por sí mismos.

El autor finalmente capturó los datos de revisión de cuatro zapatos del mismo tipo, incluido el nombre del miembro, la descripción del producto, la fecha de compra, el modelo de compra, la fecha de revisión, el texto de la revisión, etc., totalizando más de 5000 piezas. datos. Hemos seleccionado deliberadamente productos que tienden a ser reseñados. Podemos ver que muchos de estos productos tienen fechas de revisión consecutivas, nombres de miembros similares y calificaciones bajas de los compradores después del reconocimiento humano, la proporción de reseñas revisadas por el usuario. es aproximadamente el 30%. Tenemos la intención de utilizar estos datos para crear un modelo para identificar reseñas de una sola página y luego usar las reglas obtenidas aquí para identificar reseñas de una sola página para otros artículos de calzado.

SAS Enterprise Miner 13.2 es una herramienta de minería de datos familiar que puede analizar grandes cantidades de datos y construir modelos predictivos y descriptivos precisos basados ​​en los resultados del análisis, por eso la elegimos, pero la misma idea se aplica a Otro software. .

Dividimos los 5000 comentarios obtenidos previamente en dos, 70 como muestras de entrenamiento y 30 como muestras de validación. Primero, utilizamos el análisis de texto para eliminar la ambigüedad de los comentarios en la muestra de entrenamiento. Al eliminar la ambigüedad de los comentarios, podemos optar por ignorar pronombres, interjecciones, preposiciones y conjunciones que carecen de significado real e ignorar números y puntuación.

Ahora no podemos usarlo directamente para modelar. En la figura anterior, podemos encontrar que muchas palabras solo aparecen en una pequeña parte del artículo. Podemos usar el nodo de filtro de texto para eliminar palabras de baja frecuencia. .

En el filtro de texto, puede establecer el número mínimo de documentos, especificar que se excluyan documentos con menos del número de apariciones y también excluir documentos como "on", "this", "is", "tener" Palabras con alta frecuencia pero poco significado. Además, también podemos realizar procesamiento de sinónimos, ya sea agregando sinónimos manualmente o importando sinónimos externos. Por ejemplo, "calentar" y "mantener caliente" son sinónimos, y "agradable" y "bonita" son intercambiables. ...

En el software, también puedes ver las conexiones entre palabras:

A continuación, podemos usar el nodo Generador de reglas de texto para modelar con qué palabras está directamente relacionada la combinación. cepillado:

Configuramos los comentarios reales en la muestra de entrenamiento en 0 (azul) y los comentarios falsos en 1 (azul). Las reseñas positivas falsas se establecen en 1 (rojo). Como se muestra arriba, las reseñas que mencionan palabras como "cálido" (incluido el sinónimo "cálido") tienen más probabilidades de ser genuinas, mientras que las reseñas que mencionan "los zapatos están muy de moda", "la mano de obra es buena, los compraré de nuevo". y los comentarios "los zapatos son muy elegantes" probablemente sean ciertos. "La mano de obra es exquisita, lo volveré a comprar" sin mencionar si hace calor o no, es probable que sea una reseña falsa positiva.

A estas alturas te preguntarás, ¿por qué la palabra “calidez” es tan común y se ha convertido en piedra de toque para valoraciones verdaderas y falsas?

También podríamos recordar nuestra experiencia de compra como compradores normales: después de recibir el producto y probarlo, normalmente solo describimos brevemente nuestros sentimientos, y estos sentimientos deben serlo. Este no es el caso de la marina. En realidad, nunca recibieron los productos, y mucho menos se los probaron. Para cumplir con los objetivos del comerciante, deben seguir las descripciones de los productos proporcionadas por los vendedores y hacer lo mejor que puedan en aspectos como. Calidad logística, actitud de servicio e incluso coincidencia para enfatizar las características del producto en sí. A juzgar por los casos que hemos realizado, la "calidez" es, naturalmente, una experiencia personal, mientras que el "cuero macizo", la "mano de obra", etc. probablemente no sean las propiedades sobre las que los compradores comunes quieran dar su opinión.

Entonces, ¿cuál es el efecto general de este modelo? Podemos utilizar la mejora acumulativa como indicador para evaluar:

También dejamos 30 muestras de verificación y ahora pueden presentarse para verificar los resultados. Mire la curva rosa en la figura anterior: si usamos este modelo para calificar las reseñas, las clasificamos según la probabilidad de que se sospeche que son falsas ("1") y tomamos las 5 reseñas principales, la mejora será 3 veces; Como sabes, las reseñas falsas representan aproximadamente el 30% del número total de reseñas. En otras palabras, el 90% de las 5 reseñas más probables son reseñas falsas. Es por eso que usamos la curva rosa en la imagen. arriba. Esto demuestra que nuestro modelo puede capturar comentarios al deslizar el dedo con bastante precisión.

Por último, nos gustaría decir unas palabras para los vendedores: la feroz competencia de Taobao es seria debido a las reseñas, y probablemente no haya muchas tiendas que no revisen ninguna reseña. No podemos decir que sea imposible comprar productos en tiendas con un 90% de reseñas, pero la calidad de los productos con un 90% de reseñas es realmente terrible, y la calidad de los productos con un 10% de reseñas puede ser aceptable. Esto ilustra aún más la practicidad de nuestro modelo: es más práctico determinar la proporción de productos con reseñas negativas que determinar si las reseñas son falsas una por una.

Los trolls de Internet de hoy en día también están en constante evolución. Hay cada vez más comentarios que dicen la verdad, los cuales son altamente engañosos. Es una pérdida de tiempo y fácil confundirlos a simple vista; Los comentarios falsos son Podemos introducir nuevos a partir de los antiguos y nuestros modelos se pueden "aprender" en cualquier momento. Si se promueve el método descrito en este artículo, se puede formar un proceso estándar para capturar comentarios (análisis de texto, modelado) y juzgar la proporción de comentarios falsos, lo cual sin duda es bastante práctico.

fin