Cómo realizar minería de datos de red
Cómo realizar minería de datos de red
Cuando las personas visitan un sitio web, proporcionan información de retroalimentación personal sobre el contenido del sitio web: en qué enlace se hace clic, dónde se encuentra el mayor tiempo de navegación, Qué términos de búsqueda se utilizaron, tiempo total de navegación, nombres y direcciones personales, etc. Toda esta información se guarda en una base de datos.
A juzgar por la información almacenada en la base de datos, el sitio web tiene una gran cantidad de información sobre los visitantes del sitio web y el contenido que visitan, pero es posible que no pueda hacer un uso completo de esta información. Con la ayuda de un sistema de informes de almacén de datos (comúnmente conocido como sistema de procesamiento y análisis en línea), solo puede informar información relevante simple y directamente observable. No puede indicar los patrones de información del sitio web ni cómo procesarlos, y es difícil. Analizar información compleja en profundidad. El sitio web necesita procesarla y procesarla por sí mismo.
Sin embargo, los fabricantes y analistas de negocios pueden utilizar tecnología de minería de datos para resolver los problemas anteriores, es decir, a través de algoritmos de aprendizaje automático, encontrar patrones ocultos en la base de datos, informar los resultados o ejecutar de acuerdo con los resultados. Con respecto a la tecnología de minería de datos, la mejor ayuda que brindamos a los fabricantes es presentar los problemas que la tecnología de minería de datos puede resolver, describir la tecnología de minería de datos en detalle y discutir las soluciones relacionadas en profundidad.
Conozca a los visitantes
: para que los sitios web utilicen tecnología de extracción de datos, los proveedores deben registrar las características de los visitantes y las características de los términos utilizados por los visitantes.
—- Las características del visitante incluyen características demográficas, características psicográficas y características técnicas. Las características demográficas son atributos variables como la dirección de la casa, los ingresos, el poder adquisitivo o los dispositivos de entretenimiento que se poseen. Las características psicológicas incluyen tipos de personalidad descubiertos a través de encuestas psicológicas, como tendencias protectoras hacia los niños, impulsividad en las compras e interés temprano en la tecnología. Las características técnicas se refieren a los atributos del sistema del visitante, como el sistema operativo utilizado, el navegador, el nombre de dominio, la velocidad del módem, etc.
--- Las características de los términos incluyen información de contenido de la red (tipo de medio, clasificación de contenido y URL) e información del producto (número de producto, catálogo de productos, color, volumen, precio, ganancia, cantidad y nivel de precio especial).
—- Cuando un visitante visita un sitio web, los datos sobre el visitante se acumulan gradualmente. La información de interacción entre los visitantes incluye principalmente el historial de compras, el historial de publicidad y la información preferida. El historial de compras es un catálogo de productos comprados y el historial de compras indica qué términos se muestran a los visitantes. La información preferida se refiere al nivel de prioridad de acceso de los visitantes; la información del flujo de clics es la información histórica de los hipervínculos en los que los visitantes hicieron clic; las oportunidades de enlace se refieren a los hipervínculos proporcionados a los visitantes. Visitante: las estadísticas del sitio web se refieren a información por sesión, como el tiempo total de visita, las páginas vistas y las ganancias por sesión. La información del visitante-empresa incluye el número de clientes recomendados por un visitante, el número de visitas por mes y la hora de la última visita, etc. También incluye la evaluación de la marca, es decir, la evaluación positiva o negativa de la marca por parte del visitante. La información se puede pasar a través del ciclo. Se obtiene de encuestas específicas de fabricantes.
Enumerar objetivos
—-La mayor ventaja de realizar transacciones en línea es que los proveedores pueden estimar de manera más efectiva las respuestas de los visitantes. La tecnología de minería de datos funciona mejor cuando los fabricantes tienen objetivos claros y cuantificables. Los proveedores pueden considerar los siguientes objetivos: aumentar el número promedio de páginas vistas por sesión; aumentar el beneficio promedio por pago; aumentar el número de clientes que regresan; dentro de los 30 días); aumentar el número de pagos por visita.
Comprender el problema
: el primer paso para resolver un problema es describirlo claramente. Por lo general, los problemas que los fabricantes de redes deben resolver son cómo encontrar grupos publicitarios adecuados, personalizar páginas web, colocar productos comprados al mismo tiempo en la misma página web, clasificar productos automáticamente, conocer las características del mismo tipo de visitantes, y estimar los datos faltantes de bienes y predecir el comportamiento futuro. Todo esto implica encontrar y respaldar una variedad de patrones implícitos diferentes.
Segmentación
: los fabricantes utilizan técnicas de orientación para seleccionar grupos de personas que recibirán anuncios específicos con el fin de aumentar las ganancias, aumentar la visibilidad de la marca o aumentar otros ingresos cuantificables. Hay varios costos publicitarios que se deben considerar al orientar la publicidad en línea.
—- En un sitio web registrado por visitantes, los anunciantes pueden orientar anuncios según información geográfica.
Por ejemplo, las personas que viven en diferentes regiones de un país o que visitan diferentes sitios web suelen tener diferentes tendencias de compra, como comprar uniformes de diferentes equipos deportivos. Por lo tanto, si un fabricante dirige su publicidad a las personas con mayor probabilidad de comprar un producto, puede reducir los costos de publicidad y aumentar las ganancias generales.
—- El uso de tecnología de minería de datos puede ayudar a los usuarios a seleccionar criterios de destino para las campañas publicitarias. Las publicaciones en línea tienen un conjunto de relaciones variables a través de las cuales se pueden seleccionar los objetivos publicitarios. Debido a que la segmentación se utiliza ampliamente en campañas de pedidos por correo directo, existen muchas herramientas diferentes de extracción de datos que respaldan la segmentación.
Personalización
: los proveedores utilizan un enfoque personal para seleccionar los anuncios enviados a individuos para lograr los máximos resultados. Cabe señalar que el término "anuncio" que se analiza en este artículo generalmente se refiere a cualquier sugerencia o término proporcionado por el sitio web. Incluso un simple hipervínculo puede considerarse un anuncio.
—- La personificación es lo opuesto a la selección de objetivos. La orientación es una función que optimiza los tipos de personas que ven sus anuncios para reducir los costos publicitarios. Es útil para encontrar personas que aún no han visitado el sitio del fabricante. Sin embargo, no sirve de nada orientarse en el sitio web del fabricante, por lo que es mejor mostrar sus productos a las personas que visitan el sitio web.
—- Algunos sitios web personalizados requieren que los fabricantes escriban reglas para la publicidad minorista dirigida a los visitantes, lo que llamamos sistemas de personalidad basados en reglas. Si un sitio web tiene información histórica, los proveedores pueden comprar herramientas de extracción de datos de terceros para generar reglas. Normalmente, los proveedores utilizan sistemas de personificación basados en reglas cuando el producto o servicio que ofrecen es limitado, como en la industria de seguros y las instituciones financieras. En esos lugares, los fabricantes sólo necesitan escribir algunas reglas.
—- Otros sistemas de personalización enfatizan la selección de provisiones automática y en tiempo real. Estos sistemas se utilizan a menudo cuando se ofrece una gran cantidad de artículos, como ropa, entretenimiento, equipos de oficina y bienes de consumo. Los proveedores se vuelven indefensos cuando se enfrentan a miles de términos y condiciones y, en este caso, utilizar sistemas automatizados es más eficaz. La personificación a partir de grandes catálogos es muy compleja y requiere procesar grandes cantidades de datos.
Relevancia
: la relevancia se refiere a determinar los productos que tienen más probabilidades de comprarse o verse en una sesión, también conocido como análisis de mercado. Si el sitio web reúne estos términos en la página, puede recordar a los visitantes del sitio web que compren o exploren artículos que quizás hayan olvidado. Si un artículo de un grupo asociado de artículos está en oferta, es probable que el sitio aumente las compras de otros artículos del grupo.
—- Cuando el sitio web utiliza páginas de directorio estáticas, también se pueden utilizar asociaciones. En este caso, el sitio web dependerá de la elección por parte del fabricante de la primera página del directorio que verá el sitio web y proporcionará términos relevantes.
Gestión del conocimiento
: estos sistemas buscan identificar y respaldar patrones en documentos en lenguaje natural. Un término más preciso sería "análisis de texto". El primer paso es asociar palabras y texto con conceptos de alto nivel. Esto se puede hacer directamente entrenando un sistema con documentos etiquetados con conceptos relevantes. Por lo tanto, el sistema establece un comparador de patrones para cada concepto. Cuando se encuentra un nuevo concepto, el comparador de patrones determina qué tan relevante es el documento para ese concepto.
—- El método anterior también se puede utilizar para clasificar documentos futuros en directorios predefinidos. Los sitios web que utilizan el método anterior pueden establecer índices de URL automáticos para los visitantes, y los sitios web de noticias que utilizan el método anterior pueden reducir los costos de clasificación. Además, algunos sistemas también utilizan el método anterior para resumir automáticamente cuestiones clave y encontrar documentos de referencia relevantes.
—- El sistema de gestión del conocimiento puede ayudar a los sitios web a crear sistemas de consulta automáticos. Por ejemplo, las solicitudes enviadas a los buzones de correo electrónico de atención al cliente se pueden clasificar automáticamente y los mensajes de respuesta se pueden enviar automáticamente desde la biblioteca de preguntas frecuentes.
Agrupación
—- La agrupación, a veces también llamada segmentación, se refiere a agrupar personas con las mismas características en un grupo y promediar las características para formar un "vector de características" o "Yachin". . Los sistemas de agrupación generalmente permiten que un sitio web determine cuántas clases tiene un conjunto de datos e intente encontrar el conjunto de agrupaciones que mejor represente la mayoría de los datos. Algunos proveedores utilizan la agrupación para proporcionar informes directamente sobre las diferentes características de los visitantes.
Estimación y pronóstico
—- La estimación se usa para adivinar valores desconocidos y el pronóstico se usa para estimar valores futuros. El mismo algoritmo se puede utilizar para estimaciones y pronósticos.
—- A menudo se utilizan estimaciones para rellenar los espacios en blanco.
Si el sitio web no conoce los ingresos de alguien, puede estimarlos mediante una cantidad estrechamente relacionada con los ingresos y luego encontrar otras personas con características similares y utilizarlas para estimar los ingresos y el valor crediticio de la persona desconocida.
—- La previsión se utiliza para estimar eventos futuros importantes para una persona. Los sitios web pueden utilizar estos valores en aplicaciones de personalización.
—- Los fabricantes suelen recopilar información para comprender a sus clientes. Incluso analizar eventos pasados desde diferentes aspectos puede proporcionar mucha información útil. Este método de recopilación simple se denomina sistema de procesamiento analítico en línea (OLAP).
—- La predicción se puede utilizar junto con la tecnología OLAP para resumir las características de las personas que visitan un determinado sitio web, lo que permite a los fabricantes analizar los datos y descubrir qué términos o características del sitio web han atraído la atención de los más valiosos. clientes.
Árbol de decisiones
: un árbol de decisiones es esencialmente un diagrama de flujo de preguntas o puntos de datos que conducen a una decisión. Por ejemplo, el árbol de decisiones para comprar un automóvil puede comenzar con si se necesita un automóvil nuevo en 2000, luego preguntar sobre el modelo de automóvil deseado y luego preguntar al usuario si quiere un automóvil potente o económico, etc., hasta Se determina el mejor coche que el usuario necesita. Los sistemas de árboles de decisión intentan crear caminos óptimos, ordenando los problemas de manera que, después de un número mínimo de pasos, se pueda tomar una decisión.
—- Muchos proveedores de productos han incluido sistemas de árboles de decisión en sus sistemas de selección de productos. Esto es importante para las personas que visitan el sitio con una pregunta específica. Una vez que se toma una decisión, la respuesta a la pregunta tiene poco efecto en la selección o personificación de objetivos posteriores.
Seleccione una respuesta
—- Las técnicas de minería de datos no son para cardíacos. Hay tres problemas principales que enfrentan los sitios web: en primer lugar, muchos buenos expertos en minería de datos son muy serios; en segundo lugar, hay pocas soluciones listas para usar; y en tercer lugar, las cosas útiles son muy caras;
—- Para un determinado problema, puede haber varios algoritmos de minería de datos, pero generalmente solo hay uno mejor. Cuando un sitio web elige un producto de minería de datos, debe determinar si su algoritmo es adecuado para el problema que el sitio web quiere resolver.
—- El mundo de la minería de datos en red es a la vez un campo minado y una mina de oro. Al guardar datos sobre los visitantes, el contenido de acceso y las interacciones, al menos se asegura de que el sitio web pueda utilizarlos más adelante. Independientemente de la dificultad, los proveedores pueden empezar a pensar en evaluar e integrar aplicaciones de minería de datos ahora.
Lo anterior es el contenido relevante compartido por el editor sobre cómo realizar la extracción de datos de la red. Para obtener más información, puede seguir a Global Ivy para compartir más información útil
.