Red de conocimiento informático - Material del sitio web - Cómo utilizar los datos de las etiquetas de usuario

Cómo utilizar los datos de las etiquetas de usuario

Figura 1 Varias formas en que los sistemas de recomendación vinculan usuarios y elementos

Según la definición 2 de Wikipedia, las etiquetas son palabras clave utilizadas para describir información sin una estructura jerárquica. Por lo tanto, las etiquetas se pueden utilizar para describir con precisión la semántica de un elemento. Generalmente existen dos tipos de aplicaciones de etiquetas, según la persona que etiquete el artículo. La primera es etiquetar elementos por autores o editores, y la otra es etiquetar elementos por usuarios normales, lo que también se denomina aplicación de etiquetas UGC. La Tabla 1 enumera los sitios web representativos de estos dos sistemas de etiquetado diferentes. En este capítulo, nos centraremos en las aplicaciones de etiquetado UGC, estudiando el comportamiento de los usuarios que etiquetan elementos y cómo proporcionar recomendaciones personalizadas a los usuarios mediante el análisis de este comportamiento.

Tabla 1 Sitios web representativos con dos sistemas de etiquetado diferentes

El sistema de etiquetado de UGC es una forma muy importante de expresar los intereses de los usuarios y la semántica de los elementos. Cuando un usuario etiqueta un artículo, la etiqueta describe los intereses del usuario por un lado y también representa la semántica del artículo por el otro, conectando así al usuario y el artículo.

Aplicaciones representativas de los sistemas de etiquetas UGC

Los sistemas de etiquetas UGC son un componente necesario de muchos sitios web Web 2.0. Esta sección analizará los sitios web representativos que utilizan estos sistemas: Delicious es una etiqueta UGC. creador del sistema; CiteULike es un sitio web de marcadores de ensayos; Lastfm es un sitio web de vídeos musicales, Hulu; un sitio web de reseñas de libros y películas, Douban, etc. Estas aplicaciones se presentan una por una a continuación.

Delicious

Delicious es el creador de los sistemas de etiquetado, que permiten a los usuarios etiquetar cada página web en Internet y reorganizar Internet mediante etiquetas. La Figura 2 muestra las páginas web en Delicious que son más marcadas por los usuarios con el sistema de recomendación. Estas páginas web reflejan las páginas web que son más relevantes para el sistema de recomendación en la mente de los usuarios. La Figura 3 muestra las páginas web con la mayor cantidad de etiquetas "Douban Radio" en Delicious, y podemos ver que estas etiquetas describen con precisión Douban Radio.

Figura 2 Página web de Delicious marcada por el sistema de recomendación

Figura 3 Página web de "Douban Radio" Delicious más marcada por los usuarios

CiteULike

CiteULike es un conocido sitio web de marcadores de artículos que permite a los investigadores enviar o marcar artículos de su interés, ayudando así a los usuarios a descubrir mejores artículos excelentes relacionados con sus campos de investigación. Sabemos que para los investigadores, buscar artículos dignos de referencia en sus propios campos de investigación es una tarea que requiere mucho tiempo y trabajo, y CiteULike permite a cada investigador calificar los artículos que conoce a través de inteligencia grupal, ayudando así a los usuarios a hacerlo mejor y más rápido para descubrir artículos que le interesen. La Figura 4 muestra el artículo sobre revisiones del sistema de recomendación más calificado por los usuarios en CiteULike. Se puede encontrar que los dos artículos más calificados son el filtrado colaborativo y la evaluación. Estos dos artículos reflejan con mayor precisión las características de este artículo.

Figura 4 Etiquetas de papel en CiteULike

Lastfm

Lastfm es un conocido sitio web de música que predice las preferencias musicales de los usuarios analizando sus intereses de escucha. recomendar música personalizada a los usuarios. Como multimedia, la música no es tan fácil de analizar en busca de información de contenido como el texto. Para obtener información de contenido sobre música sin realizar análisis de audio complejos, Lastfm utiliza un sistema de etiquetado que permite a los usuarios etiquetar música y artistas con etiquetas. La Figura 5 muestra la nube de etiquetas de The Beatles en Lastfm. Como puede ver en la nube de etiquetas, The Beatles debería ser una banda de rock británica tradicional que fue popular en la década de 1960.

Figura 5 La nube de etiquetas de los Beatles en Lastfm

Douban

Douban es un famoso sitio web de comentarios y redes sociales en China, y también es líder en el campo de recomendaciones personalizadas en China Una de las empresas líderes. Douban ha realizado numerosos intentos en el campo de las recomendaciones personalizadas y el sistema de etiquetas es una de las áreas que han probado. Permiten a los usuarios etiquetar libros y películas para obtener información sobre su contenido y utilizar esta información para mejorar las recomendaciones. La Figura 7 muestra cómo los usuarios de Douban etiquetaron "Introducción a la minería de datos". Como se muestra en la Figura 7, las etiquetas más comunes son: minería de datos, informática, informática, análisis de datos, análisis de datos de TI. Estas etiquetas reflejan con precisión la información del contenido del libro.

Figura 6 Etiquetas comunes para el libro "Introducción a la minería de datos" en Douban Books

Hulu

Hulu es un sitio web de vídeos famoso en los Estados Unidos. Como uno de los multimedia más complejos, el vídeo es el más difícil de obtener información de contenido. Por lo tanto, Hulu también ha introducido un sistema de etiquetado de usuarios para permitirles etiquetar series de televisión y películas. La Figura 7 muestra las etiquetas más utilizadas para la serie de televisión estadounidense House. Se puede ver que Hulu ha clasificado las etiquetas y muestra las etiquetas más populares en cada categoría. Desde el punto de vista del género, "House" es un drama médico; desde el punto de vista del tiempo, el programa se lanzó en 2004, desde el punto de vista de los personajes, el papel protagónico de este drama estadounidense es Hugh Laurie, quien interpreta a The. El personaje es Greg House.

Figura 7 Etiquetas comunes para "Doctor House" en Hulu

Como se puede ver en varias aplicaciones anteriores, el sistema de etiquetas se usa ampliamente en varios sitios web (música, videos y socialización, etc.). La mayor ventaja del sistema de etiquetado es que puede utilizar la sabiduría de la multitud para obtener una descripción de palabras clave más precisa de la información del contenido del artículo, y la información precisa del contenido es un recurso importante para mejorar el sistema de recomendación personalizado.

Problemas de recomendación en sistemas de etiquetas

El comportamiento de etiquetado, como comportamiento importante del usuario, contiene una gran cantidad de información que refleja los intereses de los usuarios, por lo que es necesario un estudio en profundidad de las etiquetas de los usuarios. El comportamiento puede ser una buena forma de guiar los sistemas de recomendación personalizados para mejorar la calidad de las recomendaciones. Al mismo tiempo, como representación de contenido importante, las etiquetas pueden reflejar mejor las opiniones de los usuarios sobre el proyecto que las representaciones de atributos de contenido tradicionales, y la forma de representación es muy simple y fácil de procesar mediante muchos algoritmos.

Hay dos problemas principales de recomendación en los sistemas de etiquetas.

¿Cómo recomendar artículos a los usuarios en función de su comportamiento de etiquetado (recomendaciones basadas en etiquetas)?

¿Cómo recomendar etiquetas adecuadas para artículos a los usuarios cuando etiquetan artículos (recomendación de etiquetas)?

Para estudiar las dos preguntas anteriores, primero debemos responder las siguientes tres preguntas.

¿Por qué el usuario debería etiquetar (por qué)?

¿Cómo etiquetan los usuarios (cómo)?

¿Qué tipo de marca hará el usuario?

Por qué los usuarios etiquetan

Antes de diseñar un sistema de recomendación personalizado basado en etiquetas, debemos tener un conocimiento profundo del comportamiento de etiquetado de los usuarios y saber por qué los usuarios etiquetan y cómo lo hacen. Solo comprendiendo profundamente a los usuarios. Solo analizando el comportamiento del usuario podemos diseñar un sistema de recomendación personalizado basado en el comportamiento del usuario para satisfacerlo.

Morgan Ames estudió las motivaciones de los usuarios para realizar anotaciones en sitios web para compartir imágenes 3. Descompuso las motivaciones de los usuarios para agregar anotaciones en dos dimensiones: la primera dimensión es la dimensión social, es decir, algunos usuarios agregan anotaciones. . están destinados a quienes suben contenido, mientras que otros usuarios agregan anotaciones para uso público. La segunda dimensión es la dimensión funcional, donde algunas anotaciones sirven para organizar mejor el contenido para que los usuarios lo encuentren en el futuro, mientras que otras anotaciones sirven para transmitir cierta información, como la hora y el lugar donde se tomó la foto.

Cómo marcan los usuarios

En Internet, aunque el comportamiento de cada usuario parece aleatorio, en realidad hay muchos patrones detrás de estos comportamientos aparentemente aleatorios.

En esta sección, estudiamos el conjunto de datos de marcadores de Delicious para descubrir algunos patrones estadísticos en el comportamiento de marcado de los usuarios.

Investigadores alemanes publicaron un gran conjunto de datos de marcadores de Delicious4, que contiene 420 millones de registros de comportamiento de etiquetado de usuarios de marcadores de Delicious desde septiembre de 2003 hasta diciembre de 2007. En esta sección, seleccionaremos los datos completos del año 2007 de este conjunto de datos para analizarlos y estudiar las propiedades estadísticas de este conjunto de datos.

Esta sección resume la siguiente información sobre este conjunto de datos.

Distribución de la actividad de los usuarios.

Distribución de la popularidad del proyecto.

Distribución de la popularidad de las etiquetas.

La evolución del comportamiento de marcado de los usuarios a lo largo del tiempo.

Cambios de intervalo de tiempo en los intereses de los usuarios.

El ciclo de vida del proyecto.

*[**** Las estadísticas específicas se anunciarán cuando este libro se publique oficialmente**]*

Qué tipo de etiquetas usarán los usuarios

Cuándo Cuando un usuario ve un elemento, las etiquetas que más queremos que utilice son palabras clave que puedan describir con precisión los atributos de contenido del elemento. Pero los usuarios a menudo no hacen lo que queremos y en su lugar etiquetan elementos con todo tipo de etiquetas extrañas.

Scott A. Golder resume las etiquetas del gadget de marcadores Delicious y las clasifica de la siguiente manera.

Indica cuál es el artículo: por ejemplo, si es un pájaro, se etiquetará como "pájaro"; si es la página de inicio de Douban, habrá una etiqueta llamada "Douban"; Si fuera la página de inicio de Steve Jobs, habría una etiqueta llamada "Empleos".

Indica la categoría del artículo: por ejemplo, en el marcador Delicious, las etiquetas que representan categorías de páginas web incluyen artículos, blogs, libros, etc.

Representa al propietario del proyecto: por ejemplo, muchas etiquetas de blog contendrán información como el autor del blogger.

Expresar el punto de vista del usuario: por ejemplo, si el usuario cree que la página web es interesante, se utilizará la etiqueta interesante; si la página web es aburrida, se utilizará la etiqueta aburrida.

Etiquetas relacionadas con el usuario: algunas etiquetas, como Mis Favoritos (mis favoritos), Mis Comentarios (mis comentarios), etc.

Tareas de usuario: algunas etiquetas, como lectura, búsqueda de empleo, etc.

Muchos sitios web diferentes también han ideado sus propios sistemas de clasificación de etiquetas, como la clasificación de etiquetas de vídeo de Hulu.

La figura 8 muestra la marca de la famosa serie de televisión estadounidense House. Como puedes ver, Hulu divide las etiquetas de programas de televisión en varios tipos.

Género: Indica principalmente la categoría de la serie de televisión. Por ejemplo, "House" pertenece a la categoría de drama médico, y también contiene elementos de comedia y misterio.

Tiempo: Se refiere principalmente al momento en que se estrenó la serie de televisión y, en ocasiones, se refiere al momento en que tuvieron lugar los eventos de la serie de televisión, como durante la Segunda Guerra Mundial o la década de 1990.

Personajes: incluyen principalmente a los directores, actores y personajes importantes de la serie de televisión.

Ubicación: El lugar donde se desarrolla la serie de televisión o donde se rueda el vídeo, etc.

Idioma: El idioma utilizado en la serie de TV.

Premios: Premios obtenidos por la serie de TV.

Detalles: contiene todas las demás etiquetas que no encajan en las categorías anteriores.

Figura 8 El famoso drama americano "House" en el sitio web de vídeos Hulu