Red de conocimiento informático - Conocimiento del nombre de dominio - Urgente, urgente ~Métodos de recuperación de información de red y documentos de solicitud

Urgente, urgente ~Métodos de recuperación de información de red y documentos de solicitud

Encontré un artículo para usted, el resumen es el siguiente:

Con el rápido desarrollo de Internet en todo el mundo, la contradicción entre la enorme información digital en Internet y las personas El acceso a la información es cada vez más prominente. Por lo tanto, es un tema urgente y práctico para discutir e investigar la tecnología de recuperación de información en redes y sus tendencias de desarrollo. Este artículo analiza y estudia los principios básicos de la recuperación de información de la red, las tecnologías y herramientas de recuperación de información de la red y la situación actual de la recuperación de información de la red, y predice la tendencia de desarrollo de la recuperación de información de la red, con el objetivo de encontrar formas de mejorar la recuperación de información de la red. métodos y, en última instancia, mejorar el efecto de recuperación de la información de la red, de modo que los recursos de información de la red se puedan utilizar de manera completa y efectiva.

El texto completo consta principalmente de seis partes.

La primera parte es una revisión de la recuperación de información de la red, que explica principalmente los conceptos relevantes involucrados en la recuperación de información de la red, como la recuperación de información. tecnología, información de red Características de recuperación y evaluación de los efectos de recuperación de información de red.

La segunda parte se centra en la tecnología básica de recuperación de información en red. Como tecnología de inserción y extracción de información, tecnología de extracción de datos, tecnología de filtrado de información, tecnología de procesamiento del lenguaje natural, etc., con el objetivo de aclarar el soporte técnico de la recuperación de información de la red y allanar el camino para predecir la tendencia de desarrollo de la recuperación de información de la red.

La tercera parte explica el motor de búsqueda, una herramienta importante para la recuperación de información de la red, partiendo principalmente de su mecanismo de recuperación y analizando las características y funciones de recuperación de diferentes tipos de motores de búsqueda. Su singularidad radica en un resumen relativamente completo de las funciones básicas de los motores de búsqueda y una clasificación científica de los motores de búsqueda actualmente populares...

La cuarta parte analiza y discute otro aspecto de la tecnología de recuperación: el contenido. -tecnología de recuperación basada en

La quinta parte analiza las limitaciones de las herramientas de búsqueda de información en red, principalmente desde los dos aspectos de la recuperación de información de texto y la recuperación de información multimedia.

Finalmente lo convertí en un texto .txt y lo pegué a continuación:

1.1 Recursos de información de red

Los recursos de información de red se refieren a "la información que se puede utilizado a través de Internet internacional" Un término general para diversos recursos de información.

Con el rápido desarrollo de Internet, los recursos de información en línea también han aumentado exponencialmente. Como nuevo tipo de recursos de información, los recursos de información en red están desempeñando un papel cada vez más importante.

, su contenido. es casi integral, involucra política, economía, cultura, ciencia, entretenimiento y otros aspectos; sus formas de medios son diversas, incluidos textos, gráficos e imágenes, sonidos, videos, etc.; , ciencias naturales, humanidades

y tecnología de ingeniería.

1.2 Tecnología de recuperación de información

La tecnología de recuperación de información es una de las tecnologías más críticas en la sociedad de la información moderna. La recuperación de información se refiere al proceso y la tecnología de organizar y almacenar información de una manera determinada y encontrar la información requerida de acuerdo con las necesidades de información de los usuarios de la información, por lo que el propósito de la recuperación de información es El nombre completo también se llama "Almacenamiento y recuperación de información". ". La recuperación de información en un sentido estricto solo se refiere al proceso de encontrar la información requerida a partir de una colección de información, es decir, el proceso de utilizar herramientas de recuperación del sistema de información para encontrar la información requerida. Las principales formas en que las personas obtienen fuentes de información son: ① Siga el método de recuperación tradicional para encontrar el número de índice del documento correspondiente mediante la indexación de búsqueda manual en el vasto mar de materiales de la biblioteca y luego obtenga el documento original

>

Texto; ②Recuperación de información en línea. También existe un proceso de desarrollo, a juzgar por los resultados de la búsqueda, desde proporcionar

recuperación de información secundaria como catálogos y resúmenes hasta obtener directamente el texto completo de la versión electrónica del método de búsqueda

; < Desde el punto de vista de p>, abarca desde búsquedas convencionales que utilizan palabras clave específicas o información auxiliar como autores e instituciones como entradas de búsqueda

hasta búsquedas de texto completo que utilizan cualquier palabra del documento original. etcétera. Entre ellos, la recuperación de texto completo se ha desarrollado rápidamente en los últimos años debido a la originalidad de la información, la minuciosidad de la recuperación de información y la naturalidad del lenguaje de recuperación utilizado, y se ha convertido en un motor de búsqueda profundamente arraigado. tecnología que atrae la atención de las personas. Es el medio más eficaz para localizar con precisión la información requerida en archivos de gran capacidad l3].

.3.2 Recuperación de información web

Los métodos de recuperación incluyen: método del navegador y método del motor de búsqueda.

(l) Modo navegador (Br, singsystelns). Siempre que pueda ingresar a hitemct, puede usar el servicio WV proporcionado por el protocolo HTTP a través del navegador para navegar por la página web y la búsqueda proporcionada por la página W dagger para acceder a la base de datos.

(2) Método del motor de búsqueda (SearehEngines). Un motor de búsqueda es un sitio web en Internet que proporciona servicios de recuperación de información pública. Utiliza ciertas tecnologías y estrategias para recopilar y descubrir información de la red en Internet, y comprender, extraer y procesar información de la red, establecer una base de datos y proporcionar una búsqueda. interfaz en forma de reconocimiento para que los usuarios ingresen términos de búsqueda como palabras clave, frases o frases, en lugar de usuarios

Encuentra los registros que coinciden con la pregunta en la base de datos, y al mismo tiempo devuelve los resultados y envíelos en orden de relevancia, para

encontrar información rápidamente. Los recursos de información procesados ​​por los motores de búsqueda incluyen principalmente información de los servidores de la World Wide Web, así como información de correo electrónico y grupos de noticias. La finalidad de los servicios de los motores de búsqueda es satisfacer las necesidades de información de los usuarios, por lo que está orientado al usuario y el método utilizado es interactivo.

Las herramientas de recuperación de información de red utilizan dos métodos: envío activo o búsqueda automática para buscar datos.

1.4 Evaluación del efecto de recuperación de información de la red

En la actualidad, los criterios de evaluación generalmente reconocidos para el efecto de recuperación incluyen principalmente los siguientes: tasa de recuperación, tasa de precisión de búsqueda

, rango de recopilación y formato de salida, entre los cuales la tasa de recuperación y la tasa de precisión son las más importantes.

El desarrollo de la ciencia y la tecnología de la información modernas ha proporcionado a las personas una variedad de métodos de adquisición y transmisión de información

Y tecnología, desde la perspectiva de la relación entre "fuente de información" y " usuario", se puede dividir en dos modos: modo "Push de información" (InformationPush), en el que la "fuente de información" envía información activamente al "usuario", como una transmisión de radio;

" "Información Modo "Pull" (InformationPull), en el que el "usuario" extrae activamente información de la "fuente", como consultar una base de datos.

2.2.1 Tecnología de envío de información

El servicio de información de red en modo "push" es una nueva forma de servicio basada en el entorno de red, a saber, carta

Servicio de información Los proveedores utilizan tecnología "Push" para proporcionar servicios de información a usuarios específicos en línea. Tecnología Push

La razón por la que la tecnología Push se ha convertido en una tecnología emergente en Internet es que con la ayuda de esta tecnología, los servicios de información de red pueden ser proactivos y no solo pueden enviar directamente información que interesa a los usuarios. , Push a los usuarios y puede utilizar eficazmente

los recursos de la red y mejorar el rendimiento de la red. Además, la tecnología Push también permite una comunicación transparente entre los usuarios y los servidores que proporcionan información

, lo que facilita enormemente; usuarios.

La llamada tecnología Push, también conocida como tecnología "push" y tecnología Webeasting, es esencialmente un tipo de software que puede recopilar automáticamente información que probablemente interese a los usuarios.

y luego entregarlo en la "ubicación" especificada por el usuario en el momento adecuado. Por tanto, desde un punto de vista técnico, el servicio de información de red modelo "push" es un conjunto de software informático que tiene cierta inteligencia y puede proporcionar automáticamente servicios de información. Este software no solo puede comprender y descubrir a los usuarios. ' intereses (información sobre ciertos temas que pueden ser de su interés

), y también puede buscar activamente información en Internet, filtrar, clasificar y ordenar,

y luego seguir cada uno Los requisitos específicos de cada usuario se envían activamente al usuario 141.

(l) Método de envío de información. Los métodos de envío de información se dividen en dos categorías, a saber, el método de transmisión web y el método inteligente.

Los métodos de webcasting incluyen: push de canal.

La tecnología de transmisión web basada en canales es un modelo de uso común en la actualidad

Define ciertas páginas como canales en el navegador y los usuarios pueden aceptar partes interesadas como si seleccionaran canales de televisión. información enviada por correo electrónico, publicar proactivamente la información enviada a cada usuario por correo electrónico,

como avisos de conferencias internacionales, anuncios de productos, etc.: web push. Publicar la información enviada a cada usuario en una página web específica, como una empresa, una organización o la página web dedicada de una persona; Utilizando software especializado para enviar y recibir información, la fuente envía información a usuarios especializados, como comunicación confidencial punto a punto.

Los métodos de envío inteligentes incluyen: envío operativo (empuje de cliente), que inicia el envío de información mediante la operación de datos del cliente

Push. Cuando un cliente opera con datos, después de que los nuevos datos modificados se almacenan en la base de datos, se inicia el proceso de envío de información para enviar los nuevos datos a otros clientes mediante envío activado (envío del servidor). Tesis

MASTER, 5THESIS⑧

El disparador en la base de datos inicia el proceso de envío de información y envía nuevos datos a otros clientes cuando ocurren los datos

Cuando ocurren cambios. , como las operaciones de agregar (Insertar), eliminar (Eliminar) y modificar (actualizar), el activador

inicia el proceso de envío de información.

(2) Características del push de información. Las características del impulso de información son: iniciativa, pertinencia, inteligencia, eficiencia, flexibilidad y exhaustividad I5].

Proactividad. El núcleo de la tecnología Push es que el lado del servicio transmite datos activamente al cliente sin la solicitud oportuna del cliente. Por lo tanto, la iniciativa es una de las características más básicas de los servicios de información de red modelo “push”.

Esto también contrasta marcadamente con el servicio pasivo basado en el modelo "Pull" del navegador.

Dirigido (personalizado). La focalización significa que la tecnología Push puede recuperar, procesar e impulsar las necesidades de información específicas de los usuarios

y proporcionarles interfaces de recuperación personalizadas en función de sus necesidades de información específicas

.

Inteligencia. El servidor Push puede recopilar automáticamente información que le interesa al usuario en función de sus requisitos y enviarla al usuario de forma regular. Incluso el "Agente Cliente" en la tecnología Push puede buscar automáticamente sitios programados de forma regular, recopilar información actualizada y enviársela al usuario. Al mismo tiempo, el agente del servicio de información personal y el agente de búsqueda de temas también pueden controlar la profundidad de la búsqueda para mejorar la precisión del "empuje" y filtrar información innecesaria. Se completa la lista de recursos del sitio b y su estado de actualización. con el agente del cliente. Por lo tanto, el servicio de información en modo "push" en el entorno de red tiene una alta inteligencia. Esto también es incomparable con los servicios tradicionales de establecimiento de temas

(SDI).

Eficiencia. La eficiencia es otra característica importante de los servicios de información en modo "push" en un entorno de red. La aplicación de la tecnología Push

se puede iniciar cuando la red está inactiva, utilizando de manera efectiva el ancho de banda de la red y es más adecuada para transmitir grandes cantidades de información multimedia.

Flexibilidad. Flexibilidad significa que los usuarios pueden configurar de manera flexible el tiempo de conexión según su propia conveniencia y necesidades, y obtener recursos de información específicos en Internet a través de correo electrónico, cuadros de diálogo, audio, video, etc.

Completo. La realización de servicios de información de red en modo "push" no sólo requiere equipos de tecnología de la información, sino que también depende de la integración de software de búsqueda, software de clasificación e indexación y otras tecnologías [6].

Sin embargo, en la etapa actual de desarrollo de la tecnología de la información, la tecnología "push" todavía tiene fallas importantes, como:

Incapacidad para garantizar la entrega de información, falta de seguimiento del estado y falta de funciones de gestión de grupos, etc. Por lo tanto, investigadores nacionales y extranjeros han propuesto la teoría de la tecnología BeyondPush.

La tecnología denominada super push conserva, hereda y mejora las ventajas de Push (entrega activa y personalización personalizada), al tiempo que abandona las numerosas deficiencias de Push 2 Master's Degree Paper

MASTER, un nuevo tipo de Push! tecnología desarrollada después de la tubería 5THESIS

. Su característica más importante es la entrega garantizada. Es decir, toda la información

se envía a usuarios de información específicos en un momento específico, mientras se mantiene la información del usuario continua. Puede saber quién ha recibido la información en cualquier momento. , si el entorno del usuario es apropiado

etc.

2.2.2 Tecnología de extracción de información

La tecnología de extracción de información típica y comúnmente utilizada, como la consulta de bases de datos, es que el usuario consulta activamente la base de datos,

desde Extraiga la información requerida de la base de datos. Sus principales ventajas son: está bien orientado y los usuarios pueden consultar y buscar la información requerida de forma específica según sus propias necesidades.

Se puede decir que la tecnología de extracción de información en Internet es una expansión y extensión de la tecnología de consulta de bases de datos. En Internet

Lo que los usuarios enfrentan no es solo una base de datos, sino un entorno hitemet con información masiva. Por lo tanto,

todo tipo de información de la red extrae (consulta) Herramientas auxiliares: motores de búsqueda. llegó a existir. Los dos modos de envío de información y extracción de información tienen sus propias características. En la práctica, los dos modos a menudo se combinan

Los métodos combinados comúnmente utilizados son:

(1)" Push. primero, luego tirar”. Primero envíe la información más reciente (información dinámica actualizada) de manera oportuna y luego extraiga la información requerida de manera específica. De esta manera, es conveniente que los usuarios presten atención a nuevas situaciones y tendencias en los cambios de información y, por lo tanto, seleccionen dinámicamente información que requiera una comprensión profunda.

(2) Estilo "tirar primero, luego empujar". El usuario primero extrae la información requerida y luego envía otra información relevante de manera específica según los intereses del usuario

.

(3) Estilo "Empujar mientras se tira". Durante el proceso de envío de información, los usuarios pueden interrumpir en cualquier momento, congelar la página web de interés, realizar más búsquedas y extraer activamente información más rica.

(4) Estilo "tirar mientras se empuja". Durante el proceso de búsqueda del usuario para obtener información, la fuente envía activamente información relevante y la información más reciente en función de las palabras clave ingresadas por el usuario. Esto no sólo puede servir a los usuarios de manera oportuna y específica, sino que también puede reducir la carga de la red y facilitar la expansión del alcance de los usuarios [8].

Por lo tanto, la combinación de empuje y extracción de información es actualmente una dirección de desarrollo para Internet, los sistemas de bases de datos y otros sistemas de información para proporcionar servicios de información activos a los usuarios.

2.3 Tecnología de minería web

Con el desarrollo de la tecnología, la Web se ha convertido en una fuente de información pública para la sociedad humana. Si bien hitemet

brinda oportunidades de información sin precedentes a la humanidad, también hace que el entorno de información humana sea más complejo, Tesis de Maestría

MASTER, 5THESIS⑧

El problema de cómo El uso de la información por parte de las personas no se ha resuelto satisfactoriamente con el desarrollo de la tecnología de la información como se esperaba. Por el contrario, con el desarrollo de la tecnología de la información, la cantidad de información ha aumentado drásticamente, lo que resulta en la contradicción entre la cantidad de información que realmente necesitan los individuos. de información y la gran cantidad de información en Internet ha causado dificultades para que las personas utilicen la información.

En este caso, aunque han surgido herramientas de recuperación especiales en el entorno estándar, debido a que el motor de búsqueda

se desarrolla a partir de tecnología de recuperación tradicional, no puede cumplir con los requisitos actuales del usuario. mejora, la tecnología de búsqueda tradicional

ya no puede satisfacer las necesidades de las personas. Para hacer un uso más eficaz de los recursos de información de la red, la minería W7b

como nuevo método de minería de conocimientos, propone nuevas soluciones para la utilización de la información web.

2.3, Contenido de la minería 1shaneb

La minería de datos proviene de una gran cantidad de datos incompletos, ruidosos, borrosos y aleatorios.

El proceso de extracción de información y conocimiento implícito en él que la gente no conoce de antemano pero que es potencialmente útil.

La minería web consiste en extraer patrones útiles e información implícita de la WWW y sus recursos y comportamientos relacionados.

La WWW y sus recursos relacionados se refieren a los documentos web existentes en la WWW y los archivos de registro en el servidor web

así como a la información del usuario. debería ser Se puede ver que la minería web es esencialmente un método de descubrimiento de conocimiento, que se centra principalmente en los siguientes tres aspectos.

(1)Minería de contenidos web. La minería de contenido web consiste en extraer conocimiento de los datos web para realizar la recuperación automática de recursos web y mejorar la eficiencia de utilización de los datos web. Con la mayor extensión de Internet, los datos web

son cada vez más grandes, con cada vez más tipos. La forma de datos incluye información de datos de texto, imágenes,

sonidos, vídeos, etc. etc. La información de datos multimedia incluye datos estructurados de bases de datos, datos semiestructurados marcados con HTML

e información de datos de texto libre no estructurados. Por lo tanto, la extracción de información del contenido web

se lleva a cabo principalmente desde las dos perspectivas siguientes ["].

Primero, desde la perspectiva de la recuperación de información, estudia principalmente cómo lidiar con formato de texto y documentos de hipervínculo, estos datos no están estructurados o semiestructurados cuando se procesan datos no estructurados, generalmente se usa el método de conjunto de palabras,

se usa un grupo de términos para representar texto no estructurado, primero use información. tecnología de evaluación para preprocesar el texto,

y luego usar el modelo correspondiente para representarlo. Además, también puede usar la longitud máxima de secuencia de palabras, dividir párrafos,

al procesar semi. -Datos estructurados que utilizan métodos como clasificación de conceptos, aprendizaje automático y estadísticas de lenguaje natural. Puede utilizar algunos algoritmos relacionados para clasificar hipervínculos, buscar identificar relaciones de páginas y extraerlas en comparación con

procesamiento. Los datos no estructurados y los datos semiestructurados agregan información de marcado HTM y la estructura de hipervínculos internos de los documentos web, lo que los hace semiestructurados. Los métodos de datos son más abundantes.

El segundo es desde la perspectiva de la base de datos. que se ocupan de bases de datos estructuradas, es decir, hipervínculos

14⑧Rui Yurui

Los documentos y datos se representan principalmente mediante gráficos ponderados o modelos de incrustación de objetos (OME) o bases de datos relacionales.

Se aplica un determinado algoritmo para descubrir las conexiones intrínsecas entre las páginas del sitio web. El objetivo principal es derivar la estructura del sitio web

o convertir la Web en una base de datos para una mejor gestión y consulta de la información.

La gestión de bases de datos generalmente se divide en tres aspectos: primero, modelado, investigación sobre lenguajes de consulta de alto nivel en la web, para que no se limite a consultas de palabras clave; el segundo es la integración y extracción de información; incluyendo cada sitio web y su paquete

El programa se considera una fuente de datos estándar y realiza la integración de múltiples fuentes de datos a través del almacén de datos de la base de datos (data~house) o la base de datos virtual; y restablecimiento de sitios de bases de datos Estructura, a través del estudio del lenguaje de consulta en la web para lograr el establecimiento y mantenimiento de sitios web ['"].

(2)Minería de estructuras Zab. La minería de estructuras web se refiere principalmente a la obtención de patrones útiles de la estructura organizativa entre documentos mediante el análisis de documentos web. La minería de contenido W dagger estudia la relación dentro del documento,

La minería de estructuras W 7b se centra en la relación entre las estructuras de hipervínculos en el sitio web y encuentra la relación entre las estructuras de hipervínculos en el sitio web

.

El modelo de estructura de enlaces después de una página se puede utilizar para reclasificar páginas W7b y también

para encontrar sitios web similares.

El tipo de datos procesados ​​por la minería de estructuras W7b son datos estructurados W7b. Los datos estructurados son datos que describen la organización del contenido web. La estructura intrapágina se puede expresar como una estructura de árbol utilizando un lenguaje de marcado de hipertexto. Además, la estructura entre páginas también se puede expresar utilizando un lenguaje de marcado de hipertexto. conectando diferentes páginas web. Los vínculos entre documentos reflejan

ciertas conexiones entre la información del documento, como relaciones paralelas de afiliación, citas y relaciones citadas, etc. Al clasificar los hipervínculos en la página W7b

, se puede juzgar e identificar la relación de atributos entre la información de la página.

Dado que hay más o menos información estructural dentro de la página Web

, al estudiar la estructura interna de la página Web, podemos descubrir

otra información relacionada con la información de colección de páginas seleccionada. por el usuario. Modo de información de la página para detectar la integridad de la información mostrada en el sitio web.

③Minería de comportamiento web. La denominada minería del comportamiento del usuario web obtiene principalmente patrones útiles sobre los usuarios mediante el análisis de los archivos de registro del servidor y la información del usuario. La información de datos de la minería de comportamiento W7b se refiere principalmente a los patrones de comportamiento del usuario incluidos en los registros de la red, que incluyen el tiempo de búsqueda, los términos de búsqueda, las rutas de búsqueda, los resultados de la búsqueda y qué búsquedas Se exploraron los resultados. Debido a la heterogeneidad,

distribución, dinámica y falta de estructura unificada del propio W7b, es difícil realizar minería de contenidos en Internet.

Requiere inteligencia artificial y natural. comprensión del lenguaje. Afortunadamente, el registro 109 basado en el servidor W7b tiene una estructura completa. Cuando un usuario de información accede a un sitio web, la página, la hora y la información del usuario relacionada con la visita son y otra información, se han realizado los registros correspondientes en el registro. por lo que es factible extraer la información

l5 Tesis de Maestría

MASTER, 5THESIS⑥

También tiene sentido. En el proceso de práctica técnica, los datos del registro generalmente se asignan a diversa información de relaciones y se procesan previamente, incluida la eliminación de información irrelevante para la minería. Para

mejorar el rendimiento, los métodos actuales utilizados para extraer información de datos de registro 109 incluyen análisis de ruta, reglas de asociación,

descubrimiento de patrones, análisis de conglomerados, etc. Para mejorar la precisión, la minería de comportamiento también se aplica a la información de la estructura del sitio y a la información del contenido de la página.

2.3.2 Aplicación de la tecnología de minería web en la recuperación de información de la red

(l) Aplicación de la minería de contenidos web en la recuperación. La minería de contenido web se refiere al proceso de obtener conocimiento del contenido del documento y su descripción.

Por lo tanto, la tecnología de minería de contenido se puede utilizar para mejorar aún más la parte del procesamiento de documentos de la recuperación de información de la red, específicamente en los siguientes aspectos.

①Tecnología de resumen de texto. La tecnología de resumen de texto se refiere a extraer información clave de un documento y luego resumir o expresar la información del documento de forma concisa. De esta manera, al navegar por esta información clave

los usuarios pueden tener una comprensión general de la información en la página web de W7b, determinar su relevancia y tomar decisiones.

②Tecnología de clasificación de textos. La clasificación de texto en la minería de contenido de W dagger se refiere al uso de computadoras para clasificar automáticamente cada documento en la colección de documentos de acuerdo con categorías de temas predefinidas. El valor de la clasificación en la recuperación de información de la red es que puede limitar el alcance de la búsqueda y mejorar en gran medida la tasa de precisión. En la actualidad, han surgido muchas tecnologías de clasificación de texto, como el algoritmo TFIFF. Dado que los textos procesados ​​por la minería de textos y los motores de búsqueda son casi exactamente iguales, se pueden clasificar directamente en La tecnología de clasificación de textos se utiliza en la clasificación automática de los motores de búsqueda. para mejorar la precisión de la recuperación de documentos clasificando de forma automática, rápida y eficaz un gran número de páginas.

③Tecnología de agrupación de textos. La agrupación de texto es exactamente lo opuesto al proceso de clasificación de texto. La agrupación de texto se refiere a dividir los documentos de una colección de documentos en grupos más pequeños y requiere que los documentos del mismo grupo tengan similitudes lo más grandes posible y la relación entre los grupos sea lo más pequeña posible. posible. Estos grupos son equivalentes a las categorías de la tabla de clasificación. Las técnicas de agrupamiento de texto

no requieren categorías temáticas predefinidas, lo que permite que las categorías del motor de búsqueda se adapten a la

información recopilada. En comparación con la clasificación manual, la tecnología de agrupación de textos puede clasificar de forma más rápida y objetiva. Al mismo tiempo,

La agrupación de texto se puede combinar con la tecnología de clasificación de texto para hacer que el procesamiento de la información sea más conveniente. Los resultados de búsqueda

se pueden categorizar y agrupar resultados similares.

(2) Aplicación de la minería de estructuras web en la recuperación de información de la red. El método de organización de la información de W adopta una estructura no plana. En términos generales, el método de organización de la información de W se organiza según el contenido. Pero

Debido a que esta información estructural de W es más difícil de procesar, los motores de búsqueda generalmente no procesan esta información

16 Tesis de Maestría

MASTER, S Takezheng 515⑧

La información, en cambio, la página será procesada como un texto en una estructura plana. Sin embargo, al extraer de la estructura del contacto b, al extraer la estructura organizativa del documento, el motor de búsqueda puede ampliar aún más las capacidades de recuperación del motor de búsqueda y mejorar el efecto de recuperación ['3].

(3) Aplicación de la minería de comportamiento nítida b en la recuperación de información de la red. La minería de comportamiento de reconocimiento-toque b es un modelo que resume el comportamiento de recuperación del usuario a través de la minería

. El comportamiento de recuperación del usuario siempre ha sido un contenido de investigación importante en la recuperación de información

A través de la minería de comportamiento, no solo podemos descubrir los patrones de comportamiento potencialmente similares de la mayoría de los usuarios, sino también

Descubra el comportamiento personalizado de los usuarios individuales. El estudio de estos patrones puede proporcionar una mejor retroalimentación sobre los efectos de recuperación del motor de búsqueda, para mejorar aún más las estrategias de búsqueda y mejorar los efectos de recuperación.

2.3.3 Limitaciones y direcciones de la tecnología de minería web

(1) Minería de contenidos del agujero b. Independientemente de si los datos de W7b se expresan en lenguaje de marcado HTML o XML,

no puede resolver completamente los problemas no estructurales de los datos de W7b, especialmente porque hay muchos formatos de oraciones, palabras funcionales y

No existen límites absolutos para las palabras de contenido y es difícil segmentar palabras. Estos son problemas fundamentales que impiden la indexación de datos completamente automática.

Por lo tanto, es necesario combinar la tecnología de minería de contenido de Sevenb con la tecnología de minería de contenido de Sevenb. el almacén de datos y otras tecnologías de la información

para el almacenamiento de información y, en última instancia, realizar una representación e indexación de datos inteligentes y automatizadas con fines de búsqueda.

Por lo general, la representación de los datos y la forma de utilización de los datos están relacionados entre sí. Por lo tanto, diseñar algoritmos de minería correspondientes con alta

tasa de precisión y tasa de precisión también es lo mismo que los datos. representación. Es una de las direcciones futuras. Además, cómo identificar, clasificar e indexar datos multimedia también es la dificultad y la dirección de la futura investigación de minería de contenidos.

(2)Mei b minería de datos estructurales. Con el rápido desarrollo de Internet, el contenido de los sitios web es cada vez más abundante

y la estructura se vuelve cada vez más compleja. El uso de gráficos dirigidos para representar la estructura de enlaces de un sitio web gigante no será suficiente. poder satisfacer las necesidades de procesamiento de datos

necesita diseñar una nueva estructura de datos para representar la estructura del sitio web.

Dado que la información de uso del usuario utilizada para el análisis comparativo para encontrar el problema es solo el flujo de registro, entonces, ¿cómo identificar cada relación de enlace en el flujo de registro de uso del usuario?

y qué estructura cómo usarlo para representarlo, cómo extraer patrones útiles, etc. no solo son contenidos de investigación importantes de la minería del comportamiento de reconocimiento, sino también una de las direcciones de investigación importantes de la minería de estructuras de sitios web.

(3), minería del comportamiento del usuario eb. Debido a la naturaleza sin estado del protocolo de transporte HTTP de Iniemet, la existencia de caché en el cliente y el servidor proxy hace que existan registros de acceso de los usuarios en el servidor, el servidor proxy y el cliente respectivamente. Por lo tanto, la mayor dificultad al estudiar los patrones de acceso de los usuarios a partir de los registros de acceso de usuarios de W7b es cómo preprocesar los registros de acceso distribuidos en diferentes ubicaciones para formar un período de acceso para cada usuario

Tiempo. En términos generales, para los sitios web estáticos, los registros del lado del servidor son fáciles de obtener, pero los registros de acceso de los usuarios del cliente y del servidor proxy no son fáciles de obtener, en segundo lugar, porque un sitio web completo se compone de

; imágenes y páginas de marco, y el acceso del usuario al servidor también tiene concurrencia. Al determinar el contenido de acceso del usuario, es necesario seleccionar la solicitud real de un usuario del registro del servidor. contenido de la página.

Además, dado que los algoritmos de minería de datos existentes se desarrollan principalmente en base a una gran cantidad de datos de transacciones

, la estructura del algoritmo también debe rediseñarse cuando se procesan cantidades masivas de datos de usuarios web. registros de acceso.

2.4 Tecnología de filtrado de información

El entorno abierto de Hitemet proporciona una gran comodidad para que las personas recuperen y utilicen información, pero al mismo tiempo

el entorno de red también ofrece problemas para que las personas recuperen la información requerida de manera oportuna y precisa. Esto se debe, en primer lugar, a que las fuentes de información en el entorno de la red son complejas y diversas, y son altamente arbitrarias. Cualquier persona o cualquier unidad puede recopilar información en la red independientemente de sus antecedentes y motivaciones. La información se publica en línea, y la generación y. La difusión de información no se filtra ni revisa. Por lo tanto, la confiabilidad, la calidad y el valor de la información se han convertido en una preocupación importante para los usuarios; en segundo lugar, el propósito

El alcance de recuperación de la mayoría de las herramientas de búsqueda de datos anteriores es completo. Sus robots hacen todo lo posible para capturar varias páginas web

y almacenarlas en la base de datos para su revisión después de un procesamiento simple. En tercer lugar, la búsqueda. La mayoría de los métodos de recuperación proporcionados directamente por el motor a los usuarios se basan en coincidencias lógicas booleanas; Lo que se devuelve al usuario son todos los documentos que incluyen palabras clave. La cantidad de dichos resultados de búsqueda excede con creces la capacidad del usuario para absorberlos y usarlos, lo que hace que la gente se sienta impotente. Este es el fenómeno de "sobrecarga de información" y "sobrecarga de información" del que la gente suele hablar.

Fue en este contexto que la tecnología de filtrado de información comenzó a atraer la atención de las personas. Su propósito es hacer que los motores de búsqueda tengan más "inteligencia" para que los motores de búsqueda puedan participar en. todo el proceso de búsqueda del usuario, desde la selección de palabras clave, la determinación del alcance de la búsqueda hasta el refinamiento de los resultados de la búsqueda,

Ayude a los usuarios a encontrar la información que sea verdaderamente relevante para sus necesidades en la vasta mar de información.

2.4.1 Modelo de filtrado de información

La esencia del filtrado de información sigue siendo una tecnología de recuperación de información, por lo que todavía depende de un determinado modelo de recuperación de información

, Los diferentes modelos de recuperación tienen diferentes métodos de filtrado. 51.

(1) Utilice el modelo lógico booleano para el filtrado. El modelo booleano es un modelo de recuperación simple. En la recuperación, utiliza si el documento contiene palabras clave como criterio de selección. Por lo tanto, no requiere un procesamiento en profundidad de los datos de la página web. La tabla de palabras clave más simple se puede diseñar con solo tres campos: palabras clave, números de documentos, incluidas las palabras clave, y el número de veces que aparecen las palabras clave en los documentos correspondientes. Al recuperar, los usuarios envían palabras clave

……………………………………………………

Es demasiado largo e incompleto. Espero que así sea. Te será útil. Si no funciona, por favor contáctame (déjame un mensaje) y te lo enviaré a tu correo electrónico.