Red de conocimiento informático - Aprendizaje de programación - Revelado el kernel del directorio de desarrollo del motor de búsqueda Lucene Nutch

Revelado el kernel del directorio de desarrollo del motor de búsqueda Lucene Nutch

4.1 Principio de Web Spider

4.1.1 Diseño de arquitectura

4.1.2 Estrategia y algoritmo de acceso

4.1.3 Optimización y optimización de la eficiencia actualizaciones

4.1.4 Especificaciones de acceso de Spider

4.1.5 Introducción a las arañas de código abierto

4.2 Introducción a las arañas de código abierto Nutch Web Spider1.5

4.2 Nutch Web Spider

4.2.1 Descripción general de Nutch Web Spider

4.2.2 Clasificación de los modos de rastreo de Nutch

4.2.3 Prueba de rastreo Crear sitio

4.3 Rastreo de LAN de Nutch

4.3.1 Preparar para la descarga local

4.3.2 Iniciar el proceso de descarga

4.3. 3 Análisis del proceso de descarga

4.3.4 Descargar varios sitios web

4.4 Rastreo de Internet con Nutch

4.4.1 Obtener lista de descargas

4.4. 2 Descargar una gran cantidad de sitios web

4.5 Comparación del rastreo de Nutch

4.6 Detección de resultados de Nutch

4.6.1 Recuperación de contenido de páginas web

4.6.2 Utilice Nutch para rastrear y obtener el resumen

4.6.3 Análisis del proceso de descarga

4.6.4 Descargar varios sitios web

4.8.2 Arquitectura de Heritrix

4.8.3 Instalación y uso de Heritrix

4.9 Resumen 5.1 Principios de indexación de documentos

5.1.1 Descripción general del índice

5.1.2 Estructura básica del índice

5.1.3 Índice invertido

5.1.4 Estructura básica del índice

5.1.5 Estructura básica del índice

5.1. 3 Principio del índice inverso

5.1.4 Clasificación del índice

5.1.5 Índice de alto rendimiento

5.2 Indexador Lucene

5.2.1 Introducción al índice Lucene

5.2.2 Estructura del índice Lucene

5.2.3 Estructura del índice multidocumento

5.2.4 Estructura del índice compuesto

5.3 Ejemplo de índice de Lucene

5.3.1 Análisis de código de creación de índice

5.3.2 IndexWriter

5.3.3 IndexReader

5.3. 4 IndexModifier

5.3.4 IndexModifier

5.3.5 IndexModifier

5.3.6 IndexModification IndexModifier)

5.3.5 Analizador de índices

5.4 Operación de índice de Lucene

5.4.1 Agregar índice de archivo de texto

5.4.2 Crear índice incremental de Lucene

5.4.3 Usar índice elementos Eliminar documentos

5.4.4 Eliminar documentos usando números

5.4.5 Comprimir números de documentos

5.4.6 Agregar índice de archivos de texto

5.4.7 Agregar índice de archivo de texto

5.4.8 Agregar número de archivo de texto

5.4.9 Agregar índice de archivo de texto

5.4.5 Número de documento comprimido

5.4.6 Actualización del documento indexado

5.5 Funciones avanzadas del índice Lucene

5.5.1 Selección Tipo de campo de índice

5.5.2 Optimización de los parámetros de índice

5.5.5.3 Uso del índice de disco

5.5.4 Uso del índice de memoria

5.5 .5 Mecanismo de sincronización y bloqueo

5.6 Ejemplos de aplicaciones avanzadas de Lucene

5.6.1 Creación de índices para búsqueda local

5.1.2 Proceso de consulta básico

6.1.3 Visualización del resultado de la consulta

6.1.4 Consulta de alto rendimiento

6.2 Descripción general de la consulta de Lucene

6.2.1 Conceptos básicos de las operaciones de consulta de Lucene

6.2.2 Comenzando con ejemplos de consultas de Lucene

6.2.3 Clase IndexSearcher para herramientas de consulta

6.2.4 Clase de consulta Query Wrapper

6.2 .5 Clase QueryParser para analizador de consultas

6.2.6 Conjunto de resultados de consulta Clase Hits

6.3 Consulta básica de Lucene

6.3.1 Consulta de Lucene Objeto de consulta

6.3.2 Consulta de término mínimo TermQuery

6.3.3 Consulta de rango de intervalo RangeQuery

6.3.4 Conjunto de resultados de la consulta Clase de visitas

6.3 .4 Consulta de combinación lógica 1/4 BooleanQuery

6.3.5 Consulta de prefijo de cadena PrefixQuery

6.3.6 Consulta de frase PhraseQuery

6.3.7 Consulta difusa FuzzyQuery

6.3.8 Consulta comodín WildardQuery

6.3.3 Búsqueda de índice cruzado con múltiples inversores

6.5 Consulta de Lucene en Nutch

6.6 Resumen 7.1 Principios de clasificación de documentos en motores de búsqueda

7.1.1 Tecnología de clasificación de búsqueda tradicional

7.1.2 Limitaciones de la clasificación por modelos vectoriales

7.1.3 Clasificación por relevancia en motores de búsqueda

7.1.4 Principio del análisis de enlaces PageRank

7.1.5 Proceso de clasificación en motores de búsqueda

7.2 Clasificación de recuperación de Lucene

7.2.1 Factores de correlación de Lucene

7.2.2 Proceso de clasificación de correlación de Lucene

7.2.3 Sistema de cálculo de clasificación de Lucene

7.2.4 Método de control de clasificación de Lucene

7.3 Clasificación ponderada de Document Boost

7.3.1 Introducción a Boost en Lucene

7.3.2 Clasificación completa de documentos de valores de Boost

7.3.3 Clasificación por campo de documento del valor Boost

7.3.4 Clasificación BoostingTermQuery

7.4 Clasificación de recuperación de objetos

7.4.1 Descripción general de la clasificación de objetos

7.4 .2 Clasificación por relevancia de los objetos de clasificación

7.4.3 Clasificación de los números de documentos de los objetos de clasificación

7.4.4 Clasificación de campos individuales de los objetos de clasificación

7.4. 5 Clasificación de dominio conjunto de objetos< /

p>

7.4.6 Clasificación inversa de objetos ordenados

7.5 Fórmula de correlación de Lucene

7.5.1 Análisis de los resultados de puntuación de Lucene

7.5 .2 Fórmula de clasificación de Lucene

7.5.3 Otra clasificación dinámica

7.5.4 Clasificación de dominio único de objetos de clasificación

7.5.5 Clasificación de clasificación de dominio conjunto objetos

p>

7.5.6 Clasificación inversa de objetos ordenados

7.5.1 Análisis de los resultados de puntuación de Lucene

7.5.2 Fórmula de clasificación de Lucene

7.5.3 Otros factores de clasificación dinámica

7.6 Clasificación personalizada de Lucene

7.6.1 Interfaz de comparación de clasificación personalizada

7.6.2 Personalizada Ejemplo de clase de interfaz de clasificación

7.6.3 Ejemplo de prueba de resultado de clasificación personalizado

7.6.4 Resultado de prueba de clasificación personalizado

7.7 Resultado de clasificación en Nutch

7.7.1 Factores de clasificación de Nutch

7.7.2 Análisis de enlaces de Nutch

7.7.3 Cálculo de correlación de Nutch

7.8 Resumen 8.1 Análisis de documentos y segmentación de palabras chinas Principio

8.1.1 Descripción general del preprocesamiento del análisis de documentos

8.1.2 Proceso básico de análisis de documentos

8.1.3 Segmentación de palabras en el análisis y procesamiento de chinos

8.2 Principio central del analizador Lucene

8.2.1 Principio del analizador Lucene

8.2.2 Introducción al paquete de análisis

8.2.3 Arquitectura de combinación del analizador

8.2.4 Segmentación de palabras chinas

8.2.5 Segmentación de palabras chinas

8.2.6 Segmentación de palabras chinas

8.2.7 Palabra china segmentación

p>

8.2.3 Arquitectura combinada de clases de analizador

8.2.4 Analizador de construcción JavaCC

8.2.5 Análisis del código del kernel StopAnalyzer

8.2 .6 Análisis del código del kernel StandardAnalyzer

8.3 Modo de aplicación del analizador Lucene

8.3.1 Utilice el analizador predeterminado para crear índices

8.3.2 Utilice múltiples analizadores Indexación

8.3.3 Consultas de recuperación mediante analizadores

8.4 Ejemplos de los principales analizadores de Lucene

8.4.1 StopAnalyzer, un analizador de palabras vacías

p>

8.4.2 StandardAnalyzer

8.4.3 Analizador simple SimpleAnalyzer

8.4.4 WhitespaceAnalyzer

8.4.5 KeywordAnalyzer

8.5.6 LowerCaseTokenizer

8.6 Análisis del núcleo del filtro TokenStream

8.6.1 Filtro TokenFilter

8.6.2 Filtro estándar StandardFilter

8.6.3 Filtro de parada StopFilter

8.6.4 Filtro de letras minúsculas LowerCaseFilter

8.6.8.7.3 Analizador chino CJKAnalyzer

8.7.

Analizador

8.7.5 IK_CAnalyzer Analizador de chino

8.7.6 Utilice CSCLAS para la segmentación de palabras chinas

8.7.7 JE Segmentación de palabras chinas

8.7.8 Problema de segmentación de palabras chinas

8.8 Segmentación y preprocesamiento de palabras Nutch

8.8.1 Analizador Nutch

8.8.2 Segmentación de palabras chinas Nutch

8.9 Resumen 9.1 Introducción al texto no estructurado

9.1.1 Descripción general del texto no estructurado

9.1.2 Recuperación de texto no estructurado

9.2 Análisis de documentos HTML

9.2.1 Analizador de documentos HTML convencional

9.2.2 Instalación y configuración de HTMLParser

9.2.3 Marco HTMLParser

9.2.3 HTMLParser arquitectura del marco

9.3 Ejemplos de aplicaciones de HTMLParser

9.3.1 Modo funcional de HTMLParser

9.3.2 Modo de análisis de contenido de HTMLParser

9.3.3 Análisis de texto en modo visitante

9.3.4 Extracción de enlace simple en modo filtro

9.3.5 Extracción de enlace de búsqueda en modo filtro

9.3 .6 El modo Lexer atraviesa documentos

9.8 Análisis de documentos XML

9.8.1 Analizadores de documentos XML convencionales

9.8.2 Instalación y configuración del analizador JDOM

9.8.3 Instalación y configuración del analizador xerces

9.9 Ejemplo de aplicación de análisis XML

9.9.1 Utilice JDOM para analizar documentos XML

9.9.2 Utilice xerces para analizar documentos XML

9.10 Procesamiento de documentos Nutch

9.11 Resumen 10.1 Recuperación distribuida y almacenamiento en caché

10.2 Ejemplo de aplicación de análisis XML 1.1 Distribuido Estado actual de las tecnologías de motores de búsqueda

10.1.1 Motores de búsqueda distribuidos

10.1.2 Principios de los motores de búsqueda distribuidos

10.1.3 Tecnología de almacenamiento en caché de motores de búsqueda Situación actual

10.1.4 Principios de Almacenamiento en caché del motor de búsqueda

10.2 Nutch y recuperación distribuida

10.2.1 Sistema de archivos distribuido de Google

10.2.2 Introducción al sistema MapReduce

10.2 .3 Sistema de archivos distribuido Hadoop

10.2.4 Sistema de archivos distribuido Nutch

10.2.5 Descripción general de la búsqueda distribuida de Nutch

10.2.6 Recuperador de búsqueda distribuido de Nutch

10.3 Búsqueda distribuida de Lucene

10.3.1 Conceptos básicos de comunicación de socket

10.3.2 Servidor de índices de Lucene

10.4 Nutch y caché de búsqueda

10.5 Sistema de almacenamiento en caché de código abierto

10.6 Resumen 10.