Red de conocimiento informático - Conocimiento informático - Funciones del programa ladrón

Funciones del programa ladrón

1. Más del 80% de los sitios web se pueden recopilar simplemente configurando las reglas de recopilación y reemplazo en segundo plano.

2. Rompiendo el sistema anti-hotlinking de imágenes, puede descargar imágenes desde el sitio de destino al servidor, mejorar la eficiencia del acceso a las imágenes de Baidu y aumentar la inclusión de Baidu.

3. Admite la generación estática Incluso si el servidor del sitio de destino falla, el sitio no se verá afectado (siempre que la generación estática esté activada y las imágenes se descarguen al servidor local).

4. La versión autorizada puede habilitar la función de subestación nacional y generar automáticamente palabras clave de cola larga, lo cual es adecuado para industrias de servicios nacionales y servicios de consulta de información.

Código de idioma 1.Perl

#! /usr/bin/perl

##Puede ver el contenido del archivo HTML a través de [Ver]->[Archivo fuente] en el navegador IE.

# perl puede obtener directamente el contenido del archivo HTML sin usar el navegador, use

# es el módulo de perl libWW

use estricto;

usa LWP::UserAgent;

usa threads::shared

my $URL = /cgi-bin/news_qq_search?city=&city&

aquí ha configurado la dirección de la página que se rastreará. Por supuesto, también puede especificar la dirección directamente sin usar variables

wstr=getHTTPPage(url) para obtener todos los datos de la página especificada

start=Newstring (wstr, <html>)

Aquí configuramos el título de los datos a procesar. Esta variable debe configurarse de acuerdo con la situación específica. Para estar seguro, consulte el código fuente de la página que debe rastrearse. Debido a que en este programa necesitamos rastrear toda la página, debemos configurar la página para que rastree todo. Tenga en cuenta que la configuración del contenido de la página debe ser única y no puede repetirse.

over=Newstring(wstr,)

Y el inicio corresponde a la posición final de los datos que deben procesarse. Asimismo, esta configuración debe ser única para el. página.

body=mid(wstr,start,over-start)

'Establece el rango de la página mostrada

Entonces es hora de usar dry++++, los datos pueden ser reemplazado con un número específico de caracteres mediante reemplazo.

cuerpo = reemplazar(cuerpo,skin1,Sina Weather Forecast-Maitie.com)

cuerpo = reemplazar(cuerpo,/cgi-bin/news_qq_search?city,tianqi.asp?id )

Se han realizado reemplazos en este programa. Si tiene otras necesidades, puede continuar realizando reemplazos similares.

response.write body

%>

Después de reemplazar el contenido que necesita modificarse, puede mostrar el contenido modificado en la página. El programa termina aquí