Cómo desactivar los rastreadores en servidores Windows
Un número significativo de rastreadores pueden generar una gran carga en un sitio web, por lo que identificar la IP de origen del rastreador es una tarea sencilla. La forma más sencilla es utilizar netstat para comprobar la conexión en el puerto 80:
netstat -nt | grep youhostip:80 | awk '{print $5}' | awk -F":" '{print $1} ' | sort | uniq -c | sort -r -n
Esta línea de shell le permite identificar visualmente los rastreadores web clasificando las IP de origen según la cantidad de conexiones en el puerto 80. El número de conexiones simultáneas de rastreadores es generalmente muy alto.
Si usa lig/search/spider.htm)
56639 HTTP_USER_AGENT Mozilla/5.0 (compatible; Googlebot/2.1; /bot.html)
42610 HTTP_USER_AGENT Mediapartners.AGENT Mediapartners-Google
19131 HTTP_USER_AGENT msnbot/2.0b ( /msnbot.htm)
Desde el registro, puede ver visualmente el número de solicitudes para cada rastreador. Según la información del User-Agent (lig/csdn-dev/limiter
Es fácil bloquear rastreadores
Esta estrategia es más inteligente, ¡pero no lo suficientemente buena! Podemos seguir mejorando:
p>
1. Utilice el sistema de estadísticas de tráfico del sitio web para mejorar el sistema anti-rastreo en tiempo real.
¿Recuerda que la dirección IP registrada por el sistema de estadísticas de tráfico del sitio web es? La IP de acceso del usuario real, por lo que también debemos verificar el tráfico del sitio web, Memcached se opera en el sistema de estadísticas, pero esta vez no es para aumentar el valor de cálculo, sino para disminuir el valor de conteo dentro del sistema de estadísticas de tráfico del sitio. Se realizarán las acciones correspondientes para cada solicitud de IP recibida. cache.decrease(key). Por lo tanto, para la IP de un usuario real, su valor de recuento siempre aumenta en 1 y luego disminuye en 1, que no puede ser muy alto. podemos reducir en gran medida el umbral de juicio de los rastreadores para identificarlos y rechazarlos de forma más rápida y precisa.
2. Utilice ventanas de tiempo para mejorar el rendimiento en tiempo real del sistema anti-rastreadores.
La frecuencia de los rastreadores que rastrean las páginas web es relativamente fija. A diferencia de cuando las personas visitan las páginas web, los intervalos son relativamente irregulares, por lo que podemos crear una ventana de tiempo para cada dirección IP y registrar la hora de las últimas 12 visitas de la dirección IP en cada ventana. se registra. Se deslizará una vez y comparará la hora de acceso más reciente con la hora actual. Si la hora de acceso más reciente con la dirección IP es la misma que la hora actual, si el intervalo entre la hora de acceso más reciente y la hora actual es. es muy largo, se determina que no es un rastreador y la ventana de tiempo se borrará. Si el intervalo no es largo, la ventana de tiempo se borrará dentro del tiempo especificado
<. p> Intervalo, si la frecuencia de acceso excede el umbral, vaya a la página del código de verificación y deje que el usuario complete el código de verificaciónFinalmente, este sistema anti-rastreo en tiempo real todavía está relativamente completo. Puede identificar rápidamente y bloquear automáticamente el acceso del rastreador para proteger el acceso normal al sitio web. Sin embargo, algunos rastreadores pueden ser bastante astutos y pueden probar el suyo mediante una gran cantidad de pruebas de acceso. a una velocidad de rastreo inferior al umbral, por lo que también necesitamos un tercer método para ayudar, utilizando registros para su posterior análisis e identificación, incluso si la velocidad de rastreo del rastreador es más lenta.
El número de rastreos que acumula un día también superará su umbral y será identificado por su analizador de registros