Red de conocimiento informático - Conocimiento sistemático - ¿Cómo resuelve el rastreador el problema del bloqueo de IP?

¿Cómo resuelve el rastreador el problema del bloqueo de IP?

En términos generales, la estrategia anti-rastreo de un sitio web incluye: detectar la frecuencia de rastreo, la cantidad de conexiones simultáneas, los encabezados de solicitud HTTP que contienen el referente y el UserAgent, comparar los registros del sitio web y los registros de acceso, determinar la cantidad de visitas de UserAgent y IP, y detectar Esta dinámica a través de estos datos ¿Se trata de un rastreador o del comportamiento personal del usuario?

El más común es determinar la frecuencia y simultaneidad de sus solicitudes. Si envía una gran cantidad de solicitudes en un corto período de tiempo, es decir, su velocidad de rastreo es muy rápida, entonces juzgará directamente que usted es un rastreador. En este momento, primero bloquearé su IP para evitar sobrecargar mi sitio web.

Entonces, ¿cómo respondemos a estas estrategias? Todos estos métodos son diferentes:

1. El rastreador disfraza el clic del navegador

Primero, comprendamos la ejecución del código del sitio web. Primero, enviamos una solicitud al servidor. En este momento, se ejecutarán php y java en segundo plano del servidor y luego el código del sitio web se enviará localmente. Cuando sea local, js y ajax se ejecutarán en el kernel del navegador. Entonces, en este momento sabemos que el rastreador no solo engañará el código phpjava, sino también el código js y ajax.

2. Usa un proxy

Sube demasiado rápido y definitivamente serás bloqueado. Escalar la montaña es demasiado lento y requiere mucho tiempo. Mucha gente dirá que puedes utilizar un agente. El llamado proxy es un tercero entre el usuario y el sitio web: el usuario primero envía una solicitud al proxy y luego el proxy la envía al servidor. Parece que el proxy está accediendo a ese sitio web, logrando la ilusión de. cambiando constantemente de IP. Hay muchos servidores proxy gratuitos en línea, pero muy pocos son utilizables. Si no desea comprar un agente pago, puede aprender.

3. Reducir la frecuencia de visitas

Si no encuentras un buen agente libre y no quieres pagar, la mejor manera es reducir la frecuencia de visitas. Al hacerlo, se consigue el mismo efecto que utilizar un proxy: evitar que la otra parte vea el tráfico. Por ejemplo, descanse unos segundos cada vez que se rastree una página y limite la cantidad de páginas rastreadas por día. Por supuesto, la eficiencia del rastreo será mucho peor, porque si la cantidad de datos es grande, llevará mucho tiempo.