Cómo determinar con precisión si una solicitud la realiza un rastreador de motor de búsqueda (spider)
Los sitios web suelen ser visitados por varios rastreadores, algunos son rastreadores de motores de búsqueda y otros no. Por lo general, estos rastreadores tienen UserAgent, y sabemos que UserAgent se puede disfrazar. La esencia de UserAgent es el encabezado de solicitud HTTP. Una configuración de opción en , puede configurar mediante programación cualquier UserAgent para la solicitud.
Por lo tanto, no es confiable utilizar UserAgent para determinar si el iniciador de la solicitud es un rastreador de motor de búsqueda (spider). Un método más confiable es determinar si el nombre de host correspondiente a la IP del solicitante es una búsqueda. motor.El método de host del propio motor se utiliza para juzgar.
Para obtener el host de la ip, puede usar el comando nslookup en Windows y el comando host en Linux. Por ejemplo:
Aquí ejecuté nslookup ip en Windows. Puede ver en la imagen de arriba que el nombre de host de esta IP es crawl-66-249-64-119.googlebot.com. Esto muestra que esta IP es un rastreador de Google y los nombres de dominio de los rastreadores de Google son todos xxx.googlebot.com.
También podemos obtener la información del host de la IP a través del programa Python. de la siguiente manera:
importar socket
def getHost(ip):
intentar:
result=socket.gethostbyaddr(ip)
si resultado: devuelve resultado[0], Ninguno
excepto socket.herror,e:
devuelve Ninguno, e.message
El código anterior utiliza el módulo de socket. El método gethostbyaddr obtiene el nombre de host de la dirección IP.
Los nombres de dominio de las arañas de uso común están relacionados con los nombres de dominio del sitio web oficial del motor de búsqueda, por ejemplo:
Las arañas de Baidu suelen ser subdominios de baidu.com o baidu.jp.
El rastreador de Google suele ser un nombre de subdominio de googlebot.com
El rastreador del motor de búsqueda de Microsoft Bing es un nombre de subdominio de search.msn.com
Sogou Spider es un nombre de subdominio de crawl.sogou.com
Basado en los principios anteriores, escribí una página de herramientas para proporcionar una página de herramientas para juzgar si la IP es un motor de búsqueda real. Esta página proporciona herramientas para juzgar la web. páginas y las direcciones IP de los rastreadores de motores de búsqueda comunes de Google y Bing.
Los segmentos de IP de araña de motores de búsqueda comunes incluyen:
Nombre de araña
Dirección IP
Baiduspider
202.108. 11.* 220.181.32.* 58.51.95.* 60.28.22.* 61.135.162.* 61.135.163.* 61.135.168.*
YodaoBot
202.108. 7.215 202.108.7.220 202.108.7.221
Araña web Sogou
219.234.81.* 220.181.61.*
Googlebot
203.208 .60.*
Yahoo! Slurp
202.160.181.* 72.30.215.* 74.6.17.* 74.6.22.*
Yahoo ContentMatch Rastreador
119.42.226.* 119.42.230.*
Sogou-Test-Spider
220.181.19.103 220.181.26.122
Twiceler
38.99.44.104 64.34.251.9
Yahoo! Slurp China
202.160.178.*
Sosospider
124.115.0.*
CollapsarWEB qihoobot
221.194.136.18
NaverBot
202.179.180.45
Araña Sogou Orion
220.181.19.106 220.181.19.74
Araña cabeza Sogou
220.181.19.107
SurveyBot
216.145.5.42 64.246.165.160
Yanga WorldSearch Bot v
77.91.224.19 91.205.124.19
baiduspider-mobile-gate
220.181.5.34 61.135.166.31
discobot
208.96.54.70
ia_archiver
209.234.171.42
msnbot
65.55.104.209 65.55.209.86 65.55.209.96
sogou en spider
220.181.19.216
ps: página web del protocolo https ¿Pueden incluirlo los motores de búsqueda?
Baidu solo puede incluir una pequeña cantidad de páginas https y la mayoría de las páginas https no se pueden incluir.
Sin embargo, verifiqué la información de Google y descubrí que Google puede incluir mejor sitios web con protocolo https.
Entonces, si su sitio web está en chino y presta más atención al ranking natural del tráfico de los motores de búsqueda, se recomienda que intente no cifrar todo el contenido en https.
Las formas a considerar son:
1. Para los datos que deben cifrarse y transmitirse, utilice https, como el inicio de sesión del usuario y la información de inicio de sesión del usuario;
2. Para noticias e imágenes normales, se recomienda utilizar el protocolo http para la transmisión;
3. Se recomienda utilizar el protocolo http para la página de inicio del sitio web.