Red de conocimiento informático - Conocimiento de Internet de las cosas - Cómo prohibir a Baidu indexar páginas especiales

Cómo prohibir a Baidu indexar páginas especiales

Primero comprendamos qué es el archivo robots.txt y qué hace.

La herramienta utilizada por los motores de búsqueda para rastrear nuestras páginas se llama robot de motor de búsqueda, también llamado "araña".

Antes de rastrear la página del sitio web, la araña primero visitará el directorio raíz del sitio web. Uno de los archivos es robots.txt. Este archivo son en realidad las reglas para las "arañas". Sin este archivo, las arañas pensarán que su sitio web acepta rastrear todas las páginas web.

El archivo Robots.txr es un archivo de texto sin formato que puede indicarle a la araña qué páginas se pueden rastrear (incluidas) y qué páginas no se pueden rastrear.

Por ejemplo: cree un archivo de texto llamado robots.txt y luego ingrese

Agente de usuario: * El asterisco indica que se permite incluir todos los motores de búsqueda

Disallow: index.php? significa que no se permite incluir enlaces con el prefijo index.php?, como index.php?=865

Disallow: /tmp/ significa que el directorio tmp No se permite incluir archivos en el directorio raíz, como tmp/232.html

Baidu y Google tienen explicaciones sobre cómo usarlo. /p>

El archivo Robots.txt puede ayudarnos. Los motores de búsqueda tardan entre 30 y 50 días en eliminar las páginas incluidas.