Cómo prohibir a Baidu indexar páginas especiales
Primero comprendamos qué es el archivo robots.txt y qué hace.
La herramienta utilizada por los motores de búsqueda para rastrear nuestras páginas se llama robot de motor de búsqueda, también llamado "araña".
Antes de rastrear la página del sitio web, la araña primero visitará el directorio raíz del sitio web. Uno de los archivos es robots.txt. Este archivo son en realidad las reglas para las "arañas". Sin este archivo, las arañas pensarán que su sitio web acepta rastrear todas las páginas web.
El archivo Robots.txr es un archivo de texto sin formato que puede indicarle a la araña qué páginas se pueden rastrear (incluidas) y qué páginas no se pueden rastrear.
Por ejemplo: cree un archivo de texto llamado robots.txt y luego ingrese
Agente de usuario: * El asterisco indica que se permite incluir todos los motores de búsqueda
Disallow: index.php? significa que no se permite incluir enlaces con el prefijo index.php?, como index.php?=865
Disallow: /tmp/ significa que el directorio tmp No se permite incluir archivos en el directorio raíz, como tmp/232.html
Baidu y Google tienen explicaciones sobre cómo usarlo. /p>
El archivo Robots.txt puede ayudarnos. Los motores de búsqueda tardan entre 30 y 50 días en eliminar las páginas incluidas.