Red de conocimiento informático - Material del sitio web - Cómo escribir robots.txt

Cómo escribir robots.txt

Escrito por robots.txt. Escribir robots.txt es algo que el personal de SEO debe saber (qué es robots.txt), pero cómo escribirlo, qué está prohibido y qué está permitido, tenemos que configurarlo nosotros mismos.

Baidu es una máquina. Solo conoce números, letras y caracteres chinos, y robots.txt es el contenido más importante y el primero en "dialogar" con Baidu.

Cuando nuestro sitio web no está creado, no queremos que Baidu lo rastree y algunas personas a menudo prohíben que Baidu lo rastree. Pero este enfoque es muy malo y dificultará que las arañas de Baidu vuelvan a visitar su sitio web. Por lo tanto, debemos configurar un sitio web local ahora y esperar hasta que todo esté hecho antes de comprar un nombre de dominio. De lo contrario, las modificaciones repetidas de un sitio web tendrán ciertos efectos adversos en su sitio web.

Nuestro sitio web fue escrito originalmente como robots.txt de la siguiente manera:

Agente de usuario: *

No permitido: /wp-admin/

No permitido: /wp-includes/

Agente de usuario: * significa que todos los motores pueden rastrear.

Disallow:/wp-admin/ y Disallow:/wp-includes/ prohíben a Baidu rastrear nuestra privacidad, incluidas contraseñas de usuario, bases de datos, etc. Esta forma de escribir no solo protege nuestra privacidad, sino que también maximiza el rastreo de las arañas Baidu.

Si desea prohibir que Baidu Spider rastree una página determinada, como 123.html, simplemente agregue un código "Prohibido: /123.html/".

Una vez escrito el archivo robots.txt, solo necesita cargarlo en el directorio raíz del sitio web.

¿Qué carpeta es robot?

El archivo robots.txt es un archivo de texto que se puede crear y editar utilizando cualquier editor de texto común, como el Bloc de notas que viene con el sistema Windows. robots.txt es un protocolo, no un comando. robots.txt es el primer archivo que miran los motores de búsqueda cuando visitan un sitio web. El archivo robots.txt le dice a la araña qué archivos del servidor se pueden ver.

¿Qué protocolo es robot?

El protocolo robots, también llamado robots.txt (uniformemente en minúsculas), es un archivo de texto codificado en ASCII almacenado en el directorio raíz del sitio web y que normalmente se lo indica a los robots de los motores de búsqueda de Internet (también conocido como. arañas web), a qué contenido de este sitio web no deben acceder los robots de los motores de búsqueda y a qué contenido pueden acceder los robots. Debido a que las URL en algunos sistemas distinguen entre mayúsculas y minúsculas, el nombre del archivo robots.txt debe estar uniformemente en minúsculas. robots.txt debe colocarse en el directorio raíz del sitio web.

¿Qué son las restricciones de permisos de robots de sitios web?

Robots es un acuerdo entre el sitio web y el rastreador. Utiliza un texto en formato txt simple y directo para indicarle al rastreador correspondiente los permisos permitidos.

En otras palabras, robots.txt. es el primer archivo del motor de búsqueda que mira cuando visita un sitio web. Cuando una araña de búsqueda visita un sitio, primero comprobará si existe el archivo robots.txt en el directorio raíz del sitio. Si existe, el robot de búsqueda seguirá las instrucciones. en el contenido del archivo para determinar el alcance del acceso; si el archivo no existe, todas las arañas de búsqueda podrán acceder a todas las páginas del sitio web que no estén protegidas con contraseña.

¿Qué es el Protocolo Abierto de Robot?

El protocolo de robots, también conocido como protocolo de rastreador, reglas de rastreador y protocolo de robot, es un código ético común en la comunidad internacional de Internet para sitios web. Su propósito es proteger los datos del sitio web y la información confidencial y garantizar que los usuarios. 'No se infringe la información personal ni la privacidad.

Las "Reglas" estipulan el alcance del contenido del sitio web rastreado por los motores de búsqueda, incluido si el sitio web desea ser rastreado por los motores de búsqueda y qué contenido no se permite rastrear, y los rastreadores web pueden rastrear automáticamente en consecuencia. Recuperar o no rastrear el contenido de la página web. Si piensa en un sitio web como en una habitación de un hotel, robots.txt es el cartel de "No molestar" o "Bienvenido a limpiar" colgado por el propietario en la puerta de la habitación. Este archivo indica a los motores de búsqueda visitantes qué salas se pueden ingresar y visitar, y qué salas no están abiertas a los motores de búsqueda.

robots.txt (uniformemente en minúsculas) es un archivo de texto codificado en ASCII almacenado en el directorio raíz de un sitio web. Generalmente indica a los robots de los motores de búsqueda de Internet (también conocidos como arañas web) cuál es el contenido. este sitio web A qué contenido no deben acceder los robots de los motores de búsqueda y a qué contenido pueden acceder los robots.

Debido a que las URL en algunos sistemas distinguen entre mayúsculas y minúsculas, el nombre del archivo robots.txt debe estar uniformemente en minúsculas. robots.txt debe colocarse en el directorio raíz del sitio web. Si desea definir individualmente el comportamiento de los robots de los motores de búsqueda al acceder a subdirectorios, puede fusionar configuraciones personalizadas en robots.txt en el directorio raíz o utilizar metadatos de robots.

上篇: ¿Por qué la caja de cambios del Volkswagen Lingdu salta a bajas velocidades? 下篇: ¿Cómo dibujar rápidamente Artai Pool con CAD?

Cómo escribir robots.txt

Artículos populares