Red de conocimiento informático - Problemas con los teléfonos móviles - Cómo configurar el archivo Robots en el archivo robots

Cómo configurar el archivo Robots en el archivo robots

Qué establece el código robots.txt y cómo configurarlo robots.txt debe colocarse en el directorio raíz de un sitio y el nombre del archivo debe estar todo en minúsculas. El formato del archivo robots.txt

Agente de usuario: define el tipo de motor de búsqueda.

No permitido: Define direcciones que los motores de búsqueda tienen prohibido incluir.

Permitir: define direcciones que los motores de búsqueda pueden incluir.

Los tipos de motores de búsqueda más utilizados son: (el agente de usuario distingue entre mayúsculas y minúsculas)

Google: Google Robot

Baidu: Baiduspider

Araña: ¡Yahoo! Comer en voz alta

Alexaspider:ia_archiver

Ice Spider:MSNbot

Altavista Spider:Scooter

Lycosspider:lycos_spider_(Tyrannosaurus rex)

Todas las arañas web: rastreadores web rápidos

Mektomi Spider: Gudu

Sousou Spider

Google Adsense Spider: Media Partner-Google

Spider: Youdao Robot

Escritura del archivo robots.txt

Agente de usuario: *aquí* representa varios motores de búsqueda, *es comodín.

Disallow:/admin/La definición aquí es prohibir el rastreo de directorios bajo el directorio de administración.

Disallow:/require/La definición aquí es prohibir el rastreo de directorios bajo el directorio require.

No permitir:/ABC/La definición aquí es prohibir el rastreo de directorios en el directorio ABC.

No permitido:/cgi-bin/*. Está prohibido el acceso a todos los archivos que comienzan con "." en el directorio /cgi-bin/. htm

La siguiente directiva indica que el robot de búsqueda puede continuar rastreando los enlaces de la página;

Los valores predeterminados de la metaetiqueta Robots son index y follow, excepto para inktomi, cuyo valor predeterminado es index y nofollow.

Tenga en cuenta:

Las etiquetas ROBOTS.txt y RobotsMeta anteriores impiden que los robots de los motores de búsqueda rastreen el contenido del sitio. Son simplemente reglas las que requieren que los robots de los motores de búsqueda cooperen, y no todos los robots las siguen.

En la actualidad, parece que la gran mayoría de los robots de los motores de búsqueda cumplen con las reglas de robots.txt. Sin embargo, actualmente no hay mucho soporte para la etiqueta RobotsMETA, pero está aumentando gradualmente. Por ejemplo, el famoso motor de búsqueda GOOGLE lo admite totalmente. GOOGLE también ha agregado el comando "archivar", que puede limitar si GOOGLE conserva instantáneas de páginas web.

¿Alguien sabe cómo conseguir que los motores de búsqueda indexen su sitio web rápidamente?

1. Envíe un enlace

Si desea que los motores de búsqueda indexen rápidamente su sitio web recién lanzado, envíe el enlace a su sitio web al motor de búsqueda solo después de enviarlo. al motor de búsqueda se puede incluir el enlace. Equivale a decirle al motor de búsqueda que he creado un nuevo sitio web y que puedes venir y rastrearlo. Generalmente, envía enlaces a su sitio web en motores de búsqueda como Baidu, 360, Sogou, etc.

2. Plantillas de sitios web

En cuanto a las plantillas de sitios web, en realidad no existe ningún método especial. De hecho, hay muchos sitios web para webmasters que se adaptan directamente de las plantillas de otros sitios web. Lo que quiero decir aquí es que si aplica las plantillas de otros sitios web, es mejor simplemente modificar el sitio web para que no lo sea. exactamente igual que el sitio web anterior, al menos desde el punto de vista del motor de búsqueda. Su sitio web es diferente de otros sitios web. Quizás algunos sitios web corporativos no se preocupen por este problema. Lo que mencioné anteriormente es solo para sitios web que aplican plantillas.

3. Contenido del sitio web

Este aspecto del contenido del sitio web es a lo que presto especial atención, y a lo que los motores de búsqueda prestan más atención es a la originalidad del contenido. que a los motores de búsqueda les gusta mucho, creo que todos lo saben, los artículos originales se recopilan mucho más rápido que los artículos no originales.

Por lo tanto, cuando el sitio web esté en línea, primero debe agregar algo original, para que a los motores de búsqueda les guste su sitio web cuando lleguen, creando así una buena "impresión" de su sitio web, lo cual es muy importante para el desarrollo de su sitio web en El futuro es beneficioso y también puede acelerar su inclusión por parte de Baidu.

4. Enlaces externos

Para un sitio web recién lanzado, si desea que Baidu incluya rápidamente su sitio web, es esencial crear enlaces externos.

5. Otros factores

Otros aspectos como: configurar archivos robots, mapas del sitio, actualizar el sitio web y publicar enlaces externos todos los días

Cómo utilizar burpsuitev1.5.18?

1) Proxy (proxy)

La función de proxy nos permite interceptar y modificar solicitudes. Para poder interceptar solicitudes y operar sobre ellas debemos configurar nuestro navegador a través de BurpSuite. /p>

Una vez configurado en el navegador, abra BurpSuite y vaya al elemento Proxy para realizar la Intercepción (truncamiento). Debe asegurarse de la interceptación.

Abra la etiqueta de alertas y podrá ver eso. el proxy se está ejecutando en el puerto 8080. Podemos modificar esta configuración en Proxy_>opciones.

Abra la pestaña de opciones en Proxy

Aquí podemos editar el puerto que está escuchando el proxy. encendido, e incluso agregar uno nuevo. El proxy escucha. Burp también tiene la opción de enviar un certificado a un sitio web protegido por SSL. De forma predeterminada, Burp crea un certificado autofirmado inmediatamente después de la instalación. " está seleccionada, la función de certificado de Burp generará un certificado que podemos vincular El certificado firmado por un host específico. Lo único que nos importa aquí es reducir la cantidad de mensajes de advertencia del sitio web cuando un usuario se vincula a un sitio web protegido por SSL .

Si desmarcamos la opción "listenonloopbackinterfaceonly" " significa que BurpProxy puede actuar como proxy para otros sistemas en la red. Esto significa que cualquier computadora en la misma red puede usar la funcionalidad BurpProxy para convertirse en un proxy y retransmitir tráfico a través de él.

La opción "supportinvisibleproxyingfornon-proxy-awareclient" es para clientes que no saben que están El uso es el caso con un proxy. Esto significa que la configuración del proxy no se establece en el navegador, a veces se establece en el archivo de hosts. En este caso, a diferencia de configurar la opción de proxy en el propio navegador, Burp necesita saberlo. es Las opciones "redirecttohost" y "redirecttoport" que reciben tráfico de un cliente que no es proxy redirigen al cliente al host y al puerto que configuramos después de la opción.

De manera similar, podemos interceptar la solicitud y devolver la respuesta de acuerdo con las reglas que especifiquemos.

Existe una opción para modificar la página html recibida de la respuesta. Podemos mostrar campos de formulario, eliminar javascript, etc. También existe una opción para reemplazar el patrón específico encontrado con una cadena personalizada. Necesitamos especificar una expresión regular.

Burp analizará la solicitud o respuesta con la esperanza de encontrar este patrón y la reemplazará con una cadena personalizada.

2) Spider (grab)

BurpSpider utiliza para mapear aplicaciones web Tomará automáticamente enlaces a aplicaciones web y enviará todos los formularios de inicio de sesión que encuentre, analizando así toda la aplicación en detalle. Estos enlaces se pasarán a BurpScanner para un análisis detallado. En este caso, usaremos DVWA (DamnVulnerableWebApplication). DVMA con su navegador, asegúrese de que no haya errores en BurpSuite y haga que Brup intercepte la solicitud, haga clic derecho en la solicitud interceptada y seleccione "SendtoSpider" para enviarla a la araña.

A continuación, aparecerá una ventana emergente de advertencia. Aparecerá una ventana emergente que nos pedirá "additemtoscope (agregar elemento al alcance)". Haga clic en "Sí" y se definirá un alcance en el objetivo de prueba que ejecutamos.

Podemos ver que se ha creado una URL. agregado al alcance en el mapa del sitio_>etiqueta de destino. También podemos ver que se han agregado algunos otros objetivos a la lista de objetivos. Burp usará automáticamente un proxy para navegar por la página web de destino que definimos. additemtoscope (Agregar elemento al alcance)" para agregar cualquier elemento a nuestro alcance.

Ingrese a la pestaña Alcance, podemos ver que la aplicación DVWA se ha agregado al alcance.

Ingrese la pestaña Alcance.

p>

A continuación vamos a la pestaña Spider y hacemos clic en "opciones". Podemos configurar varias opciones al ejecutar la aplicación de detección de Burp. No tengo el archivo robotx.txt que Burp. Puede comprobarlo (checkfortherobots.txt), intentará rastrear directorios que el webmaster no permite que los motores de búsqueda indexen. Otra opción importante es "passivelyspiderasyoubrowse". Básicamente, BurpSpider puede ejecutarse en modo pasivo y activo. Elegir esto requiere que BurpSpider mantenga el contenido nuevo y los enlaces escaneados porque usamos Burpproxy cuando navegamos por la aplicación.

Otra opción importante es "iniciar sesión en la aplicación". BurpSpider comienza a rastrear (rastrear) una vez que envía un formulario de inicio de sesión. Puede enviar automáticamente el certificado que le proporcionamos. También puede configurar las credenciales de administrador/contraseña. al configurarlas, se usarán como credenciales en DVWA. Por lo tanto, BurpSpider puede enviar automáticamente esas credenciales de información y seguir rastreando con la esperanza de obtener más información nueva. También puede modificar la cantidad de subprocesos en el elemento del subproceso.

Tutorial de uso de BurpSuite

Si necesita comenzar a rastrear y capturar aplicaciones web, solo necesita hacer clic derecho en el objetivo para expandirlo. Luego, en el dvwa expandido, haga clic derecho en el elemento y. seleccione "Spiderthisbrach"

Esto iniciará BurpSpider. Bajo la etiqueta Spidercontrol, veremos que se realiza la solicitud. También podemos personalizar un alcance para BurpSpider.

Qué hacen los "robots". " archivo en el sitio web significa?

La herramienta utilizada por los motores de búsqueda para rastrear nuestras páginas se llama robot de motor de búsqueda, también llamado "araña".

Antes de rastrear la página del sitio web, la araña primero visitará el directorio raíz del sitio web. Uno de los archivos es robots.txt. Este archivo son en realidad las reglas para las "arañas". Sin este archivo, las arañas pensarán que su sitio web acepta rastrear todas las páginas web.

El archivo Robots.txr es un archivo de texto sin formato que puede indicarle a la araña qué páginas se pueden rastrear (incluidas) y qué páginas no se pueden rastrear.

Por ejemplo: cree un archivo de texto llamado robots.txt y luego ingrese User-agent:*. El asterisco indica que todos los motores de búsqueda pueden incluirse Disallow:index.php? por índice no está permitido Enlaces con el prefijo php?, como index.php?=865Disallow:/tmp/, significa que no se permite incluir el directorio tmp en el directorio raíz, incluidos archivos en el directorio. tmp/232.html