Cómo evitar que roben tu sitio web
1>La información clave se obtiene mediante una solicitud ajax, preferiblemente una solicitud con un token temporal como parámetro. El sitio web necesita comprimir y ofuscar el código JavaScript cuando se publica, por lo que a los programadores les resulta difícil crear colecciones simuladas leyendo el código o capturando solicitudes. La información clave mencionada aquí se refiere al tipo de información que es más importante para los pares de la industria, como los precios. Además de esta información clave, es mejor no utilizar solicitudes ajax para mostrar información. Esto no favorece la optimización SEO y las arañas de los motores de búsqueda no pueden simular solicitudes ajax tan complejas. Además, si hay paginación, asegúrese de utilizar la solicitud ajax para la paginación. Para ver ejemplos específicos, puede consultar la página de inicio de Huaban.com. En cuanto a la obtención de datos a través de solicitudes de formulario, algunos recopiladores ya pueden simular solicitudes de formulario con información de sesión o de cookies, al menos Jsoup puede hacerlo.
2>La información clave se muestra a través de imágenes. Esta es una defensa de tecnología relativamente baja. La única ventaja es que es beneficiosa para la optimización SEO, porque la imagen transmite información más rica a través de alt. Los precios de los productos de Jingdong se muestran mediante imágenes. La información de precios recopilada por el recopilador debe ser reconocimiento de texto OCR. Si realiza algunos trucos en el formato de las imágenes o agrega información confusa, la precisión de la información recopilada por otros se reducirá considerablemente. . Otro beneficio de mostrar imágenes es que puede aislar el servidor de imágenes y luego usar la configuración del firewall para permitir solo solicitudes de nombres de dominio conocidos.
3>Confusión estructural del código de la página web. En pocas palabras, la visualización de información clave no es regular. Este enfoque tiene requisitos relativamente altos para los desarrolladores de sitios web. Después de todo, HTML es un lenguaje estructurado. Es difícil delinear una hermosa interfaz estructurada a través de etiquetas HTML irregulares, pero no imposible. Por ejemplo, para una lista de precios de productos en la misma página, puede encapsularla aleatoriamente con etiquetas de texto como div, li, span, etc., y luego personalizar el CSS para lograr un diseño estandarizado. Para listas de precios en diferentes páginas (paginación), la identificación o clase del div de nivel superior es diferente y no existe un patrón con la identificación de otras páginas. Hacer esto dificultará que el programa de recopilación descubra los patrones de recopilación, lo que aumentará en gran medida la dificultad de la recopilación. Incluso si se puede recopilar, la eficiencia será bastante baja. Básicamente, este enfoque no afecta la optimización SEO.
Pero dicho esto, no importa qué tipo de medidas defensivas tomes, es imposible defenderte contra verdaderos maestros, siempre y cuando puedas defenderte contra el 98% de las personas. Para el 2% restante, si descubres que tus datos han sido recopilados, toma medidas legales. Hace algún tiempo, Dianping demandó a Food God Shake por plagio de datos, lo cual es un buen ejemplo.