Protocolo de robots de motores de búsqueda
La velocidad de respuesta de Baidu a robots.txt es relativamente lenta. Reduce el rastreo de directorios prohibidos y también reduce el rastreo de directorios normales.
La razón debería ser que el número de entradas se ha reducido y la inclusión de directorios normales debe aumentarse gradualmente en el futuro.
La respuesta de Google al archivo robots.txt es muy precisa. Los directorios prohibidos desaparecen inmediatamente y algunos directorios normales se incluyen inmediatamente. El volumen de recopilación del directorio /comment/ también ha disminuido y todavía se utilizan algunos objetivos antiguos para reducir el impacto.
El número promedio de rastreos de Soogle muestra una tendencia general ascendente y la inclusión de algunos directorios prohibidos está disminuyendo.
En resumen: Google parece conocer mejor a los webmasters, y los motores de búsqueda como Baidu sólo son pasivos debido al número de inclusiones. Hace doce años, el Tribunal de Distrito de los Estados Unidos para el Distrito Norte de California citó el Acuerdo sobre Robots al fallar el famoso caso eBay vs. Bidder's Edge (NO.C-99-21200RMW, 2000 U.S. Dist. LEXI 7282). Fundado en 1997, Bidder's Edge (BE) es un sitio web de agregación especializado en información sobre subastas. Hace 12 años, BE utilizó "arañas" para obtener información sobre productos de muchos sitios web de subastas importantes, como eBay, y la colocó en su propio sitio web para que los usuarios pudieran navegar, generando así un gran tráfico a su propio sitio web.
En eBay, más de 100.000 visitas de BE Spider al día ejercen una enorme presión sobre sus servidores. Aunque eBay ya ha establecido un protocolo de robot que prohíbe el rastreo de las arañas BE, BE ha ignorado esta solicitud: se estima que el 69% de las subastas de BE provienen de eBay, y dejar de rastrear el contenido de eBay significará que Yi perderá al menos una -un tercio de sus usuarios.
Después de muchos intentos fallidos de comunicarse con eBay, eBay finalmente presentó una demanda contra BE en un tribunal federal en febrero de 2000, solicitando que se prohibiera a BE violar la ley. Tres meses después, el juez federal estadounidense que conoció el caso, Ronald M. Whyte, dictaminó que la infracción de BE era válida y le prohibió realizar subastas automatizadas sin el permiso de eBay. BE tiene prohibido extraer información de subastas de eBay a través de cualquier programa de consulta automatizado, araña u otra configuración sin el permiso de eBay.
Durante el juicio, el foco de la disputa fue si el sitio web tenía derecho a configurar robots para bloquear las arañas de otros sitios web. El demandado BE argumentó que el contenido del sitio web de eBay fue generado por los propios usuarios de Internet y, por lo tanto, era un recurso público, y eBay no tenía derecho a establecer un protocolo de robot para restringirlo. Pero el tribunal no estuvo de acuerdo. El juez sostuvo que "el contenido del sitio web de eBay es propiedad privada y eBay tiene derecho a restringirlo mediante el acuerdo de robots". El raspado no autorizado equivale a "invasión de bienes muebles".
Fue en esta sentencia que, aunque BE solo buscó en una pequeña parte del sistema informático de eBay, se descubrió que había violado el acuerdo del robot e infringido el derecho de eBay a excluir a otros de su sistema informático. .
Como primer fallo legal en la historia de los EE. UU. para proteger el contenido de información de Internet, la disputa entre eBay y BE se convirtió en un caso histórico de infracción en línea y desencadenó una controversia generalizada en la industria de Internet de los EE. UU. e incluso en todos los ámbitos de la vida. en ese momento. Danny Sullivan, un conocido columnista de searchEngine Watch, señaló una vez en un artículo que el protocolo de robots que regula los rastreadores de los motores de búsqueda es una herramienta importante para el desarrollo de los motores de búsqueda. El protocolo de robots es una de las pocas convenciones que rige el comportamiento de los rastreadores de los motores de búsqueda y debe seguirse. No sólo hace posible la apertura de todo Internet, sino que, en última instancia, también beneficia a los usuarios de Internet en su conjunto.
En agosto de 2012, 360 Comprehensive Search fue acusado de violar el acuerdo sobre robots:
El 29 de agosto de 2012, Qihoo 360 Search, que se convirtió fácilmente en el segundo motor de búsqueda más grande de China a los diez días de su lanzamiento, se encontró con Waterloo, después de que Baidu lanzara una medida para combatir el rastreo ilegal y el acceso anónimo, el modelo de imitadores y secuestradores de usuarios de 360 Search quedó completamente expuesto. Esta historia también está en contra de la llamada "inutilidad de la búsqueda". tecnología de motores" Una bofetada en la cara.
"360 Comprehensive Search ha superado el 'resultado final' del acuerdo de Robots. No solo robó una gran cantidad de contenido de Baidu y Google sin autorización, sino que también registró pedidos backend, códigos de descuento, etc. de juegos en línea nacionales conocidos, e incluso algunos usuarios La dirección de correo electrónico, el número de cuenta y la contraseña también fueron registrados en secreto por 360 a través del navegador ". Dijo un profesional del sector con 10 años de experiencia como ingeniero de búsqueda el 28 de agosto de 2012.
Desde que Qihoo 360 Search se puso en línea el 16 de agosto, ha recibido continuas advertencias por "violaciones" en la industria. El diseño de la interfaz de usuario y los resultados de búsqueda no solo plagiaron y alteraron directamente el contenido de motores de búsqueda como Baidu y Google, sino que también ignoraron el protocolo Robots aceptado internacionalmente y rastrearon el contenido privado de motores de búsqueda como Baidu y Google. y también se copió información personal de muchos sitios web comerciales. Se informa que este tipo de acceso anónimo y rastreo ilegal de contenido de otros sitios web no sólo infringe gravemente los resultados de la industria, sino que también perjudica la experiencia del usuario. En el extranjero, este comportamiento puede incluso ser castigado por la ley. "¡Esto ha afectado seriamente el resultado final del protocolo Robots! ¡Es inevitable que las empresas de tecnología con los pies en la tierra como Baidu contraataquen!"
El ingeniero de búsqueda mencionado anteriormente dijo a los periodistas que el llamado Protocolo de robots, en términos sencillos, es decir, el sitio web controlará de forma independiente si está dispuesto a ser incluido por los motores de búsqueda a través del protocolo robots.txt, o el motor de búsqueda designado solo incluirá contenido específico. Los motores de búsqueda rastrearán según los permisos otorgados por el propietario de cada sitio web. Esto es como una persona común y corriente que va a la casa de otra persona para ser invitado. Primero necesita tocar la puerta y obtener permiso antes de entrar a la sala. No puede ingresar a habitaciones interiores sin permiso ni entrar en casas de otras personas sin permiso e invitación adicionales del propietario. Excepto, por supuesto, los ladrones o ladrones.
La búsqueda integral de Qihoo 360 quedó expuesta a ignorar el protocolo de robots aceptado internacionalmente y rastrear el contenido de motores de búsqueda como Baidu y Google. Como resultado, muchos sitios web no permitieron a los motores de búsqueda rastrear información de la intranet debido a. Consideraciones de seguridad y privacidad En cuanto a la filtración, Hong Bo, un observador senior de Internet, señaló que al realizar búsquedas, se deben respetar las reglas del juego generalmente aceptadas en la industria de las búsquedas. Es inapropiado ignorar las reglas y violar las reglas. reglas sin sentido. La violación de las reglas es la verdadera competencia desleal. Si la ley y la supervisión gubernamental no pueden detener rápidamente este tipo de comportamiento, conducirá al caos en la industria.
Baidu no prohíbe a todos los rastreadores rastrear contenido de preguntas y respuestas, Zhiba y Tieba. Baidu solo prohíbe los rastreadores rebeldes que plantean riesgos de seguridad. Esta es una medida razonable para proteger el orden del mercado y la privacidad del usuario. En 2008, Taobao también prohibió los rastreadores de Baidu, pero Baidu cumplió estrictamente con el acuerdo de robots y dejó de rastrear el contenido de Taobao. No violó el acuerdo de robots con el pretexto de competencia desleal en Taobao.
Baidu declaró que Taobao violó el Acuerdo de Robots con el pretexto de competencia desleal, y que no hubo violación del Acuerdo de Robots con el pretexto de competencia desleal.
Gao Wen, académico de la Academia China de Ingeniería: El protocolo de los robots es una regla que los motores de búsqueda deben respetar al rastrear información de sitios web. Es un código moral común en la comunidad internacional de Internet. El propietario del sitio web declara explícitamente al programa de rastreo automático a través del protocolo Robots qué contenido del servidor se puede rastrear y qué contenido no se puede rastrear. Esta es una directriz de autodisciplina para garantizar el desarrollo saludable de la industria de Internet. Aunque no es una orden obligatoria, la industria debería acatarla. Si las empresas chinas de Internet quieren conseguir más atención en el escenario internacional y lograr un mayor desarrollo, no hay razón para no respetar esta regla del juego. El incumplimiento no sólo dañará la imagen de la propia empresa infractora, sino que también dañará la reputación general de la industria de Internet de China.
Zhuang Yueting, decano de la Facultad de Ciencias de la Computación de la Universidad de Zhejiang: Las páginas de un sitio web de Internet son como huertos en el vasto campo, cada uno con su propio dueño.
En términos generales, es comprensible que los turistas entren y echen un vistazo, pero si el propietario establece un hito en el límite: nadie puede entrar sin permiso, significa que la voluntad del propietario se convierte en el estándar para determinar si los forasteros Se les permite visitar el parque. El Acuerdo sobre Robots es un monumento de ese tipo. Aunque no tiene fuerza de ley, es ampliamente seguido. Entrar al parque sin permiso no sólo viola las reglas del juego, sino que también viola las normas morales. Del mismo modo, violar el Acuerdo sobre Robots equivale a violar las normas de la industria de los motores de búsqueda. Obtener recursos de esta manera también es un comportamiento competitivo poco ético.
Profesor Liu Ting del Instituto de Tecnología de Harbin: El protocolo Robots es una regla de rastreo de contenido desarrollada por sitios web de Internet para motores de búsqueda, que refleja la confianza mutua entre pares en la industria. El incumplimiento del Acuerdo sobre Robots destruirá la confianza en la industria y hará que el contenido del sitio web no esté dispuesto a ser rastreado e indexado por los motores de búsqueda, lo que en última instancia perjudicará los intereses de los usuarios. Ma Shaoping, profesor del Departamento de Ciencias de la Computación de la Universidad de Tsinghua, señaló que si no se sigue el protocolo Robots, el contenido del sitio web se rastrea arbitrariamente y la información del sitio web se filtra a voluntad, tendrá un enorme efecto destructivo en la salud. desarrollo de Internet. El caso de Baidu que demandó a Qihoo 360 por violar el Acuerdo de Robots al rastrear y copiar el contenido de su sitio web se escuchó en el Tribunal Popular Intermedio Nro. 1 de Beijing en la mañana del 16 de octubre de 2013. Baidu cree que 360 Search violó el "Acuerdo de Robots" reconocido por la industria sin el permiso de Baidu y capturó el contenido de Baidu Zhizhi, Baidu Encyclopedia, Baidu Tieba y otros sitios web de Baidu, lo que constituye competencia desleal, y reclamó 100 millones de yuanes a Qihoo.
Guo Biao, el departamento de relaciones públicas de Baidu, dijo a los medios que el protocolo Robots es uno de los estándares internacionalmente reconocidos para la información de sitios web y la protección de la privacidad de los internautas, y es digno de ser observado por la red de Internet más grande del mundo. empresas. El incumplimiento del protocolo Robots puede provocar filtraciones de privacidad a gran escala de los internautas.
Guo Biao dijo que lo que es aún más grave es que Qihoo 360 también utiliza clientes como 360 Browser para capturar por la fuerza los datos y la información de navegación de los usuarios de Internet en el servidor de búsqueda, ignorando por completo el protocolo Robots. Esta práctica provocó la filtración de una gran cantidad de información de la intranet corporativa. A finales de 2012, los ingenieros de Baidu pasaron una prueba llamada "Capturando fantasmas" y demostraron que 360 Browser tenía el comportamiento de búsqueda de cargar de forma privada "páginas huérfanas" y otras páginas privadas. contenido a Búsqueda 360.
360 cree que estas páginas de contenido indexadas por 360 no son sospechosas de infringir los derechos e intereses de Baidu y, de hecho, han atraído una gran cantidad de usuarios y tráfico a Baidu que debería estar agradecido a 360.