El papel de la gramática del sitio del motor de búsqueda
Sitio: La presencia o ausencia de www puede conducir a resultados diferentes, porque algunos nombres de dominio también contienen nombres de dominio de segundo nivel, como sitio:www. Los resultados de búsqueda para XXCom y el sitio: XXCom son diferentes. No debe haber espacios entre el sitio: y el nombre del sitio.
Datos ampliados:
Los rastreadores web descargan páginas web de la World Wide Web para los motores de búsqueda y son una parte importante de los motores de búsqueda. Los rastreadores tradicionales parten de la URL de una o varias páginas web iniciales y obtienen las URL de las páginas web iniciales. En el proceso de rastreo de páginas web, extrae continuamente nuevas URL de la página actual y las coloca en la cola hasta que se cumplan ciertas condiciones de detención del sistema.
El flujo de trabajo del rastreador enfocado es relativamente complejo. Necesita filtrar enlaces no relacionados con el tema de acuerdo con un determinado algoritmo de análisis de páginas web, retener enlaces útiles y colocarlos en la cola de URL para su rastreo.