¿Qué son los reptiles?
Los rastreadores web también se denominan arañas web, hormigas web, robots web, etc. , puede buscar información automáticamente en la red. Por supuesto, al buscar información, debe seguir las reglas que establecemos. Estas reglas se denominan algoritmos de rastreo web. Con Python, puede escribir fácilmente un programa rastreador para recuperar automáticamente información de Internet. Necesitas saber lo siguiente:
① Tener una base sólida de la sintaxis de Python, que es la base de todo.
(2) Tener cierta comprensión del conocimiento front-end, al menos poder entenderlo.
③Cómo obtener datos de destino: módulo de solicitud, etc.
④Cómo analizar datos de destino: regularización, xpath, jsonpath, etc.
⑤Cómo implementar anti-crawling: resumen de la experiencia
⑥Cómo obtener datos a gran escala: framework scrapy