¿Qué base se necesita para el rastreador de Python?
Iniciar un rastreador no requiere que domines la programación de Python, pero no se pueden ignorar los conocimientos básicos. Entonces, ¿qué conceptos básicos de Python necesitamos?
Primero, echemos un vistazo al proceso de rastreo más simple:
El primer paso es determinar el enlace a la página rastreada. Dado que normalmente rastreamos más de una página de contenido, Preste atención a los cambios en los enlaces al pasar de página o cambiar de palabras clave, y en ocasiones incluso hay que considerar la fecha, además, las páginas web principales deben cargarse de forma estática o dinámica.
El segundo paso es solicitar recursos. Esto no es difícil. Implica principalmente el uso de las bibliotecas Urllib y Request. Si es necesario, simplemente lea los documentos oficiales.
El tercer paso. es analizar la página web. Una vez que la solicitud de recursos es exitosa, se devuelve el código fuente de toda la página web. En este momento, necesitamos ubicar y limpiar los datos.
Cuando se trata de datos, el primer punto al que prestar atención. es el tipo de datos. ¿Es necesario dominarlo?
En segundo lugar, los datos de la página web suelen estar organizados de forma muy ordenada, gracias a que la mayoría de los datos de la página web son ordenados y regulares, por lo que también es necesario dominar las listas y las declaraciones en bucle.
Pero vale la pena señalar que los datos de la página web no son necesariamente ordenados y regulares. Por ejemplo, la información personal más común, excepto las opciones requeridas, no me gusta completar otras partes. esta vez, falta algo de información. Primero debe determinar si hay datos antes de rastrear, por lo que la declaración de juicio no puede ser menor.
Después de dominar el contenido anterior, nuestro rastreador básicamente puede ejecutarse, pero para mejorar la eficiencia del código, podemos usar funciones para dividir un programa en múltiples partes pequeñas, cada parte es responsable de una parte del contenido, de modo que una función se haya movilizado tantas veces como sea necesario. Si eres más poderoso y desarrollas un software de rastreo en el futuro, ¿necesitas dominar otra clase?
El cuarto paso es guardar. los datos. ¿Tienes que abrir el archivo primero? Escribe los datos y finalmente ciérralos, entonces, ¿aún necesitas dominar la lectura y escritura de archivos?
Entonces, los puntos de conocimiento más básicos de Python que necesitas. dominar son: