Introducción a los rastreadores de Python: comprensión de las URL
Prefacio de la serie Hace algún tiempo, Li Xiang aprendió algunos conocimientos básicos de Python. Sintió que imprimir algunas preguntas de algoritmo en IDLE era un poco aburrido, por lo que decidió mejorar su interés aprendiendo rastreadores. Y, de hecho, recientemente hay algo de trabajo repetitivo y quiero utilizar rastreadores para simplificar el trabajo. Así que planeé escribir mi propio proceso de autoaprendizaje mientras estudiaba por mi cuenta. Por un lado, como novato, puedo comunicarme con otros maestros de Python y, por otro lado, puedo usar esto para supervisarme a mí mismo.
Yo uso la versión de Python: 2.7.5
En primer lugar, comprendamos el rastreador (Spider). Si se compara un sitio web con una telaraña entrecruzada, entonces, ¿qué debería ser? ¿Qué hace nuestro rastreador? Lo único que hace es rastrear este sitio web para obtener la información y los recursos de este sitio web. Cada recurso en la Web, como documentos HTML, imágenes, videos, etc., se ubica mediante un URI (Identificador de recursos universal, Identificador universal de recursos). URL (localizador uniforme de recursos, localizador uniforme de recursos) es un subconjunto de URI. Las URL se pueden utilizar para describir diversos recursos de información en un formato unificado, incluidos archivos, direcciones y directorios de servidores, etc. El principal objeto de procesamiento del rastreador es la URL. Así que asegúrese de estar familiarizado con las URL.
El URI generalmente consta de tres partes:
1. Mecanismo de denominación para acceder a los recursos
2. Nombre del host para almacenar recursos
3. El nombre del recurso en sí, representado por la ruta.
El formato de la URL consta de tres partes:
1. La primera parte es el protocolo (o método de servicio).
2. La segunda parte es la dirección IP del host donde se almacena el recurso (a veces incluye el número de puerto).
3. La tercera parte es la dirección específica de los recursos del host, como directorios y nombres de archivos.
Zhihu: ¿Cuál es la diferencia entre URI y URL en el protocolo HTTP? Respuesta de @西瓜
Puede que esté un poco ocupado trabajando en la Copa Desafío recientemente, pero aún espero poder estudiar de acuerdo con el plan y actualizar esta serie con regularidad.