¿Qué bibliotecas se deben instalar para aprender a utilizar el rastreador web Python?
Las siguientes son las bibliotecas relevantes involucradas en los rastreadores de Python
Biblioteca de solicitudes, biblioteca de análisis, biblioteca de almacenamiento, biblioteca de herramientas
1 Biblioteca de solicitudes: urllib/re. / request
(1) urllib/re es la biblioteca que viene con Python de forma predeterminada. Se puede verificar ejecutando el siguiente comando:
No se genera ningún mensaje de error, lo que indica que. el entorno es normal
(2) Instalación de solicitudes
2.1 Abra CMD y escriba pip3 install request
2.2 Espere la instalación y luego verifique
(3) Instalación de Selenium (exploración del controlador) Comportamiento de acceso al sitio web del servidor)
p>3.1 Abra CMD y escriba pip3 install selenium
3.2 Instale chromedriver p>
Sitio web: https://npm.taobao. org/
Después de la descarga, descomprima el paquete comprimido y coloque el archivo exe en D:Python3.6.0Scripts
Esta ruta solo debe estar en la variable PATH
3.3 Espere a que se complete la instalación y luego verifique
Presione Enter para que aparezca la interfaz del navegador Chrome
3.4 Instalar otros navegadores
Phantomjs, un navegador sin interfaz
URL de descarga: http://phantomjs. Después de descargarlo, descomprímalo y coloque el directorio completo en D:Python3.6.0Scripts. y agregue la ruta al directorio bin a la variable PATH
Verificación:
Abrir CMD
2. Biblioteca de análisis:
2.1 lxml (XPATH)
Abra CMD y escriba pip3 install lxml o descárguelo desde https://pypi.python.org, por ejemplo, 2 jupyter (el bloc de notas se ejecuta en la página web, admite Markdown, puede ejecutarse código en la página web) instalar pip3 instalar jupyter
Verificación: abrir cmd.