Red de conocimiento informático - Material del sitio web - Cómo utilizar Python para rastrear sitios web que requieren inicio de sesión

Cómo utilizar Python para rastrear sitios web que requieren inicio de sesión

Recientemente, tuve que realizar una operación para eliminar algunas páginas de un sitio web que requería iniciar sesión. Esto no fue tan fácil como pensaba, así que decidí escribir un tutorial auxiliar para esto.

En este tutorial extraeremos una lista de proyectos de una cuenta de Bitbucket.

El código del tutorial se puede encontrar en mi Github.

Seguiremos los siguientes pasos:

Extraer los datos requeridos para iniciar sesión

Realizar el inicio de sesión en el sitio web

Obtener los datos requeridos

En este tutorial, utilicé los siguientes paquetes (disponibles en requisitos.txt):

Python

solicitudes

lxml

1

2

solicitudes

lxml

Paso 1: Investigar el sitio web

Abrir la página de inicio de sesión

Vaya a la siguiente página "bitbucket.org/account/signin". Verá la página que se muestra a continuación (si ya ha iniciado sesión, cierre la sesión)

Mire detenidamente los detalles que necesitamos extraer para iniciar sesión

En esta sección, A Se creará un diccionario para contener los detalles utilizados para realizar el inicio de sesión:

1. Haga clic derecho en el campo "Nombre de usuario o correo electrónico" y seleccione "Ver elemento". Usaremos el valor del cuadro de entrada con el atributo "nombre" como "nombre de usuario". Nombre de usuario" sería el valor clave y nuestro nombre de usuario/correo electrónico sería el valor correspondiente (en otros sitios podrían ser "correo electrónico", "nombre_usuario", "iniciar sesión", etc.).

2. Derecha -Haga clic en el campo "Contraseña" y seleccione "Ver elemento". En el script, debemos usar el atributo "nombre" como valor del cuadro de entrada "Contraseña". "Contraseña" será el valor clave del diccionario. Y la contraseña que ingresemos será el valor correspondiente (en otros sitios web, el valor clave puede ser "contraseña de usuario", "contraseña de inicio de sesión", "contraseña", etc.).

3. En la página del código fuente, busque un token de entrada oculto llamado "csrfmiddlewaretoken". csrfmiddlewaretoken" será el valor clave y el valor correspondiente será el valor de entrada oculto (en otros sitios, el valor podría ser un token de entrada oculto llamado "csrftoken", "authenticationtoken", "authenticationtoken", etc.) "authenticationtoken" " ). Por ejemplo, "Vy00PE3Ra6aISwKBrPn72SFml00IcUV8".

Finalmente obtendremos el siguiente diccionario:

Python

payload = {

. " nombre de usuario": "",

"contraseña": "",

"csrfmiddlewaretoken": ""

}

1

2

3

4

5

carga útil = {

"nombre de usuario":" ","

"contraseña":"","

"csrfmiddlewaretoken": " "

}

Tenga en cuenta que este es un caso específico para este sitio. Si bien este formulario de inicio de sesión es simple, otros sitios pueden requerir que verifiquemos el navegador. Solicite registro y busque la clave y el valor relevantes que deben usarse en el paso de inicio de sesión