Cómo rastrear los 1200 libros de Python en la web
1
Análisis del sitio web de destino: captura de la página principal
1). Todos los libros de Python del mercado están en JD.com, Taobao y Douban, así que yo. eligió Douban para rastrear
2). Al analizar la estructura de este sitio web, en realidad es relativamente simple. Primero, hay una página principal con todos los enlaces sobre Python. Se han descargado un total de 1388 libros. (más de 100 de ellos son en realidad duplicados), un total de 93 páginas se muestran en la parte inferior de la página
3). Esta página es una página estática y las URL de la página son relativamente regulares, por lo que es fácil construir las direcciones de todas las URL
4). Capture cada subpágina y la URL correspondiente en todos los libros de Python, como como el primero Para "El libro de los métodos tontos" en la página, solo necesitamos extraer el título del libro y la URL correspondiente
2
Análisis y captura de una sola página
1) . Arriba extrajimos las 93 páginas de los libros de Python y las URL correspondientes. One*** es 93***15, que son aproximadamente más de 1300 libros. Primero, debemos eliminar los duplicados y luego podemos guardarlos en la memoria y usarlos. un diccionario para guardarlos o guárdelo en un archivo csv (algunos estudiantes pueden preguntarse por qué es necesario guardarlo en un archivo. No es fácil acceder a él con un diccionario. No entraré en detalles. Se revelará). al final)
2). Luego analizamos las características de cada página del libro:
El artículo anterior decía que necesitamos analizar:
Autor/Editor/Traductor/Año de publicación/Número de páginas/Precio /isbn /Rating/Número de revisores
Al observar el código fuente del sitio web, encontramos que la información principal está en div id="info " y div class="rating_self clearfix"
La información principal está en div id= "info "y div class="rating_self clearfix"