Red de conocimiento informático - Material del sitio web - Cómo rastrear los 1200 libros de Python en la web

Cómo rastrear los 1200 libros de Python en la web

Anteriormente escribí un artículo sobre el rastreo de todos los libros de Python en el mercado, que puede considerarse como un pequeño proyecto práctico en nuestra serie de conferencias sobre análisis de datos. Aún no he terminado de escribir el último código. Acabo de terminar todo el código y lo almacené en la base de datos durante el fin de semana. Hoy les daré un análisis paso a paso de cómo rastreé y limpié los datos. y pasó por alto el programa anti-rastreo. Se registraron algunas estrategias y puntos clave.

Análisis del sitio web de destino: captura de la página principal

1). Todos los libros de Python del mercado están en JD.com, Taobao y Douban, así que yo. eligió Douban para rastrear

2). Al analizar la estructura de este sitio web, en realidad es relativamente simple. Primero, hay una página principal con todos los enlaces sobre Python. Se han descargado un total de 1388 libros. (más de 100 de ellos son en realidad duplicados), un total de 93 páginas se muestran en la parte inferior de la página

3). Esta página es una página estática y las URL de la página son relativamente regulares, por lo que es fácil construir las direcciones de todas las URL

4). Capture cada subpágina y la URL correspondiente en todos los libros de Python, como como el primero Para "El libro de los métodos tontos" en la página, solo necesitamos extraer el título del libro y la URL correspondiente

Análisis y captura de una sola página

1) . Arriba extrajimos las 93 páginas de los libros de Python y las URL correspondientes. One*** es 93***15, que son aproximadamente más de 1300 libros. Primero, debemos eliminar los duplicados y luego podemos guardarlos en la memoria y usarlos. un diccionario para guardarlos o guárdelo en un archivo csv (algunos estudiantes pueden preguntarse por qué es necesario guardarlo en un archivo. No es fácil acceder a él con un diccionario. No entraré en detalles. Se revelará). al final)

2). Luego analizamos las características de cada página del libro:

El artículo anterior decía que necesitamos analizar:

Autor/Editor/Traductor/Año de publicación/Número de páginas/Precio /isbn /Rating/Número de revisores

Al observar el código fuente del sitio web, encontramos que la información principal está en div id="info " y div class="rating_self clearfix"

La información principal está en div id= "info "y div class="rating_self clearfix"

上篇: Implementación de la división de números grandes 下篇: La Leyenda de los Héroes del Cielo y la Tierra txt obras completas

Cómo rastrear los 1200 libros de Python en la web

Artículos populares