El rastreador de texto de Python solicita comentarios

Viendo tu pregunta, ¿parece que has obtenido las URL de todos los capítulos? Luego simplemente extraiga el cuerpo del capítulo.

Utilice las bibliotecas de solicitudes y pyquery:

Paso 1: cree una solicitud web para obtener el contenido de la página: ¿importar?solicitudes?

de?pyquery?import?PyQuery?as?pq

r?=?requests.get("/hlm/01/mydoc014.htm")

cont?= ? r.content

Paso 2: Analizar el contenido de la página web:

Método simple y sencillo: text = pq(cont).text()

La primera línea es el título. El resto es texto.