Código fuente del rastreador de Python
desde bs4 importar BeautifulSoup
headers ={
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64 ; rv. 75.0) Gecko/20100101 Firefox/75.0'
}
para i en el rango(105, 200):
prueba:
url = '/web201605/herodetail/' str(i) '.shtml'
respuesta = request.get(url, encabezados)
respuesta.encoding = 'gbk '
sopa = BeautifulSoup(response.text, 'html.parser')
# nombre_habilidad = sopa.find('p', 'nombre-habilidad')
# habilidad_desc = sopa.find('p', 'skill-desc')
# imprimir(skill_name.text)
# imprimir (skill_desc.text)
nombre = sopa.find("h2", "nombre-portada").text
# imprimir(nombre)
historia = sopa.find('div', 'pop -bd').text
if historia == '\n':
print("\n ¡No hay historia ds!" (i, nombre))
else:
historia_ = historia.replace('.' , '. \n' )
historia_ = historia.replace('\n' , '\tgt;gt ;gt;' )
print(story_[0:30] "..")
# os.mkdir('C:\\users\ Crystal\\ Desktop\ Heroes Historia 2')
# os.mkdir('C:\Users\\28459\Desktop\\test\\')
os.chdir('C:\Users\ \28459\\Desktop\\test\\\\')
open('s'name '.txt' , 'w').write(story_)
print( ¡Se guardaron los detalles de la historia! (i, nombre))
print()
excepto AttributeError:
print("/n¡No hay ningún héroe con el número d!" i)
No hay ningún héroe numerado d.