Cómo el rastreador de Python rastrea los bloques de código de páginas HTML
mport urllib.request
importar re
def getHtml(url):
página = urllib.request.urlopen(url)
html = page.read()
html = html.decode('GBK')
return html
def getMeg(html):
reg = re.compile(r'******')
meglist = re.findall(reg,html)
para meg en meglist: p> p>
con open('out.txt', mode='a', encoding='utf-8') como archivo:
file.write('s\n' meg )
if __name__ == "__main__":
html = getHtml(url)
getMeg(html)