Cómo leer el contenido de un sitio web local usando Python
La idea es la siguiente:
Usar la biblioteca urllib2, abrir la página, obtener el contenido de la página y luego usar expresiones regulares para extraer los datos requeridos.
El siguiente es un código de muestra para su referencia, que captura el contenido de la publicación de Baidu Tieba y lo guarda en un archivo. #?-*-?codificación:utf-8?-*-
import?urllib2
import?re
url='
page=urllib2.urlopen(url).read().decode('gbk')
none_re=re.compile('lt;a?href=. *? gt;|lt;/ agt;|lt;img.*? gt;')
br_re=re.compile('lt;brgt;')
title_re=re.compile('lt;h1 ?class="core_title_txt?"?title="(. *?)"')
content_re=re.compile('lt;div?id="post_content_\d*"?class="d_post_content ?j_d_post_content?"gt; (. *?) lt;/divgt;')
title=re.search(title_re,page)
title=title.group(1) .replace('\','').replace('/','').replace(':','').replace('*','').replace('?'?,'' ).replace('"', '').replace('gt; '', '').replace('lt;', '').replace('|', '')?
content=re.findall(content_re,page)
with?open('s.txt'title,'w')?sub(none_re,?'',?i)
i=re.sub(br_re,?' \n',?i)
f.write(i.encode('utf-8').strip() '\n' )