Red de conocimiento informático - Conocimiento del nombre de dominio - Cómo leer el contenido de un sitio web local usando Python

Cómo leer el contenido de un sitio web local usando Python

La idea es la siguiente:

Usar la biblioteca urllib2, abrir la página, obtener el contenido de la página y luego usar expresiones regulares para extraer los datos requeridos.

El siguiente es un código de muestra para su referencia, que captura el contenido de la publicación de Baidu Tieba y lo guarda en un archivo. #?-*-?codificación:utf-8?-*-

import?urllib2

import?re

url='

page=urllib2.urlopen(url).read().decode('gbk')

none_re=re.compile('lt;a?href=. *? gt;|lt;/ agt;|lt;img.*? gt;')

br_re=re.compile('lt;brgt;')

title_re=re.compile('lt;h1 ?class="core_title_txt?"?title="(. *?)"')

content_re=re.compile('lt;div?id="post_content_\d*"?class="d_post_content ?j_d_post_content?"gt; (. *?) lt;/divgt;')

title=re.search(title_re,page)

title=title.group(1) .replace('\','').replace('/','').replace(':','').replace('*','').replace('?'?,'' ).replace('"', '').replace('gt; '', '').replace('lt;', '').replace('|', '')?

content=re.findall(content_re,page)

with?open('s.txt'title,'w')?sub(none_re,?'',?i)

i=re.sub(br_re,?' \n',?i)

f.write(i.encode('utf-8').strip() '\n' )