python especifica la URL
Python extrae el. Método de título de la página URL especificada (Python obtiene la URL de la página actual) Python extrae la página de inicio del script del título de la URL 1
#! /usr/bin/python
#-*-coding:utf-8-**-
'''
Función: extraer título del contenido de la página de la URL especificada
'''
importar re
importar chardet
importar urllib
desde lxml importar etree
def utf8_transfer(strs):
'''
conversión de codificación utf8
'''
prueba:
if isinstance(strs, unicode):
strs = strs.encode('utf-8')
elif chardet.detect(strs)['codificación '] == 'GB2312':
strs = strs.encode('utf-8')
elif chardet.detect(strs)['codificación'] == 'utf -8':
strs = strs.decode('utf-8', 'ignore').encode('utf-8')
Excepción, e:
print 'utf8_transfer error', strs, e
return strs
def get_title_xpath (Html):
'''
Utilice xpath para extraer el título de la página web
'''
Html = utf8_transfer(Html)
Html_encoding = chardet.detect(Html)[' codificación ']
página = etree.HTML(Html, parser=etree.HTMLParser(codificación=Html_encoding)