Red de conocimiento informático - Material del sitio web - ¿Cómo utilizar Python para rastrear el texto en etiquetas HTML específicas?

¿Cómo utilizar Python para rastrear el texto en etiquetas HTML específicas?

¡Hola!

El contenido de la etiqueta especificada se puede obtener a través de lxml.

#Instalar lxml

Pip. ¿Instalar? lxml

¿Importar? Solicitar

¿Desde dónde? lxml? ¿importar? Lenguaje de marcado de hipertexto

def? getHTMLText(url):

....

etree? =?html.etree

¿Raíz? =?Etri. HTML(getHTMLText(url))

#Aquí obtienes un conjunto de tr.

trArr=? raíz . tr? ¿existir? trArr:

¿Clasificación? =?tr.xpath("./TD[1]/text()"[0]

Nombre?=?tr.xpath("./TD[2]/div/text()" [0]

prov?=?tr.xpath("./TD[3]/text()"[0]

Stran?=?22-len( nombre . codificar(' GBK ') len(nombre)

Imprimir('Clasificación: {: