Red de conocimiento informático - Conocimiento del nombre de dominio - Ejemplo de cómo utilizar Python para capturar el tráfico del blog csdn

Ejemplo de cómo utilizar Python para capturar el tráfico del blog csdn

I.Análisis de URL

Visite su propia página de blog: patentado; MSIE 5.5; Windows NT)'

headers = {'User-Agent': user_agent}

>#Construyendo una solicitud

req = urllib2.Request(myUrl, headers=headers)

#Acceder a la página

myResponse = urllib2.urlopen(req)

myPage = myResponse.read()

#Busque la presencia de la etiqueta 'última página' para determinar si es la última página

notLast = re.findall('lt;a href=". *?" gt;última páginalt;/agt;', miPágina, re.S)

Imprimir'-------- -- ------------------------ página d ------------------------ -- ------' (page_num,)

# Utilice expresiones regulares para obtener el título del blog

title = re.findall('lt; span class="link_title "gt; lt;a href=".*?" gt;(. *?) lt;/agt;lt;/spangt;',miPágina,re.S)

titleList=[]

para elementos en el título:

titleList.append(str(items).lstrip().rstrip( )))

#Usar expresiones regulares para obtener el blog visitas

view = re.findall('lt;span class="link_view".*? gt;lt;a href=".*?" title="Número de lecturas"gt;readlt;/ agt;\ ((. *?)\)lt;/spangt;',myPage,re.S)

viewList=[]

para elementos a la vista:

viewList.append(str(items).lstrip().rstrip())

#Enviar el resultado

para n en el rango(len(titleList)):

imprimir 'Visitas: s Título: s' (viewList[n].zfill(4), titleList[n])

#Page_num más 1

núm_página = núm_página 1