Ejemplo de cómo utilizar Python para capturar el tráfico del blog csdn
Visite su propia página de blog: patentado; MSIE 5.5; Windows NT)'
headers = {'User-Agent': user_agent}
>#Construyendo una solicitud
req = urllib2.Request(myUrl, headers=headers)
#Acceder a la página
myResponse = urllib2.urlopen(req)
myPage = myResponse.read()
#Busque la presencia de la etiqueta 'última página' para determinar si es la última página
notLast = re.findall('lt;a href=". *?" gt;última páginalt;/agt;', miPágina, re.S)
Imprimir'-------- -- ------------------------ página d ------------------------ -- ------' (page_num,)
# Utilice expresiones regulares para obtener el título del blog
title = re.findall('lt; span class="link_title "gt; lt;a href=".*?" gt;(. *?) lt;/agt;lt;/spangt;',miPágina,re.S)
titleList=[]
para elementos en el título:
titleList.append(str(items).lstrip().rstrip( )))
#Usar expresiones regulares para obtener el blog visitas
view = re.findall('lt;span class="link_view".*? gt;lt;a href=".*?" title="Número de lecturas"gt;readlt;/ agt;\ ((. *?)\)lt;/spangt;',myPage,re.S)
viewList=[]
para elementos a la vista:
viewList.append(str(items).lstrip().rstrip())
#Enviar el resultado
para n en el rango(len(titleList)):
imprimir 'Visitas: s Título: s' (viewList[n].zfill(4), titleList[n])
#Page_num más 1
núm_página = núm_página 1