Red de conocimiento informático - Conocimiento del nombre de dominio - ¿Cómo utilizar Python para rastrear páginas web e implementar algunas operaciones de envío?

¿Cómo utilizar Python para rastrear páginas web e implementar algunas operaciones de envío?

El siguiente programa es un ejemplo de cómo raspar una página web. La clase MyOpener está diseñada para simular un cliente de navegador y utiliza una selección aleatoria en caso de que el sitio web piense que es un robot.

La función MyFunc toma la URL que usted especifica y extrae el enlace href. La imagen es similar, generalmente lt;img src=xxxgt. De esta forma, otras funciones no deberían ser difíciles. Internet. Eso es todo.

importar re

desde urllib importar FancyURLopener

desde una opción de importación aleatoria

user_agents = [

'Mozilla /5.0 (Windows; U; Windows NT 5.1; it; rv: 1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',

'Opera/9.25 (Windows NT 5.1; U; en)' ,

'Mozilla/4.0 (compatible NET CLR 1.1.4322; .NET CLR 2.0.50727)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (como Gecko) (Kubuntu) ',

'Mozilla/5.0 (X11; U; Linux i686; en-US; rv: 1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

' Lynx/2.8.5rel.1libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9'

]

clase MyOpener(FancyURLopener, objeto):

versión = elección (user_agents)

def MyFunc(url):

myopener = MyOpener()

s = myopener.open(url) .read()

ss=s.replace("\n", " ")

urls=re.findall(r"lt;a.*?href=. * ?lt;\/agt;",ss,re.I)#buscar enlaces href

para i en URL:

hacer algo.