Red de conocimiento informático - Problemas con los teléfonos móviles - Sobre el problema de Python al usar la biblioteca beautifulsoup4 para analizar etiquetas de código fuente de páginas web, ¡se necesitan respuestas urgentes!

Sobre el problema de Python al usar la biblioteca beautifulsoup4 para analizar etiquetas de código fuente de páginas web, ¡se necesitan respuestas urgentes!

Tome Baidu como ejemplo#?-*-?Codificación: utf-8?-*-

import?requests

import?urlparse

importar?os

desde?bs4?import?BeautifulSoup

def?proceso(url):

encabezados?=?{'content- escriba ':?application/json',

'User-Agent':?Mozilla/5.0(X11;?Ubuntu;?Linux?x86_64;?rv:22.0)?Gecko/20100101?Firefox/22.0 ' }

pageSourse?=?requests.get(url,?headers= archivo de encabezado).text

page_soup?=?BeautifulSoup(pageSourse)

a_all ? =?page_soup.findAll("a")

link_urls=[i.get('href')?for?i?in?a_all]#Algunos de ellos son eventos activados por javascript, y el El método de filtrado escribirá.

img_all?=?page_soup.findAll("img")

img_urls=[i.get("src")?for?i?in?img_all]

imprimir?link_urls, img_urls

retorno?(link_urls,?img_urls)

proceso("")

El resultado es el siguiente: [u '/' ,?u'javascript:;',?u'javascript:;',?u'javascript:;',?u'javascript:;',?u'/v2/?loginamp;tpl=mnamp;u =2F ',?u'/?cid=002540',?u'',?u'',?u'',?u'',?u'',?u'/v2/?loginamp; mnamp; u=2F',?u '/gaoji/preferences.html',?u'/more/',?u'/ns?cl=2amp;rn=20amp;tn=newsamp;word=',?? u' /f?kw=amp;fr=wwwt',?u'/q?ct=17amp;pn=0amp; tn=ikaslistamp;rn=10amp;word=amp;fr=wwwt',?u'/búsqueda ?fr =psamp;ie=utf-8amp;key=', ?u'/search/index?tn=baiduimageamp;ps=1amp;ct=201326592amp;lm=-1amp;cl=2amp;nc=1amp;ie= utf- 8amp;word=',?u'/v?ct=301989888amp;rn=20amp;pn=0amp;db=0amp;s=25amp;ie=utf-8amp;word=',?u'/m? word= amp;fr=ps01000',?u'/search?word=amp;lm=0amp;od=0amp;ie=utf-8',?u'//www.baidu.com/more/',? u' /',?u'/www.baidu.com/cache/sethelp/help.html',?u'',?u'',?u'/duty/',?u'/']?[ u' //www.baidu.com/img/bd_logo1.png',?u'//www.baidu.com/img/baidu_jgylogo3.gif']

Señale el problema, adoptelo si estás satisfecho

上篇: ¿Cómo importa QQ Mobile Assistant los números de teléfono móvil de otras personas? 下篇: ¿Se pueden utilizar las funciones del sistema Windows en Rust?

Sobre el problema de Python al usar la biblioteca beautifulsoup4 para analizar etiquetas de código fuente de páginas web, ¡se necesitan respuestas urgentes!

Artículos populares