Sobre el problema de Python al usar la biblioteca beautifulsoup4 para analizar etiquetas de código fuente de páginas web, ¡se necesitan respuestas urgentes!
Tome Baidu como ejemplo#?-*-?Codificación: utf-8?-*-
import?requests
import?urlparse
importar?os
desde?bs4?import?BeautifulSoup
def?proceso(url):
encabezados?=?{'content- escriba ':?application/json',
'User-Agent':?Mozilla/5.0(X11;?Ubuntu;?Linux?x86_64;?rv:22.0)?Gecko/20100101?Firefox/22.0 ' }
pageSourse?=?requests.get(url,?headers= archivo de encabezado).text
page_soup?=?BeautifulSoup(pageSourse)
a_all ? =?page_soup.findAll("a")
link_urls=[i.get('href')?for?i?in?a_all]#Algunos de ellos son eventos activados por javascript, y el El método de filtrado escribirá.
img_all?=?page_soup.findAll("img")
img_urls=[i.get("src")?for?i?in?img_all]
imprimir?link_urls, img_urls
retorno?(link_urls,?img_urls)
proceso("")
El resultado es el siguiente: [u '/' ,?u'javascript:;',?u'javascript:;',?u'javascript:;',?u'javascript:;',?u'/v2/?loginamp;tpl=mnamp;u =2F ',?u'/?cid=002540',?u'',?u'',?u'',?u'',?u'',?u'/v2/?loginamp; mnamp; u=2F',?u '/gaoji/preferences.html',?u'/more/',?u'/ns?cl=2amp;rn=20amp;tn=newsamp;word=',?? u' /f?kw=amp;fr=wwwt',?u'/q?ct=17amp;pn=0amp; tn=ikaslistamp;rn=10amp;word=amp;fr=wwwt',?u'/búsqueda ?fr =psamp;ie=utf-8amp;key=', ?u'/search/index?tn=baiduimageamp;ps=1amp;ct=201326592amp;lm=-1amp;cl=2amp;nc=1amp;ie= utf- 8amp;word=',?u'/v?ct=301989888amp;rn=20amp;pn=0amp;db=0amp;s=25amp;ie=utf-8amp;word=',?u'/m? word= amp;fr=ps01000',?u'/search?word=amp;lm=0amp;od=0amp;ie=utf-8',?u'//www.baidu.com/more/',? u' /',?u'/www.baidu.com/cache/sethelp/help.html',?u'',?u'',?u'/duty/',?u'/']?[ u' //www.baidu.com/img/bd_logo1.png',?u'//www.baidu.com/img/baidu_jgylogo3.gif']
Señale el problema, adoptelo si estás satisfecho