Red de conocimiento informático - Problemas con los teléfonos móviles - Sobre el problema de Python al usar la biblioteca beautifulsoup4 para analizar etiquetas de código fuente de páginas web, ¡se necesitan respuestas urgentes!

Sobre el problema de Python al usar la biblioteca beautifulsoup4 para analizar etiquetas de código fuente de páginas web, ¡se necesitan respuestas urgentes!

Tome Baidu como ejemplo#?-*-?Codificación: utf-8?-*-

import?requests

import?urlparse

importar?os

desde?bs4?import?BeautifulSoup

def?proceso(url):

encabezados?=?{'content- escriba ':?application/json',

'User-Agent':?Mozilla/5.0(X11;?Ubuntu;?Linux?x86_64;?rv:22.0)?Gecko/20100101?Firefox/22.0 ' }

pageSourse?=?requests.get(url,?headers= archivo de encabezado).text

page_soup?=?BeautifulSoup(pageSourse)

a_all ? =?page_soup.findAll("a")

link_urls=[i.get('href')?for?i?in?a_all]#Algunos de ellos son eventos activados por javascript, y el El método de filtrado escribirá.

img_all?=?page_soup.findAll("img")

img_urls=[i.get("src")?for?i?in?img_all]

imprimir?link_urls, img_urls

retorno?(link_urls,?img_urls)

proceso("")

El resultado es el siguiente: [u '/' ,?u'javascript:;',?u'javascript:;',?u'javascript:;',?u'javascript:;',?u'/v2/?loginamp;tpl=mnamp;u =2F ',?u'/?cid=002540',?u'',?u'',?u'',?u'',?u'',?u'/v2/?loginamp; mnamp; u=2F',?u '/gaoji/preferences.html',?u'/more/',?u'/ns?cl=2amp;rn=20amp;tn=newsamp;word=',?? u' /f?kw=amp;fr=wwwt',?u'/q?ct=17amp;pn=0amp; tn=ikaslistamp;rn=10amp;word=amp;fr=wwwt',?u'/búsqueda ?fr =psamp;ie=utf-8amp;key=', ?u'/search/index?tn=baiduimageamp;ps=1amp;ct=201326592amp;lm=-1amp;cl=2amp;nc=1amp;ie= utf- 8amp;word=',?u'/v?ct=301989888amp;rn=20amp;pn=0amp;db=0amp;s=25amp;ie=utf-8amp;word=',?u'/m? word= amp;fr=ps01000',?u'/search?word=amp;lm=0amp;od=0amp;ie=utf-8',?u'//www.baidu.com/more/',? u' /',?u'/www.baidu.com/cache/sethelp/help.html',?u'',?u'',?u'/duty/',?u'/']?[ u' //www.baidu.com/img/bd_logo1.png',?u'//www.baidu.com/img/baidu_jgylogo3.gif']

Señale el problema, adoptelo si estás satisfecho