El rastreador de Python reemplaza los enlaces en páginas HTML en línea con enlaces locales y guarda archivos HTML.
def check_flag (bandera):
regex = re.compile(r'images\/')
Si regex.match (bandera) de lo contrario Falso, entonces resultado = Verdadero
Repite el resultado
# sopa = sopa hermosa(open(' index . html '))
Desde bs4 Importar BeautifulSoup
html_content = ' ' '
& lta href = " " & gtTest 01
& lta href="/123 " >. Prueba 02
& lta href = " " & gtTest 01
& lta href = " " & gtTest 01
'''
archivo = open(r ' favor-en . html ', ' r ', codificación="UTF-8 ")
sopa = BeautifulSoup(archivo, "html.parser")
Para elementos en sopa.find_all('img '):
Si hay "src" en element.attrs:
print(element.attrs['src' ])
if check _ flag(elemento . attrs['src']):
#if elemento.attrs['src']. Buscar("png"):
elemento . atributos[' src ']= " michenxxxxxxxxxxxx "+'/'+elemento . ####################### ")
Utilice open('index.html ', ' w ', codificación="UTF- 8 ") como fp:
FP . escribir(sopa . pretify())# pretify()? ¿Solo embellecer SP? , legible.