¿Cómo rastrear todos los enlaces de páginas bajo una URL?
Dado que el tema fue colocado en la sección de lenguajes de programación sin indicar qué lenguaje de programación deseo usar, elegí usar el lenguaje java para lograrlo.
En Java, puede usar HttpURLConnection para conectarse a una URL y luego usar InputStreamReader para obtener el texto del contenido de la página. Luego, use expresiones regulares para analizar el texto y encontrar todas las etiquetas .
Matcher;
import?java.util.regex.Pattern;
public?class?HtmlParser?{ /** *?La página a analizar*/ String?htmlUrl; * * *?Resultados del análisis*/ ArrayList
connection.getInputStream(),?charSet?{
rs?=?getHref(str);
if ?(rs! =?null)
hrefList.add(rs); } } } /** *?Obtener el método de codificación de la página*?@param?str */ private?String ?getCharset( String?str)?{ Pattern?pattern?=?Pattern.compile("charset=. *"); Matcher?matcher?=?pattern.matcher(str); p>
return?matcher.group(0).split("charset=")[1]; return?null; } /** *?Leer el enlace de una línea de cadena*? / privado? String?getHref(String?str)?{ Pattern?pattern?=?Pattern.compile(""); ; si? (matcher.find())
return?matcher.group(0); return?null; } public?static?void?main(String[]?arg)?throws?IOException? { HtmlParser? a?=?nuevo?H
tmlParser("/"); ArrayList System.out. println(hrefList.get(i)); } }