Rastreador de fuentes de motor de búsqueda de código abierto
Puede utilizar HttpClient para obtener el código fuente de la página web y luego buscar cada enlace en el código fuente por separado.
El siguiente código puede obtener el código fuente strURL de la página web como enlace de la página web.
cliente http = nuevo cliente http();
client.gethttpconnectionmanager(). obtenerParams(). setConnectionTimeout(500);
client.gethttpconnectionmanager(). obtenerParams(). setSoTimeout(500);
método = nuevo método de publicación (strURL);
client.executeMethod(método);
estado web+= método .getstatusline() . getStatusCode()+",";
If (! "200".equals(method.getStatusLine().getStatusCode()+"")){
If (!" ".equals(method.getStatusLine().getStatusCode()+" "))
Return "";
}
InputStream es = método. getresponsebodyasstream ();
lector almacenado en búfer br = nuevo lector almacenado en búfer (nuevo InputStreamReader (es, codificación actual));
búfer de cadena buffer de cadena = nuevo búfer de cadena();
String str =
mientras ((str = br.readLine())!= null) {
búfer de cadena append(str);
}
content = string buffer . tostring();
No sé si tienes alguna pregunta específica, algunos de ellos me han estado haciendo.