Red de conocimiento informático - Material del sitio web - Cómo utilizar jsoup para analizar HTML y obtener código fuente HTML

Cómo utilizar jsoup para analizar HTML y obtener código fuente HTML

Cree un nuevo proyecto Java llamado JsoupDemo y luego importe el paquete jar jsoup.

Las siguientes son varias formas de obtener objetos Documento.

Analizar Dom desde Cadena

Usando el método de clase parse(String html) de Jsoup, puede obtener el objeto Documento de la cadena y luego analizarlo en detalle.

Obtener el objeto Documento de la URL

El método connect(String url) obtendrá una instancia de la clase Connection, que es una subclase de HttpConnection, y luego llamará a get( ), que enviará solicitudes de obtención y devolverá un objeto Documento. De manera similar, también podemos obtenerlo a través de post(), que depende principalmente de si nuestro tipo de solicitud es get o post. Si la solicitud requiere parámetros, podemos usar Map para construir los parámetros y luego configurarlos mediante el método data(Map params). Una vez que tengamos el objeto Documento, podemos analizarlo.

Obtener el objeto Documento del archivo

Cuando tenemos un archivo html local, podemos usar el método parse(File in, String charsetName) para obtener el objeto Documento del archivo local. archivo.