Red de conocimiento informático - Conocimiento de la instalación - El problema de obtener el código fuente de una página web desde Java surge rápidamente.

El problema de obtener el código fuente de una página web desde Java surge rápidamente.

Analizador HTML. Marco, que analiza páginas web.

Htmlparser es una biblioteca de análisis de HTML escrita en Java puro. No depende de otros archivos de biblioteca de Java. Se utiliza principalmente para convertir o

extraer HTML. Puede analizar HTML a una velocidad súper alta sin errores. La última versión de htmlparser ahora es 2.0.

No es exagerado decir que htmlparser es actualmente la mejor herramienta para analizar y analizar HTML.

Ya sea que desee rastrear datos web o convertir contenido html, no puede dejar de elogiar el uso de htmlparser.

Lo mismo ocurre con jsoup.

Cuando los programas Java analizan documentos HTML, creo que todos han entrado en contacto con el proyecto de código abierto htmlparser. Solía ​​​​trabajar en IBM DW.

Hay dos artículos sobre htmlparser publicados en línea, a saber, cómo obtener la información que necesita de HTML y extender HTMLParser.

La capacidad de manejar etiquetas personalizadas. Pero ahora ya no uso htmlparser porque htmlparser rara vez se actualiza, pero lo más importante es jsoup.