Red de conocimiento informático - Material del sitio web - Cómo convertir html a xml de rodillas. Explique el algoritmo específico y las herramientas utilizadas.

Cómo convertir html a xml de rodillas. Explique el algoritmo específico y las herramientas utilizadas.

Te daré algunas de mis sugerencias

El formato de sintaxis de HTML es mucho más flexible que XML. La página web con formato XML real es XHTML, la próxima generación de HTML, que tiene un formato similar a XML y es muy. estricto.

Si no quieres aprovechar algunas herramientas de conversión HTML y XML, tendrás algunas dificultades si creas las tuyas propias.

1.Es posible que los nodos HTML no tengan nodos finales. Debe escanear continuamente los tres símbolos lt;, gt; y / para verificar si faltan nodos finales y agregarlos.

2.Los nodos HTML también se pueden anidar de forma irregular. Debe guardar los nodos leídos en orden o utilizar una estructura de datos de pila para guardarlos, verificar la exactitud de la jerarquía y finalmente obtener el nodo correcto. orden, durante el cual también necesita almacenar en caché los valores de los nodos o los valores de los atributos.

3.HTML es diferente de XML. Muchos nodos HTML tienen significados especiales y muchos nodos HTML (como lt;bgt;, lt;hr/gt;) requieren un procesamiento especial para funcionar.

Técnicamente, para garantizar el rendimiento es necesario potenciar los siguientes aspectos.

1. Potente analizador y escaneo de cadenas. Este trabajo también es muy extenso, pero hay muchos códigos fuente en Internet. Se recomienda utilizar la búsqueda en inglés de Google, el analizador HTML y el analizador XML. y Se pueden utilizar muchos códigos fuente de C#, Java y C. Sin un analizador potente, los documentos no se pueden leer ni comprender.

2. Comprenda el espacio System.Xml en detalle Además del XMLWriter simple, también debe aprender XMLDocument y XmlNode para poder manipular XML dinámicamente. También existe la tecnología Xpath, que es muy eficiente en el funcionamiento de XMl.

3. También se utilizarán expresiones regulares apropiadas para manejar problemas de coincidencia de cadenas, especialmente operaciones de nodos. Incluso un buen algoritmo de búsqueda de cadenas a veces es inferior a las expresiones regulares, por lo que el sistema debe ser la clase Regex. dominado.

4. Ser capaz de controlar el control WebBrower de WinForm.

Por supuesto, incluso si no planeas hacerlo tú mismo, o has encontrado el código fuente, debes tener el por encima del conocimiento si quieres entenderlo.

En cuanto a las herramientas, están disponibles online. ¿Dónde puedo encontrar el código fuente? Hay una versión java, pero no puedo descargarla.

Esta es la herramienta de conversión del famoso W3C (la organización fundadora de HTML, XML y otras tecnologías). También contiene algunas introducciones que creo que serán útiles.

También hay un conversor codificado en C#, pero hay que pagar para ver el código fuente

También hay algún software, ¡el lápiz óptico tiene un buen producto!