Red de conocimiento informático - Material del sitio web - Cómo estructurar texto y extraer datos

Cómo estructurar texto y extraer datos

Análisis de páginas y extracción de datos

En términos generales, para nosotros, lo que necesitamos rastrear es el contenido de un sitio web o una aplicación y extraer valor útil. El contenido generalmente se divide en dos partes, datos no estructurados y datos estructurados.

Datos no estructurados: primero datos, luego estructura,

Datos estructurados: primero estructura, luego datos

Diferentes tipos de datos, debemos abordarlos de manera diferente.