Investigación sobre extracción de información de texto de páginas web basada en expresiones regulares
¿Una expresión regular puede tener varias líneas que coincidan con un patrón, según el idioma que esté utilizando? O puede realizar primero el reemplazo de texto, reemplazar las nuevas líneas y luego realizar la expresión regular.
Instrucciones sobre el formato de codificación de caracteres (juego de caracteres) del código fuente de la página html (gb2312, gbk, utf-8, iso8859-1, etc.)
Además, con respecto al rastreo de sitios web, esto, básicamente todo lo que deseas:
Cómo usar Python, C#, etc. para rastrear páginas estáticas
Simular inicio de sesión en un sitio web