Red de conocimiento informático - Conocimiento sistemático - ¿Cómo aprenden los reptiles?

¿Cómo aprenden los reptiles?

El primer paso es entrar en contacto con los rastreadores web de Python por primera vez. Primero, debe adquirir conocimientos básicos de Python, como variables, cadenas, listas, diccionarios, tuplas, oraciones de manipulación, gramática, etc. Sienta una base sólida y no se sentirá vago al abordar este caso. El conocimiento básico se puede encontrar en el tutorial de Liao Xuefeng. Es muy básico y fácil de entender, e incluso los principiantes pueden aceptarlo rápidamente. Además, también es necesario comprender algunos principios básicos de composición de redes, estructura de páginas web (como HTML, XML), etc.

El segundo paso es ver el video, tal vez encontrar un libro profesional sobre rastreadores web (como escribir un rastreador web en Python), seguir el código del rastreador de otras personas, seguir el código de otras personas y comprender cada línea de código. Comience a practicar por su cuenta para que pueda aprender más rápido y comprender más. Muchas veces estamos muy contentos y sentimos que tenemos esta oportunidad, y luego no estamos dispuestos a comenzar. De hecho, cuando empezamos, la verdad estaba llena de agujeros. Es mejor dedicarse a la codificación todos los días y familiarizarse con ella. Python3 promueve el desarrollo de cosas. Dado que Python2 dejará de protegerse en 2020, Python3 definitivamente será la corriente principal en el futuro. IDE puede elegir pycharm, sublime o jupyter, etc. El editor recomienda pychram porque es muy amigable, algo similar a eclipse en Java y muy inteligente. En términos de navegadores, aprenda a utilizar el navegador Chrome o Firefox para inspeccionar elementos y aprenda a utilizarlo para capturar paquetes. Además, en esta etapa, también es necesario comprender los rastreadores y bibliotecas principales, como urllib, request, re, bs4, xpath, json, etc. Es necesario dominar algunas estructuras de reptiles de uso común, como el scrapy. Esta estructura es bastante simple y los principiantes pueden encontrarla abrumadora, pero cuando la cantidad de datos capturados sea muy grande, encontrará su belleza ~ ~

El tercer paso, ahora que tiene una idea sobre el rastreador, es hora de hacerlo tú mismo. Puede diseñar el sistema de rastreo de forma independiente y encontrar más sitios web para practicar. Domine las estrategias y métodos para rastrear páginas web estáticas y dinámicas, comprenda las páginas web cargadas por JS, comprenda selenium + PhantomJS para imitar navegadores y sepa cómo procesar datos json. Si la página web es una solicitud POST, debe conocer los parámetros de datos entrantes. Estas páginas web generalmente se cargan dinámicamente, por lo que debe dominar el método de captura de paquetes. Si desea mejorar la potencia de su rastreador, debe considerar si utilizar operaciones multiproceso, multiproceso u operaciones distribuidas.