¿Hasta qué punto necesitas aprender a gatear antes de poder recibir órdenes?
Debes alcanzar un nivel intermedio o superior para aprender a rastrear antes de poder aceptar pedidos.
Dividimos la tecnología de rastreo en tres secciones, a saber, intermedia y avanzada. Luego, debe alcanzar un nivel intermedio o superior para aceptar pedidos. Si solo confía en la tecnología de rastreo elemental para aceptar pedidos, no será lo suficientemente fuerte para satisfacer las necesidades de la Parte A, e incluso si puede realizar un pedido, podrá. no podrá realizar dos pedidos y no podrá formar un círculo virtuoso.
Se puede decir que el nivel de los rastreadores intermedios es el nivel básico de los rastreadores profesionales. Además de dominar el conocimiento de los rastreadores junior, también debe dominar los siguientes puntos de conocimiento:
. 1. Rastrear
Cuando su solicitud no es un tema candente, debe pensar que la fuente de los datos puede ser Ajax. Debe comprender JavaScript para analizar el sitio web si desea omitir el proceso. analizando Ajax y algo de lógica JavaScript para capturar datos, solo para usar Puppeteer, Pyppeteer, Selenium, Splash, etc. Para simular el rastreo del navegador.
2. Velocidad de recuperación
Además del método de recuperación, también existe la velocidad de recuperación. En este momento, es necesario tener reservas de conocimiento sobre multiproceso y multiproceso. hilo y procesamiento colaborativo.
3. Rastrear la APLICACIÓN
Si solo puede rastrear páginas web, entonces no puede ser considerado un rastreador intermedio. También debe rastrear la APLICACIÓN, y la APLICACIÓN también representa la mitad de la misma. país. . En este momento, debe aprender a capturar paquetes con Charles y Fiddler. Después de la captura, simplemente simule si la interfaz está cifrada. Puede usar mitmproxy para monitorear directamente los datos de la interfaz o usar Hook, por ejemplo; obtenerse en Xposed.
Introducción a los rastreadores:
Un rastreador web es un programa que extrae automáticamente páginas web de la World Wide Web para que los motores de búsqueda las descarguen. Es una parte importante de los motores de búsqueda. El rastreador tradicional comienza desde la URL de una o varias páginas web iniciales, obtiene la URL de la página web inicial y, en el proceso de rastreo de la página web, extrae continuamente nuevas URL de la página web actual y las coloca en la cola hasta que se cumplen ciertas paradas del sistema.
El flujo de trabajo del rastreador enfocado es más complejo, ya que requiere filtrar enlaces irrelevantes para el tema basándose en algoritmos de análisis de páginas web específicos, retener enlaces útiles y colocarlos en una cola de URL en espera de ser rastreadas. Luego selecciona la siguiente URL para rastrear desde la cola según la política de búsqueda y repite el proceso hasta que se cumpla una determinada condición en el sistema.
Además, todas las páginas web rastreadas se almacenan, analizan, filtran e indexan para su posterior consulta y recuperación; para un rastreador dedicado, los resultados de este proceso pueden proporcionar comentarios y orientación para futuros procesos de rastreo.