Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Bloqueo de anuncios/Borrar caché

Thursday, February 27, 2020

En general, una tarea creada en Octoparse comienza con la apertura de la página web de destino. Para facilitar este paso, proporcionamos dos funciones para ayudar: bloqueo de anuncios y borrar caché. Utilizar estas funciones correctamente puede acelerar enormemente su proceso de raspado web.

Las características cubiertas en este tutorial son:

 

 

Bloqueo de anuncios

La velocidad de extracción de un rastreador se ve afectada por la velocidad de carga de la página. Si aparecen muchos anuncios inesperados en la página web, como pancartas y ventanas emergentes, la página se cargará lentamente y perderá su tiempo. El bloqueo de anuncios puede reducir sus solicitudes de página y, por lo tanto, optimizar el tiempo de carga.

 

Cómo bloquear anuncios

Hay dos formas en Octoparse para configurar el "Bloqueo de anuncios".

1. Seleccione el paso de "Ir a la página web", puede localizar fácilmente "Bloqueo de anuncios" en "Opciones avanzadas".

 

 

2. O haga clic en "Configuración", luego puede ver la opción "Bloquear anuncios".

  

¡Consejos!

El uso de la técnica de bloqueo de anuncios puede cambiar la estructura de algunas páginas web. Si es así, ajuste el XPath para reubicar los elementos.
Obtenga más información sobre cómo ubicar elementos con XPath 

Ahora Octoparse ha "recordado" la nueva cookie.

 

 

Limpiar cache

En algunos casos, por ejemplo, si necesita borrar las cookies recordadas por extraer datos detrás de un inicio de sesión, Octoparse también ofrece la opción de borrar la memoria caché para que pueda volver a cargar la página.

 

 

Cómo borrar el caché

1. Seleccione el paso "Ir a la página web", "Borrar caché" se puede encontrar fácilmente en "Configuración de caché".

 

2. Una vez abierta la página, si desea que Octoparse recuerde la nueva cookie, también es fácil.

  • Haga clic en "Usar cookie especificada"
  • Haga clic en "Cargar cookie desde la página web actual"

 

 

 

 ¡Consejos!

1. Como las cookies vienen en diferentes formas, su período de validez también es diferente. Algunos permanecen más tiempo, mientras que otros caducan tan pronto como se cierra el navegador. En Octoparse, las cookies guardadas ya no funcionarán si caducan. Luego debe "Borrar caché" y volver a cargar la cookie.

2. La configuración de caché es bastante importante, especialmente para los sitios web que requieren el inicio de sesión, obtenga más información sobre cómo extraer datos detrás de un inicio de sesión 

 

 

Artículos relacionados:

Localizar elementos con XPath  

Extraer datos detrás de un inicio de sesión 

Tutorial de caso | precios de scraping de eBay 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse