Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Reintentar acciones

Thursday, February 27, 2020

La acción de reintento es una característica proporcionada en Octoparse para volver a cargar la página web que desea raspar en función de cierta condición.

 

¿Por qué configurar "Reintentar"?

Cuando la página web no se carga correctamente, Octoparse encontrará problemas sobre scrape datos de la página y sobre hacer la siguiente paso. En este caso, Octoparse debe volver a intentar cargar la página antes de comenzar la extracción.

 

 

¿Cómo configurar "Reintentar"?

La configuración de reintento solo está disponible en 3 operaciones relacionadas con la carga de la página en el flujo de trabajo: Ir a la página webhacer clic en Elemento y hacer clic para paginar.

 

  • Marque la casilla "Reintentar cuando", luego haga clic  para configurar la condición

Octoparse necesita una cierta condición para determinar si la página se carga normalmente y vuelve a intentar cargarla si la carga falla.

 

 

 

· Configure la opción "URL / contenido / elemento (XPath) contiene “la opción "Contiene / No contiene"

Por lo general, cuando la carga falla, la página web le responderá con un mensaje en la URL/contenido de la página actual para indicar lo que sucede, como ""/errors", "500 Internal Server Error" o "Too many requests". Ingrese una cadena específica como condición en el cuadro de texto y seleccione "Contains". Por lo tanto, Octoparse volvería a intentar cargar la página cuando Octoparse detecta una cadena en la URL / contenido de la página actual

También puede ingresar la XPath de algún elemento determinado que solo estaría allí cuando la página se cargue normalmente. En este caso, debe seleccionar "No contiene". Como resultado, una vez que Octoparse no detecte el XPath establecido en la página actual, volverá a cargar la página.

Puede hacer clic   para agregar múltiples condiciones para que Octoparse haga el juicio.

 

 

 

 

· Configurar "Tiempos máximos de recargar" y tiempo de intervalo

Para evitar que Octoparse vuelva a cargar la página web indefinidamente, debe configurar los tiempos máximos de reintento. Cuando Octoparse alcanza los tiempos máximos de reintentos, se detendría y entraría en el siguiente paso.

 

 

 

Artículos relacionados:

Extraer varias páginas a través de la paginación 

Extraer datos de una lista de URL 

Tratar con AJAX 

Localizar elementos con XPath 

Configurar tiempo de espera 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse