Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Modo Avanzado

Wednesday, March 11, 2020

 

¿Qué es el Modo Avanzado?

 

El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.

 

Con el Modo Avanzado de Octoparse, puedes

  • Lograr el scraping de datos en casi todo tipo de página web;
  • Extraer datos como texto, URL, imagen y HTML;
  • Diseñe un flujo para interactuar con la página web, como la autenticación de inicio de sesión, la búsqueda de palabras clave y la apertura de un menú desplegable.
  • Personalizar su flujo de trabajo, como configurar un tiempo de espera, modificar XPath y reformatear los datos extraídos;

 

Si el sitio web que va a extraer es muy simple, puede comenzar su primer viaje de búsqueda de datos con el Modo Asistente 

 

En este tutorial, lo guiaremos a través de 3 pasos principales para crear una tarea con el Modo avanzado y cubrir las características únicas del Modo avanzado.

1) Crear una nueva tarea en el Modo Avanzado

2) Diseño y personalizar el flujo de trabajo

     1. Interactuar con la página web en el navegador incorporado

  • Acción Consejos

     2. Diseñar el flujo de trabajo

  • Acciones de las tareas del flujo de trabajo
  • Orden de ejecución de flujo de trabajo

      3. Personalizar el flujo de trabajo

  • Acciones de las tareas Personalizar

3) Ejecutar la tarea de obtener los datos extraídos

 

 

1) Crear una nueva tarea en el modo avanzado

1. Haga clic en "+ Tarea" en Modo avanzado

 

 

2. Ingrese la URL y haga clic en "Guardar URL"

 

2) Diseña y personaliza el flujo de trabajo

Después de hacer clic en "Guardar URL", ingresa a la interfaz de configuración de la tarea.

La parte más crítica de una tarea es el flujo de trabajo para sus requisitos específicos de extracción de datos. Octoparse ejecuta cada acción configurada en el flujo de trabajo para completar su recopilación de datos.

En Modo Avanzado, la interfaz de configuración de tareas se puede intercombiar entre dos modos:  El Modo de Selección and El modo de Flujo de Trabajo .

Normalmente, Octoparse ingresará al Modo de Selección por defecto. Puede usar el botón de encendido y apagado en la esquina superior derecha para encender el Modo de Flujo de Trabajo. Al encender el Modo de Flujo de Trabajo, tendrá una mejor idea de lo que está haciendo con su tarea y evitará estropear los pasos.

Ahora, comencemos a construir el flujo de trabajo juntos.

 

 

1. Interactúe con la página web en el navegador incorporado, para capturar cualquier información web con simples clics

1.1 Consejos de acción

Mientras construye una nueva tarea, generalmente comenzará seleccionando los datos que desea en la página web para que Octoparse raspe.

En Modo avanzado, cuando interactúa con la página web en el navegador incorporado, Octoparse le responde ofreciéndole avisos y actividades disponibles en Consejos de Acción

Puede capturar cualquier información web con simples clics. Todo lo que necesita hacer es hacer clic en el campo de datos deseado para capturar y seleccionar la acción adecuada para realizar desde Consejos de acción.

 

2. Diseñe el flujo de trabajo: para decirle a Octoparse dónde y en qué orden seleccionar y extraer los datos que desea

2.1 Hacer tareas acciones en el flujo de trabajo

Después haya hecho clic en cualquier elemento de la página en el navegador incorporado, Octoparse predice y detecta de manera inteligente los datos que desea capturar y le brinda todas las actividades disponibles para elegir en los Consejos de Acción. Después de seleccionar la actividad que necesita, la acción de la tarea correspondiente se generará automáticamente en el flujo de trabajo.

Hay 10 acciones de tareas para formar el flujo de trabajo.

 

Por ejemplo, después que haga clic en "Extraer el texto del elemento seleccionado" de Consejos de Acción, se agregará una acción Extraer datos al flujo de trabajo; después seleccione "Elemento de clic", se generará un elemento de clic en el flujo de trabajo.

 

Además de hacer clic, también puede agregar una acción de tarea al flujo de trabajo arrastrando y soltando. Por lo tanto, puede disfrutar de más flexibilidad mientras diseña su flujo de trabajo.

 

 

¡Consejos!

1.La acción de Juicio de Rama action can only be added to the workflow manually. Obtenga más información sobre el juicio de rama. 

 

2.Bucle de paginación es uno de los tipos de elementos de bucle, mientras que 'Click to paginate' es una variante de Elemento de bucle. Puede verlos creados en el flujo de trabajo cuando extrae varias páginas a través de la paginación. 

3. Si desea ver la introducción completa a todas las acciones de tareas en el flujo de trabajo, haga clic aquí .

 

 

2.2 Orden de ejecución del flujo de trabajo

Para las acciones agregadas en el flujo de trabajo, Octoparse ejecuta cada acción de arriba hacia abajo. Y las acciones envueltas en el Elemento de Bucle se ejecutarían varias veces. Puede modificar su orden de flujo de trabajo arrastrando una acción hacia arriba y hacia abajo.

 

 

3. Personalice el flujo de trabajo - para configurar cada acción en el flujo de trabajo.

3.1 Personalizar la acción de la tarea

Ahora, ha terminado el diseño del flujo de trabajo. Al hacer clic en cada paso del flujo de trabajo, puede ver fácilmente cómo Octoparse está interactuando con el sitio web y si los campos de datos de destino se pueden extraer como se esperaba.

En el Modo Avanzado, para lograr un data scraping efectivo, se ofrece una gama completa de opciones de personalización para configurar aún más las acciones de extracción y los datos extraídos.

Haga clic en la acción en el flujo de trabajo y luego podrá ver todas las opciones de personalización disponibles en el área Personalizar acción.

 

Por ejemplo, para la acción Extraer datos, puede modificar el nombre archivado de los datos extraídos de "Campo1_Texto" en "Título", o eliminar los datos extraídos haciendo clic  .

Para la acción Ir a La Página Web, puede bloquear la ventana emergente para evitar que los anuncios ralenticen la velocidad de extracción.

3) Ejecutar la tarea

Cuando confirme la configuración, haga clic en "Iniciar extracción" para ejecutar su tarea.

 

Puede ejecutar la tarea en Extracción Local  or  Extracción de Cloud .

 

 

Artículos relacionados:

Que es una tarea 

Seleccionar datos 

Interactuar con la página web 

Acción personalizada 

Más técnicas 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse