Extraer datos
Actualizado hace más de una semana

¿Qué es "Extraer datos"?

"Extraer datos" es un paso imprescindible cuando configuras tu tarea para obtener los datos que necesitas. Todos los campos de datos que necesitas se pueden encontrar en este paso. En este paso, puedes limpiar datos, modificar XPath, cambiar la secuencia, copiar, eliminar campos de datos, etc. Sin este paso, tu tarea no se puede ejecutar.

mceclip0.png

¿Cómo agregar "Extraer datos" al flujo de trabajo?

Hay dos formas de generar una acción "Extraer datos".

1. Haz clic en un elemento de la página web para generar automáticamente (la más común)

Cuando quieres extraer datos de la página, solo necesitas hacer clic en el elemento primero. Luego, haz clic en la opción de "Extraer ......" en el panel Tips y se mostrará una acción de "Extraer datos" en el flujo de trabajo.

Las opciones pueden ser:

"Extraer texto/URL del elemento seleccionado"

"Extrae el HTML interno/externo del elemento seleccionado"

"Extraer datos"

"Extraer datos en el bucle"

......

mceclip1.png

2. Agregar desde el flujo de trabajo

Cuando pones el cursor sobre el flujo de trabajo, puede ver aparecer un icono

. Haz clic en el icono para mostrar las opciones desplegables y elige "Extraer datos" para agregar este paso al flujo de trabajo.

mceclip2.png

Configuraciones de acción

Para ajustar más configuraciones relacionadas con los campos de datos, puedes hacer clic en la acción Extraer datos en el flujo de trabajo y encontrar el panel de configuración en la parte inferior. Puedes ver que hay 3 características principales.

En la sección "General", encontrarás "Extraer datos en el bucle" cuando la acción Extraer datos esté dentro de un Elemento de Bucle.

mceclip3.png

En la sección "Opciones", encontrarás "Esperar antes de la acción" y "Disparadores".

mceclip4.png

1. Extrae datos en el bucle

Esta opción solo se muestra cuando los datos de extracción están dentro de un Elemento de Bucle. Normalmente se marca automáticamente cuando extrae datos directamente de una página de listado en lugar de hacer clic en la página de detalles para extraer datos.

A continuación, se muestra un ejemplo de una página de listado.

mceclip5.png

Para obtener más información sobre cómo extraer datos de la página de resultado de lista, consultA esta guía: Extract a list.

2. Disparadores

El disparador se utiliza cuando quieres extraer datos en función de algunas condiciones.

Por ejemplo, si esta línea de datos no está en blanco en el Campo 1, saltamos esta línea de datos. Consulta más detalles sobre Trigger.

mceclip6.png

3. Antes de que realizar la acción (agregar tiempo de espera)

Esto te permitirá agregar un tiempo de espera antes de ejecutar esta acción. Los diferentes sitios web pueden tener diferentes configuraciones de tiempo de espera para cargar los datos, por lo que a veces es necesario agregar un tiempo de espera o condiciones de espera para dar más tiempo a que se cargue la página web.

Puedes consultar este tutorial para diferentes casos de uso: Wait before action.

mceclip7.png

4. Definir campos de datos

Puedes encontrar detalles del campo de datos en la parte Vista previa de datos y puedes realizar acciones como cambiar el nombre (hacer doble clic en el nombre del campo), eliminar, mover o limpiar tus campos de datos y agregar campos como tiempo de extracción, URL de la página actual, etc. de una lista predefinida.

También puedes revisar el XPath de un determinado campo de datos aquí si no está ubicado correctamente en la salida de datos.

mceclip8.png

Para comprender mejor qué significan esos íconos, verifica los siguientes detalles:

mceclip9.png

: Agregar campos de datos de una lista predefinida, etc. (Agregar campos de datos predefinidos)

mceclip10.png

: Importar campo(s) de datos de un archivo de datos [Octoparse extract config (*.oec)]

mceclip11.png

: Exportar campo(s) de datos de un archivo de datos [Octoparse extract config (*.oec)]

mceclip12.png

: Vistas horizontales y verticales que muestran diferentes estructuras de vista previa de datos

Puedes cambiar a Vistas verticales para modificar el XPath de todos los campos fácilmente o realizar acciones en varios campos marcando la casilla antes de cada campo.

mceclip9.png
823.png

Remover duplicados de los datos extraídos

mceclip14.png

:Mas acciones

Si haces clic en y verás más opciones que te permitirán realizar más modificaciones a tus datos.

mceclip10.png

- Personalizar campo: para seleccionar qué información (texto, HTML, un valor de atributo o URL) necesitas extraer del elemento de la página. Para obtener más información al respecto, consulta este tutorial: Extract element text/URL/image/HTML/attribute.

- Personalizar XPath (Para obtener más información sobre XPath, consulte este tutorial: ¿Qué es XPath y cómo usarlo en Octoparse?)

- Reformatear datos: para limpiar los datos según tus necesidades (por ejemplo, agregar prefijo, sufijo, transformar la hora, reemplazar, etc.). Para obtener más información al respecto, consulta este tutorial: Re-formatear datos extraídos.

- Combinar los datos capturados cuando se extraigan datos del mismo campo varias veces.: para combinar el mismo campo de datos de otros elementos de bucle. Para obtener más información al respecto, consulta este tutorial: Combine data extracted.

- Suprimir: para eliminar el campo de datos actual

- Copiar: para duplicar un determinado campo de datos

¿Ha quedado contestada tu pregunta?