Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Extracción de datos conglomerado

Thursday, February 27, 2020

En este tutorial, le mostraremos cómo personalizar el conglomerado de datos en Octoparse para fusionar diferentes filas de datos en una sola fila.

 

Supongamos que necesita extraer publicaciones de un blog. En algunos casos, es posible que no pueda seleccionar todos blogs para extraer. Pero desea la publicación completa en una sola fila en lugar de párrafos separados en diferentes campos de datos como a continuación:

 Entonces, en este caso, para fusionar diferentes filas en una fila de datos, le sugerimos que use la función de conglomerado en Octoparse mientras configura la extracción.

 Aquí usamos el contenido del blog de https://philipyancey.com/a-view-from-abroad como un ejemplo para mostrarle cómo usar la función de conglomerado para fusionar los datos extraídos.

 

 

1) Seleccione los datos deseados para extraer

 

1. Seleccione un párrafo en la página y haga clic en "Seleccionar todo" para crear "Elemento de bucle" para extraer cada párrafo de la publicación.

 

2.Seleccione "Extraer texto de los elementos seleccionados"

                                                                                 

 

2) Personalice el conglomerado de datos para combinar los datos extraídos

 

1. Haga clic en la acción "Extraer datos" y luego en el campo de datos para personalizar

 

 

2. Haga clic   en para personalizar el campo de datos

 

3. Seleccione "Personalizar conglomerado de datos"

 

4.  Seleccione "Datos del conglomerado capturados para el mismo campo de datos en una sola fila".

Ahora, los párrafos capturados en el campo "Texto" se fusionarían en una sola fila cuando se ejecuten.

 

 

Ejecutemos la tarea y exportemos el resultado para sobresalir para una mejor vista.

Puede ver que los párrafos capturados en el "Texto" archivado ahora se combinan fusionan en una sola fila como una gran porción.

 

 

 ¡Consejos!

 1. El conglomerado de datos es especialmente útil para extraer artículos de la web.

Puede extraer el artículo como un fragmento completo sin otros elementos como líneas en blanco, comentarios e imágenes.

 2. Cuando los datos se agrupan como un fragmento, puede usar las herramientas de reformateo de datos  para agregar un prefijo(prefix) o (sufijo), como "|" y "\", para que cada elemento se vea mejor limpia.

 

Artículos relacionados:

Seleccionar y extraer datos/URL/imagen/HTML 

Extraer varias páginas a través de la paginación 

Formatear datos extraídos 

 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse