Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Usa listas para extraer

Wednesday, March 11, 2020

 

¿Qué es una lista?
 
Una lista puede entenderse fácilmente como una colección de elementos recurrentes con patrones HTML similares. Las listas de muchas formas son formas increíblemente comunes para que los sitios web organicen información.
 
Webscraping with Octoparse  - Using list to extract

 

Consejos:
 
Octoparse detecta elementos que pertenecen a una lista a través de su patrón de codificación en el código fuente HTML subyacente.

 
 

Ahora, veamos algunos ejemplos de cómo las páginas web organizan la información con listas.

 
Webscraping with Octoparse - Extract with list Webscraping with Octoparse - Extracting with list
 
 
Web scraping with Octoparse - Extract with list Web Scraping with Octoparse - Extract with list 

 

Dado que las listas son tan comunes, aprender a extraer una lista o mediante la creación de una lista se convierte en una técnica clave de raspado para adquirir. En este tutorial, cubriré una serie de escenarios de cuándo se realiza la extracción de datos mediante la configuración de una lista en Octoparse.

 
 
 
 
 
Extraer datos de una lista
 
Obtener datos como Texto / URL / HTML directamente de una lista seleccionada es el tipo más básico de técnica de extracción de listas. Siga los pasos a continuación para completar la acción,
 
1) Haga clic en cualquiera de los elementos de la lista de objetivos

 

 

Web Scraping with Octoparse - Using list to extract

2) Desde el Panel de acciones, haga clic en "Seleccionar todo"

Web scraping with Octoparse - extract with list

3) Según el tipo de datos necesarios, siga las instrucciones en el Panel de acciones para finalizar la acción de extracción (es decir, "Extraer el texto del enlace").

Web scraping with Octoparse - extract with list

 

¡Consejos!

 

Use el botón de expansión del Plantilla de Acciones para expandir la selección si es necesario.

 

Octoparse siempre tiene el elemento seleccionado resaltado en verde y los elementos detectados resaltados en rojo. Si después del primer clic, Octoparse no puede detectar todos los elementos de la lista, siempre puede hacer clic en cualquier elemento no detectado. Octoparse capurar a los elementos recién seleccionados y seguirá refinando la lista.

 

 
 
 
 

Extraer datos de secciones de una lista

 Cuando la lista consta de partes similares, y cada parte contiene información diversa que queremos capturar, puede capturar información detallada directamente de la lista construyendo una lista de partes.  

Por ejemplo, en la imagen a continuación, la página está construida con una lista de diferentes artículos de noticias con información detallada, como el título del artículo, la fecha en que se publicó y el nombre del autor.  

 
Web scraping with Octoparse - example image
 

Para extraer información detallada de cada sección individual de una lista, dividiremos el proceso de extracción en dos pasos:

 
1) Construya una lista de las secciones de destino
2) Especifique los campos de datos detallados para capturar desde cada sección individual
 
Siga los pasos a continuación para ver cómo se hace en acción:
 
 
1) Construya listas de las secciones de destino
  • Haga clic en cualquier sección de la lista de objetivos. Ahora toda la sección de destino debería resaltarse en verde con todos los subelementos resaltados en rojo.

Web Scraping with Octoparse - extract list detail step 2

 


   ¡Consejos!

  • Pase el mouse sobre la sección hasta que se resalte toda la sección deseada.

       

  • A menudo, es difícil determinar la sección exacta necesaria, siempre puede hacer clic en el icono de expansión desde el Panel de acción para expandir la selección hasta el punto en que se incluyen todos los campos de datos de destino.

 

 

  • Haga clic en otra sección de la lista de objetivos. Octoparse selecciona automáticamente todas las secciones similares (resaltadas). 
Web Scraping with Octoparse - extract list detail step 2
 

¡Consejos!

  • Aunque en el Panel de acción se proporcionan indicaciones para extraer los subelementos detectados, dado que queremos extraer de todas las secciones de la lista y no solo de la que se hizo clic, continuaremos construyendo la lista en lugar de seleccionar cualquiera de Las acciones solicitadas.
  • Si después de dos clics, todavía se necesitan secciones pero no se han seleccionado automáticamente, puede seguir haciendo clic en las secciones no seleccionadas para ayudar a Octoparse a refinar la lista.
 
  • Desde el Panel de acciones, seleccione "Extraer texto del elemento seleccionado"
 
Web scraping with Octoparse - extract list detail step 3
 
 
2) Extraiga los campos de datos específicos de cada sección individual
  • Haga clic en el título del artículo
  • Desde el Panel de acciones, seleccione "Extraer texto del elemento seleccionado"
  • Siga los mismos pasos para extraer los otros campos de datos, como el autor, la fecha de publicación y el resumen del artículo.


Web scraping with Octoparse - extract list detail step 5

 

  ¡Consejos!

  Es importante asegurarse de que está seleccionando campos de datos de la sección resaltada para que Octoparse pueda relacionar los campos de datos con las secciones correspondientes con precisión.

 


3) Cambie el interruptor de Flujo de trabajo Octoparse Web Scraping - Workflow icon ubicado en el lado superior derecho. En el lado izquierdo está el flujo de trabajo generado por Octoparse y en el lado derecho están los datos extraídos. Cambie el nombre de los campos según sea necesario o elimine los campos de datos innecesarios.
 

Web scraping with Octoparse - extract list detail step 7

 
Web scraping with Octoparse - extract list detail step 8

 

¡Consejos!

Para confirmar si los datos se están capturando correctamente para cada elemento de la lista de bucles, seleccione diferentes elementos en bucle y luego haga clic en "Extraer datos". Verifique si los datos correspondientes a cada elemento del bucle se extraen correctamente.

 

Web scraping with Octoparse - extract list detail step 8

 
 
 
 
Haga clic en cada enlace en una lista para extraer
 
Solo hay poco cantidad que podría estar contenida en las secciones de una lista. Cuando se necesita más detalles, a menudo es necesario hacer clic en los enlaces de la lista y luego capturar la información detallada de la página de detalles.
 
Veamos el siguiente ejemplo.
 
Web scraping with Octoparse - click into links and extract
 
 
Aunque hay alguna información como el título del producto, el número de modelo, etc. disponible directamente de la lista, pero cuando queremos algo más específico, como las características o la especificación de los productos, en realidad necesitaremos hacer clic en los enlaces del lista luego continúe para capturar los datos deseados de la página de detalles. Para hacer esto, dividiremos el proceso de extracción en 2 pasos:
 
1) Cree una lista de los enlaces para hacer clic en abrir
2) Especifique los campos de datos deseados para capturar desde la página de detalles
 
 
Siga los pasos a continuación para ver cómo se hace:
1) Construya una lista de los enlaces deseados
  • Haga clic en un enlace de la lista

Web scraping with Octoparse - extract list detail

  • Desde el Panel de acciones, haga clic en "Seleccionar todo"

Web scraping with Octoparse - extract list detail

  • Desde el Panel de acciones, haga clic en "Bucle, haga clic en cada URL"

Web scraping with Octoparse - extract list detail

2) Especifique los campos de datos para capturar desde la página de detalles
  • Haga clic en el título del producto
  • Desde el Panel de acciones, haga clic en "Extraer texto del elemento seleccionado"
  • Siga los mismos pasos para capturar cualquier otro campo de datos, t como el modelo, SKU, clasificación, etc.

 

Web scraping with Octoparse - extract list detail

3) Cambie el interruptor de flujo de trabajo Web scraping with Octoparse - extract table ubicado en el lado superior derecho. En el lado izquierdo está el flujo de trabajo generado por Octoparse y en el lado derecho están los datos extraídos. Cambie el nombre de los campos según sea necesario o elimine los campos de datos innecesarios.

 

Web scraping with Octoparse - extract list detail

 

Capture para tabla

Una tabla es una de las formas más comunes de visualización de datos en la web. Para capturar datos de una tabla con Octoparse, aplicaremos la técnica de extracción de listas tratando cada fila individual de la tabla como una sola sección de una lista, luego puede especificar los campos de datos (las columnas) para extraer de cada fila.
 

Web scraping with Octoparse - extract table

 
Siga los pasos a continuación para ver cómo se hace en Octoparse:
1) Haga clic en cualquier fila de la tabla
 

¡Consejos!

  • Siga haciendo clic en el icono de expansión desde el Panel de acciones hasta que se resalte toda la fila.

        

  • Vuelva a cargar la página web con el icono "Volver a cargar"  ubicado junto a la barra de direcciones. Tan pronto como se cargue toda la información necesaria en el navegador incorporado, siempre puede hacer clic en el icono "Dejar de cargar"  para continuar con la siguiente acción.
 
 
2) Haga clic en otra fila de la misma tabla

3) Desde el Panel de acciones, haga clic en "Extraer texto de los elementos seleccionados"
 

Web scraping with Octoparse - extract table

 

4) Desde las filas resaltadas, haga clic en los campos de datos deseados para capturar.
5) Desde el Panel de acciones, haga clic en "Extraer texto de los elementos seleccionados".
6) Capture los otros campos de datos deseados de la fila resaltada de manera similar.

 

Web scraping with Octoparse - extract table

 

¡Consejos!

 

Si se desea la URL o HTML del elemento seleccionado en lugar del texto, haga clic en la opción correspondiente desde el Panel de acciones.

 

7) Cambie el interruptor de flujo de trabajo ubicado en el lado superior derecho. En el lado izquierdo está el flujo de trabajo generado por Octoparse y en el lado derecho están los datos extraídos. Cambie el nombre de los campos según sea necesario o elimine los campos de datos innecesarios.

Web scraping with Octoparse - extract table

8) Haga clic en las acciones del flujo de trabajo para ver si las diferentes filas tienen los datos extraídos correctamente.

Web scraping with Octoparse - extract table

 

Artículos relacionados:

Seleccionar elementos en un menú desplegable 

Seleccionar y extraer datos/URL/imagen/HTML  

Extraer varias páginas a través de la paginación 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse