Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar Octoparse
Consejos: |
Ahora, veamos algunos ejemplos de cómo las páginas web organizan la información con listas.
![]() |
![]() |
![]() |
![]() |
Dado que las listas son tan comunes, aprender a extraer una lista o mediante la creación de una lista se convierte en una técnica clave de raspado para adquirir. En este tutorial, cubriré una serie de escenarios de cuándo se realiza la extracción de datos mediante la configuración de una lista en Octoparse.
2) Desde el Panel de acciones, haga clic en "Seleccionar todo"
3) Según el tipo de datos necesarios, siga las instrucciones en el Panel de acciones para finalizar la acción de extracción (es decir, "Extraer el texto del enlace").
¡Consejos!
Use el botón de expansión del Plantilla de Acciones para expandir la selección si es necesario.
|
Extraer datos de secciones de una lista
Cuando la lista consta de partes similares, y cada parte contiene información diversa que queremos capturar, puede capturar información detallada directamente de la lista construyendo una lista de partes.
Por ejemplo, en la imagen a continuación, la página está construida con una lista de diferentes artículos de noticias con información detallada, como el título del artículo, la fecha en que se publicó y el nombre del autor.
Para extraer información detallada de cada sección individual de una lista, dividiremos el proceso de extracción en dos pasos:
¡Consejos!
|
¡Consejos!
|
¡Consejos! Es importante asegurarse de que está seleccionando campos de datos de la sección resaltada para que Octoparse pueda relacionar los campos de datos con las secciones correspondientes con precisión.
|
¡Consejos! Para confirmar si los datos se están capturando correctamente para cada elemento de la lista de bucles, seleccione diferentes elementos en bucle y luego haga clic en "Extraer datos". Verifique si los datos correspondientes a cada elemento del bucle se extraen correctamente.
|
3) Cambie el interruptor de flujo de trabajo ubicado en el lado superior derecho. En el lado izquierdo está el flujo de trabajo generado por Octoparse y en el lado derecho están los datos extraídos. Cambie el nombre de los campos según sea necesario o elimine los campos de datos innecesarios.
Capture para tabla
¡Consejos!
|
¡Consejos!
Si se desea la URL o HTML del elemento seleccionado en lugar del texto, haga clic en la opción correspondiente desde el Panel de acciones. |
7) Cambie el interruptor de flujo de trabajo ubicado en el lado superior derecho. En el lado izquierdo está el flujo de trabajo generado por Octoparse y en el lado derecho están los datos extraídos. Cambie el nombre de los campos según sea necesario o elimine los campos de datos innecesarios.
8) Haga clic en las acciones del flujo de trabajo para ver si las diferentes filas tienen los datos extraídos correctamente.
Artículos relacionados:
Seleccionar elementos en un menú desplegable
Seleccionar y extraer datos/URL/imagen/HTML
Extraer varias páginas a través de la paginación
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso