Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Seleccionar y extraer datos/URL/Imagen/HTML

Wednesday, March 11, 2020

 

En este tutorial, le mostraremos cómo usar Octoparse para extraer texto, URL, imagen y HTML.

 

Pero antes de comenzar, echemos un vistazo a cómo Octoparse scrape los datos que necesita.

Mientras crea una nueva tarea, por lo general comenzará seleccionando los datos deseado en la página web para que Octoparse los scrape. Para seleccionar elementos en la página, debe crear una selección. En general, hay dos pasos para crear la selección:

 

1. Haga clic en sus datos de destino

2. Seleccione la acción adecuada, como "Seleccionar todo" y "Extraer texto del elemento seleccionado", para realizar desde "Consejos de acción"

Cuando hace clic en el elemento que necesita, el área de selección estará en un cuadro verde. También puede encontrar que hay algunos otros elementos en la página resaltados en un cuadro rojo al mismo tiempo. Esto se debe a que Octoparse descubre de manera inteligente el patrón específico que representa el elemento seleccionado en la página web, y selecciona automáticamente los otros elementos del patrón similar, ya que es posible que desee capturarlos a todos.

 

Una vez que se crea la selección, todos los elementos similares en varias páginas se detectarán y agregarán a la selección según el patrón. Octoparse ejecutará repetidamente el scraping hasta que se obtenga cada elemento de la selección.

 

Ahora, has conocido mejor a Octoparse. ¡Veamos cómo seleccionar y extraer tres tipos específicos de datos con Octoparse!

 

1) Extraer Texto

2) Extraer la URL de un enlace o una imagen

3) Extraer HTML interno / externo

 

 

 

1) Extraer texto

La mayoría de los datos se representan como texto legible en la web, como artículos de noticias, información de productos y blog. Entonces, una vez que adquiere la habilidad para extraer datos de texto, cuando luego se combina con otras técnicas como la paginación y la creación de listas, puede lograr el raspado de datos en casi todo tipo de páginas web.

 

Veamos cómo seleccionar y extraer los datos de texto con Octoparse.

 

  

1. Haga clic en los datos de destino que desea

Cuando hace clic en el elemento que necesita, el área de selección estará en un cuadro verde. Elementos similares en la página web se resaltarán en rojo.

2. Crea la selección

Haga clic en "Seleccionar todo". Los elementos similares en un cuadro rojo en la página web se resaltarán en verde, y puede notar que la selección se crea en "Consejos de acción". Octoparse ejecutará repetidamente el raspado hasta que se extraiga el texto de cada elemento de la selección.

3. Extraiga texto

Haga clic en "Extraer texto de los elementos seleccionados" para terminar de crear la selección.

 

 

 


2) Extraer la URL de un enlace o una imagen

Coloquialmente, una URL es un hipervínculo. Con un solo clic en una URL, puede abrir una nueva página web o ir a un nuevo sitio web, al igual que sucede cuando hace clic en el título de un libro en Amazon.

Además de una página web, la URL también le permite acceder al recurso de archivo específico a través de Internet, como una imagen. Si obtiene la URL, puede descargar el archivo o la imagen correspondiente de Internet.

Veamos cómo seleccionar y extraer la URL de un enlace o una imagen con Octoparse.

 

1. Haga clic en el enlace / imagen que desea

Cuando hace clic en el enlace / imagen que necesita, el área de selección estará en un cuadro verde. Los elementos similares en la página web se resaltarán en un cuadro rojo.

 

¡Consejos!

Cuando selecciona un elemento con URL, la etiqueta seleccionada en la parte inferior de "Consejos de acción" debe ser "A", que significa ancla que generalmente vincula una página a otra.

Para crear un patrón correcto para scrape todos los elementos, asegúrese de seleccionar el área correcta.

 

 

2. Crea la selección

Haga clic en "Seleccionar todo". Los elementos similares en un cuadro rojo en la página web se resaltarán en verde, y puede notar que la selección se crea en "Consejos de acción". Octoparse ejecutará repetidamente el raspado hasta que se extraiga el texto de cada elemento de la selección.

3. Extraiga la URL

Haga clic en "Extraer las URL de los elementos seleccionados" / "Extraer URL de imagen en el bucle" para terminar de crear la selección.

 

¡Consejos!

 

¿Puedo usar Octoparse para obtener directamente una imagen, no su URL, de la página web?

Desafortunadamente, no puede usar Octoparse para extraer la imagen en sí. Si desea extraer imágenes, primero puede scrape las URL de las imágenes con Octoparse y luego descargar las imágenes de forma masiva con una herramienta de "descarga desde URL"  .

 

 

 

 

3) Extraer HTML interno / externo

A diferencia del texto y la URL, los datos como los iconos no están disponibles para extraerse directamente. Cuando desee extraer contenido visual que no sea de texto, como la clasificación por estrellas, debe extraer el HTML interno / externo de estos contenidos.

Además de los iconos, también puede extraer textos, cuadros y gráficos ocultos de una página web extrayendo primero el HTML de estos elementos.

Para obtener los datos detrás de los iconos, debe aplicar expresiones regulares para limpiar los datos.

Primero veamos cómo seleccionar y extraer HTML interno / externo con Octoparse.

 

 

1. Haga clic en los datos de destino que desea

Cuando hace clic en el elemento que necesita, el área de selección estará en un cuadro verde. Elementos similares en la página web se resaltarán en rojo.

2. Extraiga HTML interno / externo

Haga clic en "Extraer HTML interno / externo del seleccionado" en "Consejos de acción" para terminar de crear la selección.

 

¡Consejos!

Octoparse proporciona funciones y herramientas útiles para que pueda aplicar expresiones regulares.

Artículos relacionados

Extraer texto de HTML - Usando la herramienta RegExpxtract 

Formatear datos extraídos 


 

Artículos relacionados:

Usa listas para extraerse

Extraer varias páginas a través de la paginación 

Extraer detrás de un inicio de sesión 

Extracto del código fuente 

Extraer datos a nivel de página

Extraer de una lista de URL 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse