Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape la información del trabajo de indeed

Friday, February 28, 2020

 

En este tutorial, le mostraremos cómo crear un web scraping con Octoparse para recopilar información sobre la publicación de empleos en Indeed.

Podemos raspar datos como la ciencia de datos, reclutamiento de información de trabajo en Indeed con Octoparse. Después de diseñar el rastreador, todo el proceso de raspado se automatiza sin necesidad de codificación.

¡A ver cómo se hace!

 

Antes de comenzar, necesitamos obtener la URL de la página de resultados objetivo buscando las palabras clave "DevOps" y "Dallas-Fort Worth, TX".

Luego obtendremos la URL donde necesitamos raspar los datos:

https://www.indeed.com/jobs?q=devops&l=Dallas-Fort%20Worth%2C%20TX&radius=50

 

Rasparemos los títulos y las descripciones de los trabajos en este tutorial.

Estos son los pasos principales de este tutorial 

  1. "Go To Web Page" - abra el sitio web de destino
  2. Cree una paginación - extraiga varias páginas web
  3. Modificar XPath - paginar correctamente
  4. Cree un "Loop Item" - extraiga en bucle cada elemento de cada fila
  5. Extraer datos - seleccione datos de su sitio web objetivo
  6. Guarde e inicie la extracción - ejecute la tarea y obtenga datos

  

1) "Go To Web Page" - abra el sitio web de destino

  • Crea tu tarea con el "Advanced mode".
  • Pegue la URL que acabamos de ingresar en el cuadro "Sitio web" y guárdela para continuar.
  • Marque "Bloquear ventana emergente" para evitar todas las ventanas emergentes posibles y haga clic en "Aceptar" para guardar

 

1.gif

¡Consejos!

Siempre le sugerimos que active "Flujo de trabajo" para tener una mejor idea de lo que está haciendo con la tarea.

 

 

2) Cree una paginación - extraiga varias páginas web

  • Desplácese hacia abajo para encontrar el botón "Siguiente"
  • Seleccione la etiqueta "A" y haga clic en "Loop click the selected link" ya que no se ubica automáticamente en la etiqueta "A" del botón

 

2.gif

  

 

3) Modificar XPath - paginar correctamente

XPath es un lenguaje que le permite ubicar elementos específicos de una página precisamente en función de las etiquetas y atributos. Entonces, antes de comenzar a escribir su propio XPath, primero deberá inspeccionar la estructura HTML de la página.

 

  • Encuentra la XPath correcta con la herramienta de extensión Firepath/Firebug en el navegador Firefox.

El XPath correcto es //span[contains(text(),'Next')][@class="np"]/../..

2.5.png

 

 

  • Haga clic en el ciclo de paginación en su flujo de trabajo y pegue el XPath correcto en el cuadro "Elemento único" en "Opciones avanzadas"

2.6.gif

¡Consejos!

La herramienta de extensión Firebug es muy útil para buscar los elementos de un documento HTML. (Firebug ahora solo está disponible para versiones anteriores de Firebox. Obtenga las versiones anteriores de Firebox aquí.)

La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que la XPath generada automáticamente al hacer clic en los elementos durante la configuración de la tarea. Por lo tanto, debe marcar el "Elemento único" en el "Modo de bucle" si no puede extraer datos de la página siguiente.

Si es nuevo en XPath, obtenga más información de los tutoriales aquí, or enjoy a video tutorial aquí.

 

 

 

4) Cree un "Loop Item" - extraiga en bucle cada elemento de cada fila

  • Seleccione toda la información de los dos primeros elementos de la lista

Por lo general, al crear un bucle, sería mejor elegir toda la información en lugar de solo una parte de la información. Seleccionar parte de la información puede causar un problema cuando necesita más información de la que ya ha seleccionado.

  • Haga clic en "Extraer texto de los elementos seleccionados" en el panel  "Action Tips" 

 

3_loop.gif

 

 

5) Extraer datos - seleccione datos de su sitio web objetivo

  • Seleccione el título del primer elemento y haga clic en "Extraer texto de los elementos seleccionados" en el panel "Consejos de acción"
  • Seleccione la descripción del primer elemento y haga clic en "Extraer texto de los elementos seleccionados" en el panel "Consejos de acción"
  • Elimine el primer campo porque contiene todo el texto desordenado en el primer elemento de la lista

 

4_extract.gif

 

  • Extraiga otros datos que desee y cambie el nombre de los campos si es necesario.

sample_field.png

 

Para el campo de descripción, necesitamos modificar el XPath correcto. El XPath correcto es .//td[@id='resultsCol']/div[contains(@class,'row')].

  • Seleccione "Descripción" y haga clic en modify.png
  • Seleccione "Personalizar XPath" y cambie "XPath coincidente" en el XPath correcto arriba
  • Haga clic en "Aceptar" para guardar

 

xpath.gif

 

 

6) Guarde e inicie la extracción - ejecute la tarea y obtenga datos

  • Clic en "Save"
  • Haga clic en "Start Extraction" en el lado superior izquierdo
  • Seleccione "Local Extraction" para ejecutar la tarea en su computadora, o seleccione "Cloud Extraction" para ejecutar la tarea en la nube (solo para usuarios premium)

 

run.gif

 

¡Feliz búsqueda de datos!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse