Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar Octoparse
¡A ver cómo se hace!
Antes de comenzar, necesitamos obtener la URL de la página de resultados objetivo buscando las palabras clave "DevOps" y "Dallas-Fort Worth, TX".
Luego obtendremos la URL donde necesitamos raspar los datos:
https://www.indeed.com/jobs?q=devops&l=Dallas-Fort%20Worth%2C%20TX&radius=50
Rasparemos los títulos y las descripciones de los trabajos en este tutorial.
Estos son los pasos principales de este tutorial
1) "Go To Web Page" - abra el sitio web de destino
¡Consejos! Siempre le sugerimos que active "Flujo de trabajo" para tener una mejor idea de lo que está haciendo con la tarea. |
2) Cree una paginación - extraiga varias páginas web
3) Modificar XPath - paginar correctamente
XPath es un lenguaje que le permite ubicar elementos específicos de una página precisamente en función de las etiquetas y atributos. Entonces, antes de comenzar a escribir su propio XPath, primero deberá inspeccionar la estructura HTML de la página.
El XPath correcto es //span[contains(text(),'Next')][@class="np"]/../..
¡Consejos! La herramienta de extensión Firebug es muy útil para buscar los elementos de un documento HTML. (Firebug ahora solo está disponible para versiones anteriores de Firebox. Obtenga las versiones anteriores de Firebox aquí.) La modificación de XPath en Octoparse funciona muy bien con más flexibilidad y precisión que la XPath generada automáticamente al hacer clic en los elementos durante la configuración de la tarea. Por lo tanto, debe marcar el "Elemento único" en el "Modo de bucle" si no puede extraer datos de la página siguiente. Si es nuevo en XPath, obtenga más información de los tutoriales aquí, or enjoy a video tutorial aquí. |
4) Cree un "Loop Item" - extraiga en bucle cada elemento de cada fila
Por lo general, al crear un bucle, sería mejor elegir toda la información en lugar de solo una parte de la información. Seleccionar parte de la información puede causar un problema cuando necesita más información de la que ya ha seleccionado.
5) Extraer datos - seleccione datos de su sitio web objetivo
Para el campo de descripción, necesitamos modificar el XPath correcto. El XPath correcto es .//td[@id='resultsCol']/div[contains(@class,'row')].
6) Guarde e inicie la extracción - ejecute la tarea y obtenga datos
¡Feliz búsqueda de datos!
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso