Scrapear detalles profesionales de Houzz

En este tutorial, le mostraremos cómo recopilar detalles profesionales en Houzz.com con Octoparse.

Para Houzz, puede visitar nuestra “Task Template” fácil de usar en la pantalla principal de la herramienta de scraping Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Task Templates.

Rasparemos la URL de cada página de detalles en la Tarea 1 y extraeremos los detalles de los profesionales, como el título, el número de revisiones y la descripción con la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse en cierto grado, especialmente cuando usamos Octoparse Cloud Extraction.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.houzz.com/professionals/architects-and-building-designers/

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

“Ir a la página web” – para abrir la página web de destino
Cree un ciclo de paginación – para scrape varias páginas de listado
Extraer datos – para scrape ciertos elementos en cada página
Iniciar extracción – para ejecutar la tarea y obtener datos

Tarea 2: Recopilar la información del producto de URL raspadas

Ingrese un lote de las URL scraped – para abrir en bucle las páginas de detalles
Extraer datos – para seleccionar los datos para la extracción
Iniciar extracción – para ejecutar la tarea y obtener datos

Tarea 1: Extraiga las URL de la página de detalles en las páginas de resultados de búsqueda

Haga clic en “+ Tarea” para comenzar una nueva tarea con el Modo Avanzado

Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como houzz.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.

Pegue la URL en el cuadro “Extraction URL” y haga clic en “Save URL” para continuar

2. Cree un ciclo de paginación – para scrape varias páginas de listado

Desplácese hacia abajo y haga clic en el botón “Next Page” en la página web
Haga clic en “Loop click next page” en “Action Tips”

Haga clic en los títulos de dos profesionales
Haga clic en “Extraer texto de los elementos seleccionados” en el panel “Action Tips” para crear un bucle
Haga clic en cualquier título de la página.
Haga clic en “Extraer URL del enlace seleccionado” en el panel “Action Tips” para extraer la URL de la página de detalles
Renombrar los campos

Haga clic en “Iniciar extracción” en el lado superior izquierdo
Seleccione “Extracción local” para ejecutar la tarea en su computadora, o seleccione “Cloud Extraction” para ejecutar la tarea en la nube (solo para usuarios premium)

Una vez completada la extracción de datos, exporte el resultado de la URL para la Tarea 2.

Tarea 2: Recopilar los detalles profesionales de las URL

Con la Tarea 1, podemos obtener un lote de URL list

Haga clic en “+ Tarea” para iniciar una tarea usando el Modo Avanzado para construir la Tarea 2
Input batch URL

Hay tres formas de importar batch URL a cualquier tarea/crawler (hasta un millón de URL). En este caso, importaremos por batch URLde archivos locales. Para un estudio más detallado, consulte Batch Import URLs

2. Extraer datos – para seleccionar los datos para la extracción

Como podemos ver, ahora estamos en la página de detalles.

Haga clic en la información que necesita en la página.
Seleccione “Extraer datos” en los “Action Tips”
Renombrar los campos

En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta. Aquí seleccionamos tres campos: Título; Number_of_Reviews; Descripción.

Para extraer el número de teléfono:

Haga clic en “Click to call” y seleccione “Click element” en el “Action Panel”
Desmarque “New Tab” y “Auto Retry”
Establecer “Ajax Timeout” como 5s
Haga clic en el número de teléfono y seleccione “Extraer texto del elemento seleccionado”
Cambie el nombre del campo según lo necesite.
Haga clic en “Save para continuar

Clic en Guardar”
Haga clic en “Iniciar extracción” en el lado superior izquierdo
Seleccione “Extracción local” para ejecutar la tarea en su computadora, o seleccione “Cloud Extraction” para ejecutar la tarea en la nube (solo para usuarios premium)

Ahora tiene los datos que necesita. Con dos tareas, podemos evitar algunos problemas causados por pequeños cambios ocurridos en los sitios web.

Pero si solo quiere scrape los datos por una vez, también puede combinar estas dos tareas en una sola, lo que facilita todo el proceso.

Siga el paso1 y paso2 en la Tarea 1
Haga clic en “Leer más” del primer profesional
Haga clic en “Seleccionar todo” en el panel “Action Tips” y luego haga clic en “Loop click each element”
Sigue el paso2 y paso3 en la Tarea 2

¡Feliz búsqueda de datos!