logo
languageESdown
menu

Scrapear detalles profesionales de Houzz

5 min

En este tutorial, le mostraremos cómo recopilar detalles profesionales en Houzz.com con Octoparse.

Para Houzz, puede visitar nuestra “Task Template” fácil de usar en la pantalla principal de la herramienta de scraping Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Task Templates.

Rasparemos la URL de cada página de detalles en la Tarea 1 y extraeremos los detalles de los profesionales, como el título, el número de revisiones y la descripción con la Tarea 2. Al dividir una tarea en dos, la velocidad de extracción podría mejorarse en cierto grado, especialmente cuando usamos Octoparse Cloud Extraction.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.houzz.com/professionals/architects-and-building-designers/

Tarea 1: Extraer todas las URL de las páginas de detalles en las páginas de resultados de búsqueda

  1. “Ir a la página web” – para abrir la página web de destino
  2. Cree un ciclo de paginación – para scrape varias páginas de listado
  3. Extraer datos – para scrape ciertos elementos en cada página
  4. Iniciar extracción – para ejecutar la tarea y obtener datos

 

Tarea 2: Recopilar la información del producto de URL raspadas

  1. Ingrese un lote de las URL scraped – para abrir en bucle las páginas de detalles
  2. Extraer datos – para seleccionar los datos para la extracción
  3. Iniciar extracción – para ejecutar la tarea y obtener datos

 

Tarea 1: Extraiga las URL de la página de detalles en las páginas de resultados de búsqueda

  • Haga clic en “+ Tarea” para comenzar una nueva tarea con el Modo Avanzado

Advanced Mode es un modo de web scraping altamente flexible y potente. Para las personas que desean scrape de sitios web con estructuras complejas, como houzz.com, recomendamos el Modo Avanzado para comenzar su proyecto de extracción de datos.

  • Pegue la URL en el cuadro “Extraction URL” y haga clic en “Save URL” para continuar

 

2. Cree un ciclo de paginación – para scrape varias páginas de listado

  • Desplácese hacia abajo y haga clic en el botón “Next Page” en la página web
  • Haga clic en “Loop click next page” en “Action Tips”
  • Haga clic en los títulos de dos profesionales
  • Haga clic en “Extraer texto de los elementos seleccionados” en el panel “Action Tips” para crear un bucle
  • Haga clic en cualquier título de la página.
  • Haga clic en “Extraer URL del enlace seleccionado” en el panel “Action Tips” para extraer la URL de la página de detalles
  • Renombrar los campos
  • Haga clic en “Iniciar extracción” en el lado superior izquierdo
  • Seleccione “Extracción local” para ejecutar la tarea en su computadora, o seleccione “Cloud Extraction” para ejecutar la tarea en la nube (solo para usuarios premium)

Una vez completada la extracción de datos, exporte el resultado de la URL para la Tarea 2.

 

Tarea 2: Recopilar los detalles profesionales de las URL

Con la Tarea 1, podemos obtener un lote de URL list

  • Haga clic en “+ Tarea” para iniciar una tarea usando el Modo Avanzado para construir la Tarea 2
  • Input batch URL

Hay tres formas de importar batch URL a cualquier tarea/crawler (hasta un millón de URL). En este caso, importaremos por batch URLde archivos locales. Para un estudio más detallado, consulte Batch Import URLs

 

2. Extraer datos – para seleccionar los datos para la extracción

Como podemos ver, ahora estamos en la página de detalles.

  • Haga clic en la información que necesita en la página.
  • Seleccione “Extraer datos” en los “Action Tips”
  • Renombrar los campos

En este paso, podemos cambiar el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta. Aquí seleccionamos tres campos: Título; Number_of_Reviews; Descripción.

Para extraer el número de teléfono:

  • Haga clic en “Click to call” y seleccione “Click element” en el “Action Panel”
  • Desmarque “New Tab” y “Auto Retry”
  • Establecer “Ajax Timeout” como 5s
  • Haga clic en el número de teléfono y seleccione “Extraer texto del elemento seleccionado”
  • Cambie el nombre del campo según lo necesite.
  • Haga clic en “Save para continuar
  • Clic en Guardar”
  • Haga clic en “Iniciar extracción” en el lado superior izquierdo
  • Seleccione “Extracción local” para ejecutar la tarea en su computadora, o seleccione “Cloud Extraction” para ejecutar la tarea en la nube (solo para usuarios premium)

Ahora tiene los datos que necesita. Con dos tareas, podemos evitar algunos problemas causados por pequeños cambios ocurridos en los sitios web.

Pero si solo quiere scrape los datos por una vez, también puede combinar estas dos tareas en una sola, lo que facilita todo el proceso.

  • Siga el paso1 y paso2 en la Tarea 1
  • Haga clic en “Leer más” del primer profesional
  • Haga clic en “Seleccionar todo” en el panel “Action Tips” y luego haga clic en “Loop click each element”
  • Sigue el paso2 y paso3 en la Tarea 2

¡Feliz búsqueda de datos! 

Consiga Datos Web en Clics
Extraer datos de cualquier sitio web sin código.
Descargar gratis

Posts populares

Explorar temas

Empiece a utilizar Octoparse enseguida

Descargar

Artículos relacionados