Todas las colecciones
Tutorial de Casos
E-Commerce
Scrape la información del producto de bukalapak
Scrape la información del producto de bukalapak
Actualizado hace más de una semana

En este tutorial, le mostraremos cómo recopilar detalles del producto en bukalapak.com con Octoparse.

Puede visitar nuestras plantillas de tarea en la página de inicio de Octoparse. Todo lo que necesita es escribir varios parámetros y la tarea está lista para comenzar. Para más detalles, puede consultarlo aquí: Plantillas de tarea.

mceclip0.jpg

Para seguir, puede usar esta URL en el tutorial:

Estos son los pasos principales de este tutorial [Descargar el demo tareas archivo aquí

]

1."Ir a la página web" - para abrir la página web de detalles

  • Pegue la URL en el cuadro de texto de la página de inicio

  • Haga clic en "Empezar" para continuar

pagina_de_inicio2.jpg
  • Desplácese hacia abajo y haga clic en el botón "Ir a la página“ en el panel de trabajo

  • Seleccione la opción "Desplazarse hacia abajo en la página después de que se cargue" y "para una pantalla"

  • Modifique la frecuencia de desplazamiento a 12 veces

workflow3.jpg

¡Consejos!

AJAX timeout a menudo se puede usar como web page timeout for Click Action. Por ejemplo, cuando tiene una página que se tarda mucho tiempo en cargar los datos completo, puede usar convenientemente el tiempo de espera de AJAX para indicarle a Octoparse que pase a la siguiente acción cuando se alcance el tiempo establecido.

Si desea obtener más información sobre AJAX, puede ver del video tutorial aquí

.

2. Activar el modo de autodetección - para crear una tarea de scrapeo

  • Haga clic en Detectar automáticamente los datos de la página web

panel_de_tips4.jpg
  • Haga clic en los campos de datos en Vista previa de datos y eliminar los que no quiera o renombrarlos

vista_previa_de_datos5.jpg
  • Desactive Agregar un desplazamiento de página

  • Haga clic en Crear workflow

panel_de_tips6.jpg

3. Modificar XPath del elemento de bucle - para localizar todos los campos de datos que quiera

  • Haga clic en Elemento de bucle en el panel de trabajo

  • Cambie XPath a: //div[@class="bl-flex-container flex-wrap is-gutter-16"]/div

workflow7.jpg

4. Modificar la configuración de la paginación - para cargar por completo todos los datos de la página

  • Seleccione Hacer clic para pagina en el panel de > Hacer clic en Opciones

  • Active Desplazarse hacia abajo en la página después de que se cargue

  • Configure modo de desplazamiento como al final de la página

  • Configure la frecuencia de desplazamiento como 12 veces

workflow8.jpg

5. Ejecutar la tarea - para exportar datos que quieras

  • Haga clic en Guardar para luego ejecutar la tarea sin perder la configuración actual

  • Haga clic en Ejecutar

  • Selecione Ejecutar en el dispositivo

  • Espere que termine el proceso de la extracción

Aquí es la muestra de los datos extraídos con su equipo local:

sample9.jpg

Artículos relacionados:

¿Ha quedado contestada tu pregunta?