Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Scrape la información del producto de Amazon

Friday, February 28, 2020

En este tutorial, le mostraremos cómo scrape la información del producto de Amazon.com.

Para continuar, es posible que desee utilizar esta URL en el tutorial:

https://www.amazon.com/s?rh=i%3Aelectronics%2Cn%3A172541%2Cp_n_feature_four_browse-bin%3A12097501011&ie=UTF8&lo=electronics

 

Ingresaremos a cada página de detalles de los auriculares Bluetooth y recolectamos los detalles, incluidos el título del producto, la marca, la calificación y el precio.

Este tutorial también cubrirá:

 

  • Tratar con AJAX para paginación

 

Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea aquí ]

 

  1. "Ir a la página web": para abrir la página web de destino
  2. Cree un ciclo de paginación: para scrape todos los resultados de varias páginas
  3. Crear un "elemento de bucle": para hacer clic en bucle en cada elemento de cada lista
  4. Extracción de datos: para seleccionar los datos para la extracción
  5. Iniciar extracción: para ejecutar la tarea y obtener datos

 

 

 

1. "Ir a la página web" - para abrir la página web objetivo

 

  • Haga clic en "+ Tarea" para comenzar una nueva tarea con el Modo avanzado

    El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Walmart.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.           

                                                       

  • Pegue la URL en el cuadro "URL de extracción" y haga clic en "Guardar URL" para continuar
  • Active el "Modo de flujo de trabajo" cambiando el botón "Flujo de trabajo" en la esquina superior derecha de Octoparse                                                                                                  

    Le recomendamos encarecidamente que active el "Modo de flujo de trabajo" para realizar mejor su tareas, en caso de que se equivoque con los pasos..

 

  

 

2. Cree un ciclo de paginación: para raspar todos los resultados de varias páginas

  • Haga clic "Siguiente"
  • Haga clic en "Bucle haga clic en la página siguiente" en "Acción
  • Configure la carga AJAX para la acción "Hacer clic para paginar"         

    Amazon.com aplica la tecnología AJAX al botón de paginación. Por lo tanto, tenemos que configurar la carga AJAX para la operación "clic a la página".     

                                                                                

  • Desmarque la casilla "Reintentar cuando la página no cambie (úsela discretamente para cargar AJAX)"
  • Marque la casilla "Cargar la página con AJAX" y configure el tiempo de espera de AJAX como 10 segundos
  • Haga clic en "OK" para guardar                                                                                                     

 

 

 

 

3. Cree un "elemento de bucle": para recolectar todos los elementos de cada página

 

  • Haga clic en "Ir a la página web" para volver a la primera página

    Al extraer datos en varias páginas, siempre debe comenzar su tarea de construcción en la primera página.

  • Haga clic en el nombre del primer producto en la página actual
  • Haga clic en "Seleccionar todo" en el panel "Consejos de acción"                                         

    Octoparse seleccionará automáticamente todos los enlaces a las páginas de detalles en la página actual. Los enlaces seleccionados se resaltarán en verde, mientras que otros enlaces a las páginas de detalles se resaltarán en rojo.
.

  • Haga clic en "Bucle haga clic en cada elemento" para crear un "Elemento de bucle"

    Octoparse hará clic en cada enlace capturado en el "Elemento de bucle" y abrirá la página de detalles.

 

¡Consejos!

Si desea obtener más información sobre AJAX, aquí hay un tutorial relacionado que puede necesitar:

 

 

4. Extraer datos: para seleccionar los datos para la extracción 

 

Después de hacer clic en "Loop haga clic en cada elemento", Octoparse abrirá la página de detalles del primer hotel.

  • Haga clic en los datos que necesita
  • Seleccione "Extraer texto del elemento seleccionado" de los "Consejos de acción"
  • Cambie el nombre de los campos seleccionando de la lista predefinida o ingresando por su cuenta                                                                                                                                     

¡Consejos!

Cuando el contenido de página ya se ha mostrado, pero todavía se está cargando, puede hacer clic en el botón "X" en el extremo derecho de la barra de navegación para detener la carga.

 

 

5. Guardar e iniciar extracción: para ejecutar la tarea y obtener datos

 

 

  • Haga clic en "Iniciar extracción" en el lado superior izquierdo
  • Seleccione "Extracción local" para ejecutar la tarea en su computadora, o seleccione "Cloud Extracción " para ejecutar la tarea en Cloud (solo para usuarios premium)

 

Aquí está la salida de muestra. Puede ver algunos campos en blanco en la columna "Precio". Porque productos están agotados y, por lo tanto, no tienen la información de precios.

 

¡Consejos!

Por defecto, si Octoparse no puede encontrar el elemento de definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse posible no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar:

 

¡Feliz búsqueda de datos!

¿Te resultó útil este artículo? Contáctenos  en cualquier momento si necesita nuestra ayuda!

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse