Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar OctoparseEn este tutorial, le mostraremos cómo scrape la información del producto de Amazon.com.
Para continuar, es posible que desee utilizar esta URL en el tutorial:
Ingresaremos a cada página de detalles de los auriculares Bluetooth y recolectamos los detalles, incluidos el título del producto, la marca, la calificación y el precio.
Este tutorial también cubrirá:
Estos son los pasos principales de este tutorial: [Descargue el archivo de tarea aquí ]
1. "Ir a la página web" - para abrir la página web objetivo
El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, como Walmart.com, recomendamos el Modo avanzado para comenzar su proyecto de extracción de datos.
Le recomendamos encarecidamente que active el "Modo de flujo de trabajo" para realizar mejor su tareas, en caso de que se equivoque con los pasos..
2. Cree un ciclo de paginación: para raspar todos los resultados de varias páginas
Amazon.com aplica la tecnología AJAX al botón de paginación. Por lo tanto, tenemos que configurar la carga AJAX para la operación "clic a la página".
3. Cree un "elemento de bucle": para recolectar todos los elementos de cada página
Al extraer datos en varias páginas, siempre debe comenzar su tarea de construcción en la primera página.
Octoparse seleccionará automáticamente todos los enlaces a las páginas de detalles en la página actual. Los enlaces seleccionados se resaltarán en verde, mientras que otros enlaces a las páginas de detalles se resaltarán en rojo.
.
Octoparse hará clic en cada enlace capturado en el "Elemento de bucle" y abrirá la página de detalles.
¡Consejos! Si desea obtener más información sobre AJAX, aquí hay un tutorial relacionado que puede necesitar: |
4. Extraer datos: para seleccionar los datos para la extracción
Después de hacer clic en "Loop haga clic en cada elemento", Octoparse abrirá la página de detalles del primer hotel.
¡Consejos! Cuando el contenido de página ya se ha mostrado, pero todavía se está cargando, puede hacer clic en el botón "X" en el extremo derecho de la barra de navegación para detener la carga. |
5. Guardar e iniciar extracción: para ejecutar la tarea y obtener datos
Aquí está la salida de muestra. Puede ver algunos campos en blanco en la columna "Precio". Porque productos están agotados y, por lo tanto, no tienen la información de precios.
¡Consejos! Por defecto, si Octoparse no puede encontrar el elemento de definido en la página, el campo se dejará en blanco. Sin embargo, Octoparse posible no encontrar el elemento del patrón definido, incluso si el elemento necesario se muestra en el sitio web. Si encuentra este problema, aquí hay un tutorial relacionado que puede necesitar: |
¡Feliz búsqueda de datos!
¿Te resultó útil este artículo? Contáctenos en cualquier momento si necesita nuestra ayuda!
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso