Amazon es uno de los sitios web de comercio electrónico más populares del mundo. Muchos usuarios intentan rasparlo para recopilar información del producto. En este tutorial, te mostraremos cómo extraer los detalles del producto de Amazon.
También puedes ir a "Plantillas de tareas" en la pantalla principal de Octoparse y comenzar con las plantillas de Amazon directamente para ahorrar tiempo. Octoparse proporciona varias plantillas de Amazon diseñadas para diferentes países comoEE. UU., España , México, Alemania, Francia, e India. Con esta función, no es necesario configurar las tareas de raspado. Para obtener más detalles, puedes consultarlo aquí: Plantillas de tareas
Si deseas saber cómo construir la tarea desde cero, puede continuar leyendo el siguiente tutorial o ver este video a continuación.
En este tutorial, tomamos esta URL como ejemplo:
Estos son los pasos principales de este tutorial: [Descargar archivo de tareas aquí]
1. Ir a la página web - Abrir la página web de destino
Ingrese la URL en la página de inicio y haga clic en "Iniciar"
2. Detectar automáticamente la página web - Crear el flujo de trabajo
Haga clic en "Detectar automáticamente los datos de la página web" y espere a que se complete la detección.
Elimine los campos no deseados o cambie el nombre de los campos si es necesario en la vista previa de datos
Desmarca la casilla "Agregar un desplazamiento de página".
Haga clic en "Crear flujo de trabajo".
Un elemento de paginación y bucle se generaría automáticamente en el flujo de trabajo.
Si todos los datos que necesita se pueden extraer de la página de la lista, puede detenerse aquí y saltar a Configurar el tiempo de espera de AJAX para "Hacer clic para paginar". Si desea ir a la página de detalles de cada producto para obtener más información, siga los pasos a continuación.
3. Hacer clic en el enlace de cada producto para obtener más información
Elige "Hacer clic en los vínculos para eliminar las páginas vinculadas" en el panel Sugerencias.
Selecciona "Haga clic en un campo de datos extraídos" y selecciona el campo en el que deseas hacer clic en el menú desplegable (puedes confirmar si es el enlace correcto en la Vista previa de datos)
Haz clic en "Confirmar"
Octoparse will automatically go to the first product page.Octoparse irá automáticamente a la primera página del producto.
4. Extraer datos: extraer datos en las páginas de detalles
Select information on the web page
Choose "Extract text of the selected element"
Repeat the above steps to extract all the data you need
Seleccionar información en la página web
Elija "Extraer texto del elemento seleccionado"
Repita los pasos anteriores para extraer todos los datos que necesita
5. Configurar el tiempo de espera de AJAX para "Hacer clic para paginar"
Click open the Action Settings of "Click to Paginate"
Tick "Load with AJAX" and select 10s as the AJAX timeout
Haga clic en abrir la configuración de acción de "Haga clic para paginar"
Marque "Cargar con AJAX" y seleccione 10 segundos como tiempo de espera de AJAX
6. Extracción de datos - Ejecute la extracción: ejecute su tarea y obtenga datos
Haga clic en la parte superior izquierda
Seleccione "Ejecutar en el dispositivo" para ejecutar la tarea en su ordenador, o seleccione "Ejecutar tarea en la Nube" para ejecutar la tarea en la Nube (sólo para usuarios Premium)