Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar Octoparse
En este tutorial, vamos a presentar cómo raspar los datos de revisión de Yelp. Ingresaremos a la página de detalles de cada cafetería, raspando el nombre de la tienda, el nombre del revisor y el comentario.
Para seguirlo, es posible que desee utilizar la URL en este tutorial:
https://www.yelp.com/search?find_desc=Coffee+%26+Tea&find_loc=Seattle%2C+WA&ns=1
Este tutorial también cubrirá:
· Modifique XPath para localizar los datos de precios deseados con precisión
Pasos principales en el tutorial
1) "Ir a la página web" - Abre la página web de destino
2) Crear un ciclo de paginación - Raspar todos los resultados de múltiples páginas
3) Crear un "elemento de bucle" - Hacer clic en bucle en cada elemento de cada lista
4) Extraer datos - Información de revisión de captura de bucle en la lista para extracción
6) Inicie la extracción - Ejecute la tarea y obtenga datos
1. "Ir a la página web" - Abre la página web de destino
El modo avanzado es un modo de web scraping altamente flexible y potente. Para las personas que desean rascarse de sitios web con estructuras complejas, recomendamos encarecidamente el "Modo Avanzado" para comenzar su proyecto de extracción de datos.
2) Crear un ciclo de paginación - Raspar todos los resultados de múltiples páginas
· Desplácese hacia abajo y haga clic en el botón "Página siguiente" en la página web
· Haga clic en "Bucle, haga clic en la página siguiente" en "Consejos de acción"
Como este sitio web emplea la técnica AJAX para cargar el nuevo contenido, necesitamos configurar la "carga AJAX" para ayudar a Octoparse a evitar quedarse atascado.
· Desmarque "Reintento automático"
· Marque "AJAX Load" y configure "AJAX Timeout"
¡Consejos! Para saber más sobre AJAX, consulte:
|
3) Crear un "elemento de bucle" - Hacer clic en bucle en cada elemento de cada lista
Ahora estamos en la segunda página. Al crear un "Elemento de bucle", siempre debemos comenzar con el primer elemento en la primera página. Por lo tanto, mejor regresemos a la primera página.
· Haga clic en "Ir a la página web" en el flujo de trabajo.
· Seleccione el ciclo de paginación en el flujo de trabajo
Al hacer esto, podemos ayudar a Octoparse a decidir la orden de ejecución y generar el elemento de bucle en la posición adecuada en el flujo de trabajo.
· Haz clic en el primer artículo de café.
· Clic "Select All" en "Action Tips"panel
· Seleccione "Loop click each URL"
4. Extraer datos - Información de revisión de captura de bucle en la lista para extracción
Este tutorial solo raspará la primera página de información de revisión para la demostración. Si necesita raspar varias páginas de reseñas, solo necesita crear otro ciclo de paginación.
Ahora, construyamos un "elemento de bucle" para capturar todas las reseñas.
Tenga en cuenta que debe seleccionar todo el bloque de comentarios. Octoparse identificará automáticamente todas las secciones de comentarios en la página según el patrón que acaba de definir.
Se generará automáticamente un "Elemento de bucle" y se agregará al flujo de trabajo. Por defecto, Octoparse extrae automáticamente del elemento seleccionado; sin embargo, si esto no es exactamente lo que está buscando, puede eliminar los campos y agregar los nuevos que necesita como se muestra a continuación.
¡Consejos! Aquí hay un tutorial para capturar una lista de elementos: · Obtención de datos - Captura una lista de elementos
|
5) Personalice el campo de datos modificando XPath - Mejorar la precisión de un determinado campo de datos (Opcional)
En este caso, los nombres de los cafés no siempre se encuentran en el mismo lugar en diferentes páginas de detalles. Por lo tanto, para evitar la falta de datos provocada por este problema de ubicación irregular, debemos modificar XPath en Octoparse para garantizar que el elemento en cada página se detecte con precisión.
La XPath revisada del nombre del café es:
.//*[@id='wrap']/div[2]/div/div[1]/div/div[3]/div[1]/div[1]/h1.
· Haga clic en "Personalizar campo de datos"
· Seleccione "Personalizar XPath"
· Pegue la XPath revisada en el cuadro de texto XPath coincidente
· Haga clic en "OK" para guardar.
¡Consejos! Para mejorar la precisión de un determinado campo de datos, se recomienda modificar XPath en Octoparse. Aquí hay algunos tutoriales relacionados que puede necesitar:
|
6. Inicie la extracción - Ejecute la tarea y obtenga datos
Aquí está la salida de muestra.
Artículos relacionados:
Scrape la información comercial de Yelp
Scrape los cables de Yellowpages
Scrape la información de compañía de Crunchbase
¿Te resultó útil este artículo? Contacta con nosotros en cualquier momento si necesita nuestra ayuda.
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso