Ahora puede usar la extracción JSON para una extracción de datos más rápida y confiable. Le mostraremos exactamente cómo usar esta función en este tutorial.
¿Qué es el JSON?
JSON significa JavaScript Object Symbol. JSON es un formato de intercambio de datos liviano que se usa ampliamente porque es más pequeño, más rápido, más fácil de analizar y leer que XML, lo que mejora efectivamente la eficiencia de transmisión de la red.
¿Por qué scrapear desde JSON?
La extracción de enlaces JSON permite convertir los datos del formato JSON a un formato estructurado de forma más rápida y segura. Puede ayudarnos a
Conseguir una extracción de datos más rápida sin cargar imágenes y demás
eludir las restricciones anti-scraping de muchos sitios web
lidiar más fácilmente con botones de carga y scroll infinito
¿Cómo utilizar la extracción JSON en Octoparse?
Para fines de demostración, vamos a raspar los datos de una página de anuncios en Booking.com utilizando la extracción JSON. Echa un vistazo a la URL de ejemplo:
1. Identificar la URL correcta que contiene el archivo JSON que nos gustaría scrapear
Abre la página web en el navegador Chrome.
Haz clic derecho en la página y seleccione "Inspeccionar"
Selecciona Fetch/XHR desde RED DevTools
Haz clic en el icono de borrar para borrar toda la información cargada
Desplaza por la lista de trabajos en la columna desplazable para actualizar la página
Verifica las URL recargadas en XHR para ver si contienen algún archivo JSON
Haz clic en el nombre de una URL y verifica la información de sus cabeceras. Veremos que el tipo de contenido en Request Headers contiene JSON.
Cambia a la pestaña Vista Previa y vea de cuántos datos estamos hablando. Podemos ver que el recuento total es de 363 para esta demo.
Desplaza un poco más hacia abajo y compara las URL solicitadas para encontrar un patrón
Comparar las URLs de petición, encontramos que el parámetro start= en la URL aumenta por 10 cada vez.
Copia la URL que contiene el archivo JSON (Request URL in Headers), que es https://jobs.booking.com/api/apply/v2/jobs?domain=booking.com&start=10&num=10&location=netherlands&domain=booking.com
Nota:
Algunos sitios web pueden mostrar toda la información con un enlace JSON, por lo que no es necesario generar las URL por lotes.
2. Generar por lotes lista de URL JSON en Octoparse - para extraer de una lista de enlaces de archivos JSON
Abre Octoparse e inicie una nueva tarea personalizada que genere por lotes las URL de entrada
Pega la URL copiada en el cuadro de formato de URL
Configura el Valor inicial a 0, Cada vez a +10 y el Valor final a 363 y haz clic en Confirmar para guardar.
Nota:
El valor final cambia constantemente. Introduzca el valor real que encuentre en Chrome.
Haz clic en la acción Ir a la página web y marca la casilla JSON en la pestaña General.
Haz clic en Aplicar para guardar la configuración
3. Seleccionar los datos para la extracción: para obtener los datos que necesitamos
Alterna el árbol de estructura y seleccionar los elementos de página que queremos en el nodo de posiciones
Extraiga los campos de datos como nombre, id de display_job, unidad de negocio y ubicación haciendo clic en la información y seleccionando Element data
Guarda la tarea y ejecútala para obtener los datos que necesitamos
Aquí está el ejemplo de datos.