El software de web scraping, también conocido como herramienta de extracción de datos, es el software para recopilar los datos del sitio web. Por lo general, no es fácil para nosotros elegir una herramienta de web scraping ya que hay tantas herramientas de raspado web disponibles ahora (consulte Los 30 Mejores Software Gratuitos de Web Scraping en 2023). Es por eso que decidí poner la herramienta de web scraping Octoparse con import.io para ver cómo se comparan las dos herramientas. Aquí está todo lo que necesita saber al decidir qué herramienta de web scraping le conviene más.
Comparación de Características
Aquí hay una comparación general entre las características de Octoparse e Import.io:
Feature |
Octoparse |
Import.io |
Environment |
Aplicación de escritorio para Windows (disponible para MAC con máquina virtual) |
Aplicación basada en web, compatible con Chrome, Firefox, Safari |
Seleccionar elementos |
Point-and-click, XPath |
Point-and-click, XPath |
Paginación |
Al hacer clic en los enlaces de paginación o ingresar manualmente el XPath (sitios web sin enlaces de “Página siguiente”) |
Ingresando una lista de páginas |
Lógica de Scraper |
Variables, bucles, condicionales |
Seleccionar y extraer solo |
Drop downs, pestañas,flotando, pop-ups |
Yes |
No |
Páginas de desplazamiento infinito |
Yes |
No |
Entrar en cuadros de búsqueda |
Yes |
No |
Captcha |
Yes con maquina local |
No |
Iniciar sesión en cuentas |
Yes |
Yes |
Javascript |
Yes |
Yes |
Transformando datos |
Regex, javascript expressions |
Regular expression |
Velocidad |
Ejecución paralela rápida |
Ejecución paralela rápida |
Hosting |
Alojado en la nube de servidores Octoparse si está suscrito a la nube Octoparse o en una máquina local con versión básica |
Alojado en la nube de servidores Import.io |
IP Rotación |
Incluido en planes pagos o proxy manual de IP (versión gratuita) |
Yes |
Scheduling runs |
Con una cuenta premium de Octoparse |
Con a premium import.io plan |
Data export |
CSV, Excel, Txt, Databases |
CSV, JSON, API, Google Sheets |
Smart Mode |
Yes |
No |
Cloud service |
Yes | |
Up-to-date data |
Yes (Incremental extraction) |
Yes |
Extracción de imágenes y archivos |
No, solo es capaz de extraer la imagen o las URL del archivo |
Yes |
Coding |
No |
No |
Support |
Soporte profesional gratuito, tutoriales, soporte comunitario |
Soporte comunitario o profesional para usuarios pagos, capacitación para el éxito del cliente |
Entonces, ¿Qué podrían hacer los web scrapers por usted?
Tanto la interfaz está construida de acuerdo con el principio de apuntar y hacer clic, es fácil para usted extraer datos sin codificación. Ambos scrapers pueden manejar páginas Javascript y AJAX y pueden scrape detrás de un inicio de sesión. Al igual que un bot, podrían seguir los enlaces para ir a las páginas web más profundas haciendo clic en los elementos y extraer los datos en las otras páginas. Además, pueden modificar manualmente la expresión regular o XPath para obtener los datos en formato CSV y convertir los datos
Todos proporcionan servicios en la nube, que pueden ofrecer opciones de API, rotación de IP y servicios para programar extractores que se ejecutan en tiempo real. Con eso, es fácil obtener datos actualizados regularmente sin tener que mantener su computadora encendida.
¿Qué podría hacer Octoparse para ti?
La mayor diferencia entre Octoparse y sus alternativas de raspado web es que Octoparse puede obtener datos de sitios web interactivos. Imita totalmente el comportamiento humano al navegar por un sitio web.
Puede indicar a Octoparse que scrape datos de sitios muy complejos y dinámicos, ya que puede:
- Inicie sesión en las cuentas para scrape detrás de un inicio de sesión
- Seleccione opciones de menús desplegables (individuales y múltiples), pestañas, ventanas emergentes
- Ingrese palabras clave y busque con una barra de búsqueda
- Vaya a una nueva página simplemente haciendo clic en el botón “Siguiente”
- Obtenga datos de páginas de desplazamiento infinito
- Capaz de ingresar Captcha en la máquina local
- Flujo de trabajo visual para comprender las lógicas del raspador (variables, bucles y condicionales) y podría cambiarse fácilmente con la interfaz de apuntar y hacer clic
- Modo inteligente para manejar el sitio web simple con solo ingresar la URL de destino
- Extraiga HTML y atributos internos y externos y personalice los valores para una mayor extracción
- La herramienta RegEx avanzada y la herramienta XPath para modificar la expresión regular o XPath, lo que significa que no necesita saber cómo se escriben la expresión regular y XPath (vea las capturas de pantalla a continuación)
¡Y más! Excepto por el primero, estas son todas las cosas que import.io no puede manejar.
Herramienta Octoparse RegEx
Herramienta Octoparse XPath
Aquí hay una lista completa de las funciones de Octoparse’s scraping:
Rotación Automática de IP |
API |
Loops, variables and conditionals logics |
Extraer texto, HTML y atributos |
Ejecuciones Programadas |
Cloud servers to store data |
Extraer URL de archivos e imágenes |
Search through forms and inputs |
Get data from drop-downs, tabs, pop-ups and hovers |
Integración de Databases |
Pagination y navigation |
Scrape content from infinitely scrolling pages |
RegEx y XPath Herramienta |
Obtener data de tables a y aps |
Conectar that loads with AJAX and JavaScript |
The downside of usi
La desventaja de usar Octoparse como una alternativa a import.io es que necesita instalar la aplicación en su propia computadora. Y debido a que el software está escrito en .Net, solo es compatible con el sistema Windows.(Octoparse 8.1 estará disponible pronto, es compatible con la versión Mac) También le molestaría si Internet es inestable y el raspador se detuvo inesperadamente, debe volver a ejecutar el crawler desde cero. La otra es que puede llevar más tiempo aprender Octoparse, ya que es fácil cometer errores si no comprende las lógicas del flujo de trabajo. Pero afortunadamente, hay muchos tutoriales y un gran soporte si te quedas atascado.
Además, Octoparse no puede extraer las imágenes y los archivos directamente; necesita extraer sus URL y descargarlos con otras aplicaciones. Y la función de API es bastante limitada.
¿Qué import.io podría hacer por ti?
En primer lugar, import.io es una plataforma basada en la nube, lo que significa que no necesita ejecutar el scraper en su máquina y los datos podrían mantenerse en la nube. Por lo tanto, puede acceder a sus datos desde cualquier computadora conectada a Internet. Además, no necesita preocuparse por el mantenimiento y la escalabilidad del proceso de scraping.
A diferencia del modo avanzado de Octoparse, import.io intenta adivinar lo que desea de la página y crearía un extractor para usted solo unos segundos. Otras características incluyen:
Conecte una fuente de datos con otra y, por lo tanto, produzca conjuntos de datos nuevos, valiosos y en tiempo real
- Integrar con Google Sheet y Tableau
- Capaz de extraer imágenes y archivos
- Integración API
Aquí hay una lista completa de las funciones de scraping de Import:
Automática IP Rotación |
Servidores en Cloud para almacenar datos |
Contenido que se carga con AJAX y JavaScript |
Extraer archivos e imágenes |
Ejecuciones Programadas |
XPath y Regular Expressions Selectores |
Paginación |
Obtenga datos de tablas y mapas |
Integración API, Tableau y Google Sheet |
La desventaja de usar import.io es que no se usa tanto como Octoparse para tratar sitios web. Como se mencionó anteriormente, no podría manejar sitios web con menús desplegables, ventanas emergentes y captcha. Tampoco puede scrape con infinitas páginas de desplazamiento, que son bastante comunes para la mayoría de las páginas web. Tampoco hay lógicas de scraper como condiciones para una mayor extracción para localizar específicamente la página web o los elementos.
Y para la paginación, no es fácil, ya que necesita ingresar una lista de páginas. En cuanto a la transformación de los datos en expresión regular y XPath, no hay herramientas integradas para usted y debe ingresar la expresión usted mismo, lo que significa que necesita dominar XPath y la expresión regular si desea explorar más en import.io.
Comparación de Costos
No hay duda de que Octoparse tiene ventajas abrumadoras. ¡Ofrece una versión gratuita con potentes funciones! Para resumir, eso es:
Marca |
Octoparse |
Import.io | ||||
Básica |
Standard |
Professional |
Essential |
Professional |
Enterprise | |
Plan mensual($) |
Gratis |
89 |
189 |
299 |
– |
– |
Plan anual($) |
Gratis |
900 |
1896 |
– |
1999 |
4999 |
Los planes de Octoparse están limitados por:
- la cantidad de scrapers
- la cantidad de rastreadores que podría ejecutar simultáneamente en su máquina
- la velocidad a la que puede recopilar datos (diferentes servidores en la nube)
Hay páginas ilimitadas para cada rastreador y licencia de computadora ilimitada para cada versión, incluida la gratuita.
(Nota: Cuando ingresa URL en la lista de URL, sugeriría MENOS DE 20,000 URL. Todas las versiones están limitadas por el número que Octoparse necesita para garantizar que la CPU ejecute el rastreador al mismo tiempo. Pero puede copiar el rastreador para extraer otras URLs)
Los planes de Import.io están limitados por:
- la cantidad de consultas por mes o año
- la fecha de vencimiento de las consultas
funciones limitadas como descarga de imágenes y archivos, API, informes actualizados
apoyo - Es triste descubrir que import.io ya no ofrece una versión gratuita.
La mayoría de las personas crean uno o dos crawlers por sitio web en Octoparse. Una es extraer las URL de páginas web separadas y la otra es usar listas de URL para extraer en masa los datos con las URL extraídas. Se recomienda encarecidamente cuando se utiliza el servicio en la nube (consulte ¿Qué es “división de tareas” en Cloud Extraction? (Acelerar Cloud Extraction) de la nube para obtener más información
Por otro lado, Import.io cuenta un extractor como una consulta y no proporciona listas de URL para extraer en masa las páginas web. Por lo tanto, necesita pasar por encima de estas páginas web separadas en un extractor (lo que generalmente significa que faltan datos) en import.io, o necesita actualizar su versión para más consultas.
Tanto para Octoparse como para Import.io, debe suscribirse a un plan premium para la función de programación: la capacidad de recopilar datos de un sitio web de forma continua en un horario (en tiempo real, diario, semanal, mensual).
Si no desea aprender a usar una herramienta y solo quiere sus datos a pedido, tanto Octoparse como Import.io le brindan el data service. Simplemente comuníquese con las ventas de ambas compañías y ellos extraerán los datos del sitio web que desee, entregándolos en formato CSV/Excel o API.
Conclusión
No es difícil comenzar un proyecto con Octoparse o import.io. Y todos se manejan bien con sitios web estáticos y dinámicos. XPath y expresión regular son necesarios si desea explorar más, aunque afirman que no se necesitan conocimientos de programación. Además, ambos tienen sus límites.
También haré algunos ejemplos para mostrarle cómo funcionan estos dos scrapers. Y si hay algún problema con la información anterior, contácteme aquí.