Zyte es una herramienta visual de web scraping. En este artículo la pondré frente a frente con Octoparse para ver cómo se comparan estas dos herramientas.
Comparación de funciones
Funciones | Octoparse | Zyte |
Entorno de autorización | Aplicación de escritorio para Windows (disponible para MAC con máquina virtual) | Aplicación basada en web |
Selección de elementos | Apuntar y hacer clic, XPath | Apuntar y hacer clic, selectores CSS, XPath |
Paginación | Haga clic en los enlaces de paginación o introduzca manualmente la ruta (sitios web sin enlaces “Página siguiente”) | Exclusivamente por exploración |
Lógica del raspador | Variables, loops, conditionals, function calls (via RegEx, XPath) | Sólo selección y extracción |
Pop-ups, scrolls infinitos, contenido hover, desplegables, pestañas | Sí | Con bibliotecas externas |
Acceder a las cuentas | Sí | Sí |
Introducir en los cuadros de búsqueda | Sí | No |
Javascript, Ajax y contenido dinámico | Sí | Sí, cuando está suscrito a Splash |
Depuración | No | Depurador visual e instantáneas del servidor |
Transformación de datos | Regex expressions | Ejecución paralela rápida |
Velocidad | Fast parallel execution | Alojado en la nube de servidores de ScrapingHub |
Hosting | Alojado en la nube en los servidores de Octoparse si está suscrito a los planes de Octoparse o en la máquina local con la versión gratuita. | Alojado en la nube de servidores de ScrapingHub |
Rotación IP | Incluido en los planes de pago o proxy IP manual en el plan gratuito | Con un plan de Scrapy Cloud |
Programación de las ejecuciones | Con una cuenta Octoparse Premium | Con un plan de Scrapy Cloud |
Servicio en la nube | Sí | Con un plan de Scrapy Cloud |
Exportación de datos | CSV, Excel, Txt, bases de datos, API | CSV, JSON, XML, API |
Soporte | Apoyo profesional, tutoriales, apoyo comunitarioProfessional support, tutorials, community support | Soporte de la comunidad |
Zyte vs Octoparse
¿Qué puede hacer Octoparse por usted?
Con su sencilla interfaz de usuario de apuntar y hacer clic, la extracción de datos con Octoparse puede ser bastante fácil. Octoparse, un raspador web visual, funciona imitando los comportamientos de navegación humanos y puede ser instruido para interactuar con el sitio web de varias maneras, permitiendo así el raspado de sitios web dinámicos y más complejos.
Algunas de las características más avanzadas que vale la pena mencionar incluyen el raspado detrás de un inicio de sesión, la selección de las diferentes opciones de un menú desplegable, la extracción basada en búsquedas, así como el manejo del desplazamiento infinito, etc. Octoparse también es bastante ordenado al tener un flujo de trabajo que muestra todos los diferentes pasos para cualquier tarea de extracción y lo encontré útil para ordenar toda la lógica detrás de la extracción.
Además, la herramienta RegEx incorporada y la herramienta XPath son muy útiles si uno está buscando personalizar los datos extraídos.
Octoparse admite extracciones en varios pasos y, finalmente, combina los datos en un único resultado. Una tarea de extracción puede configurarse rápidamente con sólo unos pocos pasos: abrir página web – seleccionar elementos – extraer datos – obtener datos – exportar datos.
Para obtener información más detallada, puede consultar los tutoriales de Octoparse.
¿Qué puede hacer Zyte por usted?
Hacer un crawler en Zyte es muy similar a hacerlo en Octoparse. Al igual que Octoparse, Zyte puede detectar automáticamente elementos similares en cualquier página. Zyte encontrará elementos que tengan la misma estructura que la muestra que has creado y este paso continuará hasta que le digas que se detenga, hasta que alcances el límite de tu plan de ScrapingHub o hasta que el software termine de comprobar todas las páginas.
La forma en que Zyte obtiene los datos puede dar lugar a datos inesperados o no deseados. Para compensar este problema, Zyte proporciona expresiones regulares para limitar su búsqueda. Aun así, sitios grandes como Amazon son difíciles de navegar de esta manera. Vea a continuación un ejemplo sencillo de cómo funciona el rastreador Zyte.
¿Cuál es la diferencia entre Octoparse y Zyte?
Como se mencionó anteriormente, Zyte sólo puede obtener datos de las páginas que tienen exactamente el mismo diseño, pero ir entre los resultados de búsqueda y las páginas de descripción de productos más detallados no es posible. Zyte no puede interactuar con menús desplegables, ventanas emergentes, páginas de desplazamiento infinito o paginación a menos que utilices librerías externas.
No puede tratar con captcha, que es bastante común en la mayoría de las páginas web. Y no sabrías de qué páginas obtiene Zyte sus datos, ya que el scraper no puede ser controlado con ninguna expresión regular. En cuanto a la transformación de los datos en expresiones regulares o modificar el XPath, no hay herramientas disponibles para usted tendrá que dominar XPath y expresiones regulares si desea explorar más en Zyte.
Según mis pruebas, no hay diferencia en la velocidad de extracción de un scraper Zyte ejecutado en la nube de Scrapinghub y un crawler Octoparse ejecutado en mi máquina local. Sin embargo, con el servicio en la nube de Octoparse que permite la extracción en la nube, ejecutar una extracción puede ser más rápido que en Zyte.
Comparación de costes
No hay duda de que Octoparse tiene ventajas abrumadoras. Tanto Zyte como Octoparse ofrecen versiones gratuitas, pero sus estructuras de precios son bastante diferentes.
Precios de Zyte
El precio de Zyte depende del número de unidades de ScrapingHub en la nube que compre, y del uso de bibliotecas adicionales en ScrapingHub. La compra de unidades adicionales de ScrapingHub en la nube hará que su rastreo sea más rápido. Además, si compras una unidad de nube, puedes guardar tus datos durante 120 días en la nube.
El precio de las unidades en la nube de ScrapingHub es de $9 cada una. Consulta los detalles más abajo.
Nube de ScrapingHub
Si quiere hacer un uso completo de Zyte, necesita suscribirse a los otros servicios de pago de ScrapingHub, el servicio de rotación de IP Crawlera y el navegador de JavaScript Splash. Los planes de pago de Crawlera, que van desde 25 $/mes hasta 500 $/mes, están limitados por el número de solicitudes mensuales y concurrentes, mientras que los planes de Splash, que van desde 25 $/mes hasta 100 $/mes, se basan en la diferente velocidad.
Precios de Octoparse
A diferencia de Zyte, que es similar a la infraestructura como servicio (IAAS), Octoparse ofrece paquetes más convencionales de software como servicio (SAAS) con planes gratuitos, básicos, estándar y profesionales. Los precios oscilan entre 19 $/mes y 249 $/mes, con tres tipos diferentes de suscripciones: mensual, trimestral y anual. Consulte a continuación un resumen de los planes de precios de Octoparse.
Tanto Octoparse como Zyte proporcionan soluciones a medida si necesita un plan de raspado web más personalizado. Ambas ofrecen también un servicio de datos bajo demanda.
Conclusión
Mientras que Zyte necesita trabajar con otras plataformas de Scrapinghub a un nivel superior, Octoparse tiene la mayoría de las características agrupadas para una implementación más sencilla. Para los usuarios principiantes, Octoparse ofrece el mismo nivel de potencia y escala de raspado web que Zyte en un paquete mucho más fácil de usar. No es difícil poner en marcha un crawler Octoparse o un scraper Zyte, pero te llevaría bastante tiempo si quieres explorar más.
Quería que esta comparación fuera lo más justa posible. Sin embargo, dado que Zyte es un proyecto de código abierto mientras que Octoparse es una herramienta de interfaz de usuario, no puedo evitar que mi predisposición hacia Octoparse pueda haberme llevado a criticar injustamente a Zyte. Si usted encuentra algo incorrecto en la información anterior o si usted es un usuario experimentado de Zyte, por favor póngase en contacto con nosotros. Muchas gracias.