Portia, una de las plataformas de Scrapinghub, es una herramienta visual de web scraping. En este artículo, lo compararé con Octoparse para ver cómo se comparan estas dos herramientas.
Comparación de Características
Característica |
Octoparse |
Portia |
Authoring environment |
Aplicación de escritorio para Windows (disponible para MAC con máquina virtual) |
Web based Aplicación |
Seleccionar elements |
Apuntar y hacer clic, XPath |
Apuntar y hacer clic, selectores CSS, XPath |
Paginación |
Al hacer clic en los enlaces de paginación o ingresar manualmente el XPath (sitios web sin enlaces de “Página siguiente”) |
Exclusively by exploration |
Lógica del Scraper |
Variables, bucles, condicionales, function calls (via RegEx, XPath) |
Seleccionar y extraer solo |
Pop-ups, desplazamiento infinito, contenido hover, menús desplegables, tabs |
Yes |
With external libraries |
Iniciar sesión en cuentas |
Yes |
Yes |
Entrar en search boxes |
Yes |
No |
Javascript, Ajax and dynamic content |
Yes |
Yes, when subscribed to Splash |
Debugging |
No |
Visual debugger and server snapshots |
Transforming data |
Regex expressions |
Partial annotations |
Velocidad |
Ejecución paralela rápida |
Ejecución paralela rápida |
Hosting |
Hosted on cloud of Octoparse servers if subscribed to Octoparse plans or on local machine with free version |
Hosted on cloud of ScrapingHub servers |
IP Rotación |
Incluido en planes pagos o proxy IP manual en plan gratuito |
Con plan Crawler |
Scheduling runs |
Con una cuenta premium de Octoparse |
Con un plan de Scrapy Cloud |
Cloud servicio |
Yes |
Con un plan de Scrapy Cloud |
Exportación de datos |
CSV, Excel, Txt, Databases, API |
CSV, JSON, XML, API |
Soporte |
Soporte profesional, tutoriales, soporte comunitario |
Soporte Comunitario |
¿Qué puede hacer Octoparse por ti?
Con su simple point-and-click UI, extraer datos con Octoparse puede ser bastante fácil. Octoparse, un web scraper visual funciona imitando los comportamientos de navegación humanos y puede recibir instrucciones para interactuar con el sitio web de varias maneras, lo que permite scraping sitios web dinámicos y más complejos.
Algunas de las características más avanzadas que vale la pena mencionar incluyen scrape detrás de un inicio de sesión, seleccionar las diferentes opciones de un menú desplegable, extracción basada en búsquedas, así como lidiar con desplazamiento infinito, etc. Octoparse también es bastante bueno al tener unworkflow que muestra todos los diferentes pasos para cualquier tarea de extracción y lo encontré útil para resolver toda la lógica detrás de la extracción.
Además, RegEx tool incorporada y XPath tool son útiles si se desea personalizar los datos extraídos.
Octoparse admite extracciones de varios pasos y, finalmente, combina los datos en una sola output. Una tarea de extracción se puede configurar rápidamente con solo unos pocos pasos: abrir página web – seleccionar elementos – extraer datos – obtener datos – exportar datos.
Para obtener información más detallada, puede consultar los Octoparse Tutoriales.
¿Qué puede hacer Portia por ti?
Hacer un crawler en Portia es muy similar al de Octoparse. Al igual que Octoparse, Portia puede detectar automáticamente elementos similares en cualquier página. Portia encontrará elementos que están estructurados de la misma manera que la muestra que ha creado y este paso continuará hasta que le pida que se detenga, alcance el límite de su plan ScrapingHub o si el software termina de revisar cada página.
La forma en que Portia obtiene datos puede generar datos inesperados o no deseados. Para compensar este problema, Portia proporciona expresiones regulares para reducir su búsqueda. Pero aún así, los sitios grandes como Amazon son difíciles de navegar por esta manera. Consulte a continuación un ejemplo simple de cómo funciona el crawler Portia.
¿Cuál es la diferencia entre Octoparse y Portia?
Como se mencionó anteriormente, Portia solo puede obtener datos de páginas que tienen exactamente el mismo diseño, pero no es posible pasar entre los resultados de búsqueda y las páginas de descripción de producto más detalladas. Portia también no puede interactuar con menús desplegables, pop-up windows, infinite scrolling pages o paginación a menos que use bibliotecas externas. No puede lidiar con captcha, que es bastante común para la mayoría de las páginas web. Y no sabría de qué páginas obtiene Portia sus datos, ya que el scraper no se puede controlar con ninguna regular expressions. En cuanto a la transformación de los datos en la expresión regular o la modificación de XPath, no hay herramientas disponibles para que necesite dominar XPath y la expresión regular si desea explorar más en Portia.
Según mi prueba, no hay diferencia en la velocidad de extracción de Portia scraper que se ejecuta en Scrapinghub cloud y Octoparse crawler que se ejecuta en mi máquina local. Sin embargo, con el Octoparse cloud service que permite la extracción en la nube, ejecutar una extracción puede ser más rápido que en Portia.
Comparación de Costos
No hay duda de que Octoparse tiene ventajas abrumadoras. Tanto Portia como Octoparse ofrecen versiones gratuitas, pero sus estructuras de precios son bastante diferentes
El Precio de Portia
El precio de Portia depende de la cantidad de unidades de ScrapingHub cloud que compre y del uso de bibliotecas adicionales en ScrapingHub. La compra de unidades de ScrapingHub cloud
adicionales haría que su scraping sea más rápido. Además, si compra una cloud unidad, puede guardar sus datos durante 120 días en la nube.
El precio unitario de ScrapingHub es de $9 cada uno. Consulte a continuación para más detalles.
ScrapingHub Cloud
Si desea hacer un uso completo de Portia, debe suscribirse a otros servicios pagos de ScrapingHub, el servicio de IP rotation Crawlera y el navegador Splash compatible con JavaScript. Los planes pagados de Crawlera que van desde $25/mes a $500/mes están limitados por la cantidad de solicitudes mensuales y solicitudes concurrentes, mientras que los planes de Splash que van desde $25/mes a $100/ mes se basan en la velocidad diferente.
Crawlera Planes Mensuales
Splash Planes Mensuales
Precios de Octoparse
A diferencia de Portia, que es similar a la infraestructura como servicio (IAAS), Octoparse ofrece paquetes de software como servicio (SAAS) más convencionales con planes gratuitos, básicos, estándar y profesionales. El precio varía de $19/mes a $249/mes con tres tipos diferentes de suscripciones, incluidas mensual, trimestral y anual. Puede ver un resumen de los planes de precios de Octoparse a continuación.
Octoparse Precio
Tanto Octoparse como ScrapingHub proporcionan una solución personalizada si necesita un plan de web scraping más personalizado. Ambos también brindan data service a pedido.
Conclusión
Si bien Portia necesita trabajar con otras plataformas de Scrapinghub en un nivel superior, Octoparse tiene la mayoría de las características agrupadas para una implementación más fácil. Para los usuarios de nivel de entrada, Octoparse ofrece el mismo nivel de potencia de web scraping y escala de Portia en un paquete mucho más fácil de usar. No es difícil iniciar Octoparse crawler o Portia scraper, pero te tomaría bastante tiempo si quieres explorar más.
Quería que esta comparación fuera lo más justa posible. Si encuentra algún problema con la información anterior o si es un usuario experimentado de Portia, contácteme aquí. ¡Gracias!