Como hay diferentes web scrapers, apareció un problema: ¿cuál es el mejor scraper personalizado centrado en nuestras necesidades específicas y raspar todo? La mayoría de los web scrapers estándar son a menudo bastante genéricos y están diseñados principalmente para realizar una tarea común y simple (consulte la Revisión de Las 5 Herramientas de Web Scraping Más Importantes para obtener más información). Es decir, puede que no parezcan tan flexibles y universales como cabría esperar. Entonces, en esta publicación, compararé el web scraper Octoparse y Content Grabber para darle algunas ideas antes de elegir el servicio de web scraping que puede proporcionarle servicios de extracción de datos durante mucho tiempo.
Comparación de Características
Aquí hay una forma de la comparación de características entre Octoparse y Content Grabber:
Característica |
Octoparse |
Content Grabber |
Regla General | ||
Authoring environment |
The windows-based software application (available for MAC with the virtual machine) |
The windows-based software application (available for MAC with the virtual machine) |
Smart Mode |
Yes, getting extracted data just by entering the target URL |
No |
Cloud service | Yes |
No |
Scraper logic |
Variables, loops, conditionals |
Variables, loops, conditionals |
Speed |
Fast parallel execution |
Fast parallel execution |
Hosting |
Hosted on a cloud of Octoparse servers if subscribed to Octoparse cloud or on the local machine |
Local machine |
Selecting elements |
Point-and-click, XPath |
Point-and-click, XPath |
Transforming data |
Regular expressions, string operations |
Regular expressions |
Speed |
Fast parallel execution |
Fast parallel execution |
Knowledge of HTML and HTTP |
Not required |
Required |
Knowledge of Regular expression and XPath |
Not necessary, but would be better for further exploration |
Not necessary, but would be better for further exploration |
Extracción de Características | ||
Javascript, Ajax and dynamic content extraction |
Yes |
Yes |
Pop-ups, infinite scroll, hover contents, tabs, logging in |
Yes |
Yes |
Pagination |
Yes |
Yes |
Entering into search boxes |
Yes |
Yes |
Capture text, links, files, meta tags, HTML and much more |
Yes |
Yes |
Copy and paste commands, drag and drop commands |
Yes |
Yes |
Pre-configured crawlers for commonly scraped websites |
Yes |
No |
PDF and Excel extraction |
No |
Yes by using 3rd party document converters |
Image and videos extraction |
No, only able to extract the image or file URLs |
Yes |
IP Rotation |
Included in paid plans or manual IP proxy |
Yes by using 3rd party proxy rotation service Nohodo |
CAPTCHA |
Yes, on the local machine |
Yes, with a 3rd party CAPTCHA recognition service account |
Website crawler function |
Yes |
Yes |
Run-time configuration |
With a premium Octoparse account |
With a premium import.io account |
Remove duplicate data |
Yes |
Yes |
Track changes on a website | Yes (Incremental extraction) |
Yes |
RegEx tool and XPath tool |
Yes |
No |
Command-line |
No |
Yes |
Exportación de Datos | ||
Data export |
CSV, Excel, TXT, Databases |
CSV, Excel, JSON, PDF, Databases |
API |
Yes |
Yes |
Support | ||
Debugging |
Yes, with limited functionality |
Yes |
Support |
Free professional support, tutorials, community support |
Paid service |
Entonces, ¿Qué podrían hacer Octoparse y Content Grabber por usted?
Octoparse ofrece la mayor parte del poder de web scraping y la escala de Content Grabber en un easier-to-use package. Content Grabber está diseñado para funcionar en un nivel superior en el que la mayoría de las características de Octoparse están agrupadas.
Tanto Octoparse como Content Grabber representan el nuevo scraper visual web en el mercado. Ambos tienen simple-and-click UI donde los usuarios navegan por el sitio web y hacen clic en los elementos de datos en el orden de recopilación.
Al igual que un bot, podrían seguir los enlaces para acceder a las páginas web más profundas haciendo clic en los elementos y extrayendo los datos en las otras páginas. Ambos ofrecen opciones de API, rotación de IP y servicios para programar extractores que se ejecutan en tiempo real. Además, pueden obtener datos en formato CSV y transformarlos modificando manualmente la expresión regular.
Además, se les puede indicar que hagan más que simplemente extraer datos. Tienen una variedad de opciones para elegir, lo que permite obtener datos de sitios web interactivos. Puede indicarles que scrape datos de sitios muy complejos y dinámicos porque pueden:
- Iniciar sesión en cuentas
- Seleccione opciones de menús desplegables, ventanas emergentes, hovers
- Buscar con una barra de búsqueda
- Vaya a una nueva página simplemente haciendo clic en el botón “Siguiente”
- Obtenga datos de páginas de desplazamiento infinito y otras páginas web dinámicas
- …
Esto significa que estos dos web scrapers pueden ser tan flexibles y universales como cabría esperar. Podrían tratar con:
- Tablas difíciles, como tablas combinadas, tablas con un número indefinido de columnas, valores faltantes, etc..
- Blocks layouts difíciles, especialmente aquellos en los que no existe Una asociación directa de HTML entre los datos presentados en una pantalla, como extraer todos los productos omitiendo publicidades, raspando solo productos con descuent.
- Lista de prueba, cuando la estructura HTML DOM es simple..
- Scrape detrás de un inicio de sesión. Ambos scrapers pueden enviar un formulario de inicio de sesión a través de POST, HTTP 302 Redirect outwork y rendimiento de almacenamiento de cookies..
Ambas herramientas de extracción de datos en realidad tienen mucha funcionalidad para extraer todo tipo de sitios web si pudiera explorar completamente su funcionalidad. Y como fanático de Content Grabber, recomendaré Content Grabber para algunas situaciones:
- Integración estrecha con existing python codebase y la infraestructura a través de API
- Herramienta de debugging avanzada
- Solución de Captcha de Third-party
Estamos trabajando para resolver el segundo problema para hacer que Octoparse sea más humano.
Sin embargo, si está comenzando, le recomendamos que pruebe Octoparse, que lo pondrá en funcionamiento mucho más rápido y de forma gratuita o con un costo mucho más barato.
Comparación de Costos
A primera vista, la principal diferencia entre los dos servicios parece ser su precio. Octoparse empaqueta la funcionalidad en planes tradicionales de software como servicio (SaaS), incluidos planes gratuitos, estándar ($89) y profesionales ($189)
Content Grabber es un servicio pago. Hay dos métodos de compra para los usuarios de Content Grabber: comprar una licencia y una suscripción mensual. La versión de licencia (tres ediciones) le otorga una licencia perpetua, con un precio de $449 a $2495. La suscripción mensual se cobrará por adelantado cada mes. También hay tres ediciones con precios desde $69 a $299.
Brand |
Octoparse |
Content Grabber | ||||
Basic |
Standard |
Professional |
Server |
Professional |
Premium | |
Monthly plan ($) |
Free |
89 |
189 |
69 |
149 |
299 |
Yearly plan/License($) |
Free |
900 |
1896 |
449 |
995 |
2495 |
La gran diferencia entre los planes premium Octoparse y Content Grabber es que no hay una licencia limitada y usuarios para Octoparse. Es decir, mas de un usuario podría usar Octoparse en diferentes computadoras con la misma cuenta premium. Content Grabber tiene licencia por usuario por computadora. Esto significa que necesita una licencia para cada computadora donde está instalado Content Grabber, y si más de un usuario accede a la computadora, necesita una licencia para cada usuario que use el software en la computadora. Además, una licencia no cubre tanto su computadora de escritorio como su computadora portátil, ni tanto la computadora de su oficina como la computadora de su hogar.
Podría ver que el plan gratuito de Octoparse otorga una funcionalidad potente sin definir cuántas páginas web podría extraer para una tarea. La versión superior ofrece principalmente más tareas y una velocidad más rápida por más dinero y rotación de IP. Además, solo los planes premium le permiten programar los crawlers y ejecutarlos regularmente.
Para Content Grabber, las versiones son diferentes de las diferentes funcionalidades: función de exportación, API, agentes autónomos, etc. La carga también es diferente para el mantenimiento y el soporte.
Si no desea aprender a usar una herramienta y solo desea sus datos a pedido, tanto Octoparse como Content Grabber le brindan el data service. Simplemente comuníquese con las ventas de ambas compañías y ellos extraerán los datos del sitio web que desee.
Conclusión
Al igual que la comparación anterior, Octoparse vs Content Grabber es algo así como una comparación de manzanas con naranjas. Content Grabber está diseñado para funcionar en un nivel superior en el que la mayoría de las características de Scrapinghub están agrupadas. Si recién está comenzando, lo alentamos a que pruebe Octoparse, que lo ayudará a obtener una versión gratuita o a un costo mucho menor.
Como nota final, si hay algún problema con la información anterior, contácteme