Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Configurar proxies

Thursday, April 16, 2020

Hay algunos sitios web que pueden ser muy sensibles al web scraping y tomar algunas medidas serias contra el scraping, como el bloqueo de IP para detener cualquier posible actividad de scraping. Los servidores proxy de configuración manual en Octoparse son particularmente útiles si desea acceder al sitio web con servidores proxy externos (o de un país específico) o si prefiere usar sus propios servidores proxy en lugar de usar nuestras funciones de rotación automática de IP de cloud extraction .

 

A diferencia de otras utilidades de scraping que cobran por la función de configuración de proxies externos, Octoparse permite que los usuarios gratuitos y premium agreguen proxies personalizados para la rotación de IP. Bloqueo de su dirección IP es uno de los problemas que puede enfrentar al eliminar sitios web. Por lo tanto, un proxy o servidor proxy es una parte esencial del raspado web y se usa ampliamente para el web scraping anónimo.

 

 

 

Para usar proxies externos para la rotación:

Haga clic en "Configuración" sobre el flujo de trabajo una vez que haya terminado la configuración.

(La opción "Configuración" solo está disponible cuando hay un paso "Extraer datos" en el flujo de trabajo).

 

 

Seleccione "Usar proxies" y haga clic en "Configuración" para agregar proxies personalizados. Actualmente, Octoparse solo admite proxy HTTP. La dirección IP y el número de puerto del servidor proxy están separados por dos puntos. Por ejemplo58.22.214.29:2318. 

Si tiene una lista de IP, agregue cada proxy en "Proxies IP" en una nueva línea.

 

 

Haga clic en "Aceptar" y "Guardar" para guardar sus cambios. Octoparse ejecutará la rotación de acuerdo con su configuración cuando ejecute la tarea localmente.

 

 

 

 ¡Consejos!

1. La personalización de proxies para rotación solo está disponible para extracción local.

(Tenga en cuenta que actualmente Octoparse no proporciona proxies para la rotación de IP de extracción local. Para obtener proxies externos, hay muchos servidores proxy gratuitos y de pago disponibles en la web).

2. Para el plan estándar/profesional  de Octoparse, cuando una tarea se ejecuta con cloud extraction  , se ejecutará en la plataforma en la nube compatible con miles de servidores en la nube, cada uno con una dirección IP única. Se asignarán 6-20 servidores simultáneamente y las solicitudes se realizarán a través de varias IP, lo que minimiza la posibilidad de ser rastreado o incluido en la lista negra.

 

(Conozca más sobre los beneficios del servicio en la nube Octoparse )

 

 

Use un proxy para cambiar la dirección IP para iniciar sesión en Octoparse - si no puede iniciar sesión en Octoparse debido a que la intranet de su estudiante o empresa restringe alguna solicitud externa, use un proxy para iniciar sesión para usar Octoparse.

Para hacer esto, haga clic en "Usar proxy IP" e ingrese la información solicitada:

Haga clic en el botón "Probar" para probar si la conexión es exitosa. Si tiene éxito, le indicará:

 

 

 

 

 

Artículos relacionados:

Ejecuta tareas en la nube 

Ejecute tareas en la máquina local 

¿Qué es una tarea? 

API avanzada de Octoparse 

Lección 7: Ejecutar tareas 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse