Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Extraer datos detrás de un inicio de sesión

Wednesday, March 11, 2020

Después de autenticar los datos de destino, aún puede utilizar Octoparse para acceder a los datos. Simplemente ingrese la información de inicio de sesión (nombre de usuario y contraseña) y luego haga clic en el botón "iniciar sesión" para iniciar sesión. En este tutorial, le mostraremos cómo extraer datos detrás de un inicio de sesión, así como también cómo usar cookies para optimizar flujo de trabajo de su tarea.

web scraping with octoparse - extract behind a login

 

1) Ingrese la información de inicio de seión para iniciar sesión

2) Use cookies para optimizar el flujo de trabajo

 

 

 

Ingrese la información de inicio de sesión para iniciar sesión

  • Haga clic en el cuadro de texto para ingresar el nombre de usuario en la página web

 

web scraping with octoparse - extract behind a login

  • Seleccione "Introducir texto" en Consejos de acción

web scraping with octoparse - extract behind a login

  • Ingrese el nombre de usuario en el cuadro de texto

web scraping with octoparse - extract behind a login

  • Haga clic en "Aceptar", el nombre de usuario ingresado se completa automáticamente en el cuadro de texto del nombre de usuario en la página web
  • Siga los mismos pasos para ingresar la contraseña
  • Haga clic en el botón "Iniciar sesión" en la página

 

web scraping with octoparse - extract behind a login

 

  • En Consejos de acción, seleccione "Botón de clic

web scraping with octoparse - extract behind a login

 
  • ¡Octoparse ha iniciado sesión en el sitio web con éxito!

 

 Use cookies para optimizar el flujo de trabajo

1. Guardar cookies

La mayoría de las veces, puede optimizar el flujo de trabajo guardando la cookie en la tarea después de iniciar sesión. De esta forma, Octoparse enviará la cookie guardada al sitio web en el momento de la carga, y existe una buena posibilidad de que el sitio web recuerde "usted" y omita los pasos de inicio de sesión.

  • Inicie sesión en el sitio web en el navegador incorporado de Octoparse si aún no lo ha hecho.
  • Cambie el interruptor de flujo de trabajo en la parte superior al modo de flujo de trabajoweb scraping with octoparse - extract behind a login, arrastre la acción "Ir a la página web" al flujo de trabajo, justo debajo del signo en el paso.
  • Ingrese la URL de la página necesaria para la captura en el cuadro de texto para "URL de la página"

web scraping with octoparse - extract behind a login

  • En "Opciones avanzadas", haga clic en Abrir "Configuración de caché"
  • Seleccione "Usar cookie especificada"
  • Haga clic en "Cargar cookie desde la página web actual"
  • Haga clic en "Aceptar" para guardar la configuración

 

 

  • Ahora, como se supone que la página web debe "recordar" el inicio de sesión y omitir los pasos de inicio de sesión, eliminaremos las acciones creadas previamente para el inicio de sesión para evitar problemas cuando se ejecute el flujo de trabajo. Haga clic derecho en la acción y seleccione "Eliminar".

 

¡Consejos!

1. Una cookie guardada solo es efectiva antes de que caduque

Las cookies vienen en muchas formas diferentes. Algunos tienen un tiempo de vencimiento específico, otros caducan inmediatamente cuando se cierra el navegador. En Octoparse, la cookie guardada ya no funcionará cuando caduque. Para resolver esto, deberá realizar nuevamente el paso de inicio de sesión agregando la acción adecuada para obtener y guardar la cookie actualizada.


2. Su contraseña está bien protegida

  • En Octoparse, cuando ingresa su contraseña, solo es accesible en su propia cuenta. Cuando se exporta una tarea, la contraseña guardada en la tarea se elimina automáticamente.
  • Cualquier información de inicio de sesión guardada se eliminará de su cuenta de forma permanente tan pronto como se elimine la tarea.

 

 

 

2. Borrar las cookies

Como todos los sitios web manejan las cookies de manera diferente, para garantizar que el flujo de trabajo de la tarea funcione de manera consistente, es posible que desee comenzar con los pasos de inicio de sesión cada vez que se ejecuta la tarea. Para hacer esto, puede borrar las cookies guardadas antes de cargar la página de inicio de sesión. De esta manera, el sitio web de destino siempre lo "olvidará" y lo llevará a la página de inicio de sesión en la que puede ingresar toda la información de inicio de sesión.

  • Haga clic en la acción "Ir a la página web" para la página de inicio de sesión
  • Seleccione "Borrar caché antes de abrir la página web" en Configuración de caché

            

 

 

  ¡Consejos!

  Ingresar captcha manualmente mientras se ejecuta la extracción local

  • Cuando se encuentra captcha, puede ingresar manualmente el captcha cuando ejecuta la tarea localmente. Cloud Extraction no admite el tratamiento con Captcha.
  • Actualmente, Octopares solo admite captcha digital y no admite otros tipos, como reCaptcha v2.

 

[La versión en video de este tutorial está disponible aquí]

 

 

Artículos relacionados:

Establecer un tiempo de espera 

Extracción local 

Extracción de nubes  

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse