Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Extracto del código fuente

Thursday, February 27, 2020

 

Pregunta: ¿Qué es el código fuente?

RespuestaEl código fuente  es la versión de texto original de una página web escrita en lenguajes de programación. Por lo tanto, contiene toda la información de una página web. Puede ver el código fuente de cualquier página web haciendo clic derecho y seleccionando "Ver código fuente de la página" en un navegador.

 

¿Por qué necesitas scrape del código fuente?

Cuando los datos que necesita se muestran en forma de contenido que no es de texto, como la clasificación por estrellas, es posible que no pueda extraer la clasificación directamente usando "Extraer texto del elemento", ya que el valor del número no es directamente visible en la página ( solo las estrellas); sin embargo, aún puede capturar esta valiosa información del código fuente HTML . En otras situaciones, los datos que necesita pueden mezclarse con otros datos desordenados a medida que se extraen directamente como texto; en este caso, puede intentar raspar los datos de HTML.

 

Octoparse admite la extracción de datos del código fuente directamente. En este tutorial, le mostraremos cómo extraer de HTML interno y HTML externo.

 

1) Extraer datos de HTML interno

2) Extraer datos de HTML externo

3) Herramientas de formateo de datos relacionadas con HTML 

 

 

HTML es el lenguaje de marcado estándar para crear páginas web. Cuando extraemos el HTML interno de un elemento en la página, obtendremos el marcado HTML contenido dentro del elemento. Entonces, para la información que se muestra en forma de una imagen o icono, primero podemos capturar su HTML interno y luego extraer aún más los datos de destino del código extraído mediante el uso de herramientas de reformateo de datos.

Tome como ejemplo la clasificación por estrellas de un restaurante en Yelp.com.

  • Haga clic en la "calificación de estrellas"
  • Seleccione "Extraer HTML interno del elemento seleccionado"

web scraping with octoparse - scrape html 

Cambie al modo de flujo de trabajo alternando el interruptor de flujo de trabajo web scraping with octoparse - scrape html. El HTML interno extraído se había agregado al "campo de datos",

 

         <img class="offscreen" src="https://s3-media2.fl.yelpcdn.com/assets/srv0/yelp_design_web/9b34e39ccbeb/assets/img/stars/stars.png " alt="4.0 star rating" height="303" width="84">

Observe que el valor numérico de la calificación de estrellas (4.0) incluye el código extraído, aunque no estaba directamente disponible en la página web. Ahora que tenemos el código, podemos identificar más "4.0" a partir de él mediante el formateo de los datos con Expresión regular (obtenga más información sobre cómo formatear HTML en la Parte 3).

 

 

 

2) Extraer datos de outer HTML 

El HTML externo es una propiedad de elemento que incluye las etiquetas de apertura y cierre, así como el contenido. Por lo tanto, capturar el HTML externo técnicamente puede proporcionar más información que el HTML interno. Si la información necesaria no se puede encontrar en el HTML interno, aún es posible ubicarla en el HTML externo.

Los pasos para extraer HTML externo son similares a los del HTML interno:

  • Haga clic en los datos necesarios.
  • Seleccione "Extraer HTML externo del elemento seleccionado" de "Consejos de acción"

 

El HTML externo de “la clasificación por estrellas” es el siguiente::

        <div style="background-color: rgb(229, 245, 233); outline: 1px solid rgb(0, 162, 59);" class="i-stars i-stars--large-4-rating-very-large" title="4.0 star rating">

        <img class="offscreen" src="https://s3-media2.fl.yelpcdn.com/assets/srv0/yelp_design_web/9b34e39ccbeb/assets/img/stars/stars.png

" alt="4.0 star rating" height="303" width="84"> </div>

Como puede ver, el HTML interno (resaltado en azul) es parte del HTML externo. Una vez extraídos, los datos de destino (4.0) pueden capturarse aún más utilizando la herramienta de expresión regular de manera similar (salte al paso).

 

 

¡Consejos!

1. ¿Cómo extraer el HTML completo de una página web?

Extraer el HTML completo le permite tener toda la información en una página web.

Seleccione cualquier elemento en la página, haga clic en la parte inferior de "Consejos de acción"
Seleccione "HTML" en la lista desplegable
Seleccione "Extraer HTML externo del elemento seleccionado".
¡Ahora ha capturado el HTML completo de la página!

 

 

 

2. ¿Por qué no hay "Extraer HTML interno ..." o "Extraer HTML externo ..." disponible en "Consejos de acción"?

Las opciones proporcionadas en "Consejos de acción" varían según los datos que seleccione.

Intente expandir la selección haciendo clic en el icono de expansión en la parte inferior de "Consejos de acción".

 

 

 

3) Reformatear datos con herramientas RegEx

Las herramientas de reformateo de datosl son muy útiles para procesar los datos extraídos y limpiarlos. Hay 8 herramientas integradas de reformateo de datos en Octoparse. A los efectos de este tutorial, cubriremos dos herramientas de reformateo relacionadas con HTML.

Para acceder a la herramienta de reformateo de datos,

  • Seleccione el campo de datos para formatear
  • Haga clic para personalizar el campo.
  • Haga clic web scraping with octoparse - scrape html en "Refinar datos extraídos"
  • Haga clic en "Agregar paso"

 

 

2. Match with Regular Expression

  • Select "Match with Regular Expression"
  • Click "Try RegEx Tool"
  • Enter the match criteria: start with " alt=" ", end with "star rating"
  • Click "generate", then "Match", you will see the number value of star rating (4.0) is matched. 
  • Click "Apply" 
  • Click "OK" to save the settings

 

 

1. Transcodificación HTML

Una vez que haya extraído el código HTML interno / externo, puede convertir las etiquetas HTML en texto sin formato mediante la "HTML transcoding". Por ejemplo, transcode "&gt" into ">" and "&nbsp" en un espacio.

  • Seleccione "HTML transcoding"
  • Haga clic en "Evaluate" y confirme la salida
  • Haga clic en "OK" para guardar la configuración


2. Combina con la expresión regular

  • Seleccione "Coincidir con expresión regular"
  • Haga clic en "Try RegEx Tool"
  • Ingrese los criterios de coincidencia: comience con "alt =" ", termine con"star rating "
  • Haga clic en "generate", luego en "Match", verá que el valor numérico de la calificación de estrellas (4.0) coincide.
  • Haga clic en "Apply"
  • Haga clic en "OK" para guardar la configuración

 

 

¡Consejos!

 

Si está interesado en aprender las otras herramientas de reformateo de datos, consulte este tutorial  .

 

 

 

Artículos relacionados:

Herramientas de reformateo de datos 

Definición del código fuente en Wikipedia 

Aprenda más sobre HTML en W3schools  

HTML interno 

HTML externo 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse