Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Asociar datos con texto cercano

Thursday, February 27, 2020

Octoparse rastrea los datos con XPath, pero la posición de los datos en la página puede cambiar. Para abordar esto, le mostraremos cómo puede extraer datos con mayor precisión al asociarlos con un texto cercano.
 

Primero veamos un ejemplo, bajo qué circunstancias se utilizará la tecnología

web scraping with octoparse - associate with nearby text

En la imagen de ejemplo anterior, el valor de "Dimensiones del producto" se encuentra junto a las palabras "Dimensiones del producto". Del mismo modo, el valor de "Peso del artículo" siempre se encontrará junto a las palabras "Peso del artículo". El mismo patrón debería aplicarse al resto de la lista.

Aunque la posición del "tamaño del producto" puede cambiar de la primera línea a la segunda línea, su valor asociado siempre debe encontrarse en sus inmediaciones. Por lo tanto, una forma más consistente de encontrar y capturar los valores asociados de cualquier elemento es primero buscar dónde están las palabras y luego ubicar los datos junto a ellas. En este ejemplo, en lugar de tratar de encontrar el valor "13.4 x 0.3 x 13.4 pulgadas" directamente en la página, podemos capturarlo con mayor precisión cuando lo relacionamos con el texto de "Dimensiones del producto".

 

 

Siga los pasos a continuación para ver cómo se hace:

1) Haga clic en "13.4 x 0.3 x 13.4 pulgadas" para capturar el valor de "Dimensiones del producto". Una vez extraído, seleccione el campo de datos y luego haga clic en el iconoweb scraping with octoparse - associate with nearby text para personalizar el campo.

web scraping with octoparse - associate with nearby text

 

2) Haga clic en "Personalizar XPATH"

web scraping with octoparse - associate with nearby text

 

 

3) Encuentre la XPath relativa relacionada con el texto del campo de datos objetivo
  • Ahora, cargue la página con Firefox e inspeccione el campo de datos de destino con FirePath. Observe que las palabras reales de "Dimensiones del producto" se pueden encontrar dentro de la etiqueta <th> mientras que su valor asociado se encuentra dentro de la etiqueta <td> justo debajo de ella.

 

web scraping with octoparse - associate with nearby text

 

  • Una vez que vemos el patrón, podemos escribir un XPath relativo para buscar el valor de "Dimensiones del producto" en relación con la palabra encontrada: ".//th[contains(text(), 'Product Dimensions')]/following-sibling::td[1]" - Esta expresión XPath le dice al programa que busque la etiqueta <th> que contiene el texto de" Dimensiones del producto "y luego encuentre la primera etiqueta <td> ubicada justo debajo de ella. Y esto dará exactamente lo que queremos, el valor asociado de "Dimensiones del producto".

web scraping with octoparse - associate with nearby text

  • Ingrese el nuevo XPath en el cuadro de texto para "XPath coincidente", haga clic en "Aceptar" para guardar la configuración.

web scraping with octoparse - associate with nearby text

 
Ahora, Octoparse siempre buscará el valor asociado de "Dimensiones del producto" de acuerdo con el lugar donde se muestran las palabras "Dimensiones del producto" en la página web. Aplicar esta técnica a campos similares en una lista puede ayudar a reducir la posibilidad de que falten excepciones de elementos.
 
 
 

 

 ¡Consejos!

La XPath absoluta puede entenderse como una forma directa de encontrar un elemento en una página web, pero la desventaja de la XPath absoluta es que si hay algún cambio en las relaciones anidadas, la XPath no podrá localizar el elemento objetivo.
Relativo XPath permite buscar elementos de la página usando diferentes etiquetas, atributos y valores. Al agregar estos criterios, tendrá una mayor posibilidad de localizar el elemento con precisión.
Following-sibling se usa muy a menudo para encontrar un elemento ubicado al lado de otro elemento designado.

 

 ¡Aprenda más sobre  XPATH   aquí!

 

 

Artículos Relacionados:

Seleccionar elementos e un menú desplegable 

Extraer varias páginas a través de la paginación 

Comenzando con XPath 1 

Comenzando con XPath 2 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse