Resource
Tutoriales paso a paso para ayudarlo a comenzar con el web scraping
Descargar OctoparsePrimero veamos un ejemplo, bajo qué circunstancias se utilizará la tecnología
En la imagen de ejemplo anterior, el valor de "Dimensiones del producto" se encuentra junto a las palabras "Dimensiones del producto". Del mismo modo, el valor de "Peso del artículo" siempre se encontrará junto a las palabras "Peso del artículo". El mismo patrón debería aplicarse al resto de la lista.
Aunque la posición del "tamaño del producto" puede cambiar de la primera línea a la segunda línea, su valor asociado siempre debe encontrarse en sus inmediaciones. Por lo tanto, una forma más consistente de encontrar y capturar los valores asociados de cualquier elemento es primero buscar dónde están las palabras y luego ubicar los datos junto a ellas. En este ejemplo, en lugar de tratar de encontrar el valor "13.4 x 0.3 x 13.4 pulgadas" directamente en la página, podemos capturarlo con mayor precisión cuando lo relacionamos con el texto de "Dimensiones del producto".
Siga los pasos a continuación para ver cómo se hace:
1) Haga clic en "13.4 x 0.3 x 13.4 pulgadas" para capturar el valor de "Dimensiones del producto". Una vez extraído, seleccione el campo de datos y luego haga clic en el icono para personalizar el campo.
2) Haga clic en "Personalizar XPATH"
Una vez que vemos el patrón, podemos escribir un XPath relativo para buscar el valor de "Dimensiones del producto" en relación con la palabra encontrada: ".//th[contains(text(), 'Product Dimensions')]/following-sibling::td[1]" - Esta expresión XPath le dice al programa que busque la etiqueta <th> que contiene el texto de" Dimensiones del producto "y luego encuentre la primera etiqueta <td> ubicada justo debajo de ella. Y esto dará exactamente lo que queremos, el valor asociado de "Dimensiones del producto".
¡Consejos! La XPath absoluta puede entenderse como una forma directa de encontrar un elemento en una página web, pero la desventaja de la XPath absoluta es que si hay algún cambio en las relaciones anidadas, la XPath no podrá localizar el elemento objetivo.
¡Aprenda más sobre XPATH
|
Artículos Relacionados:
Seleccionar elementos e un menú desplegable
Extraer varias páginas a través de la paginación
¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!
Company
Producto
Recurso
Company
Product
Recurso