Tutoriales paso a paso para ayudarlo a comenzar con el web scraping

Descargar Octoparse

Formatear datos extraídos

Thursday, February 27, 2020

 

Durante su proyecto de web scraping, algunos datos podrían no tener el formato que quiera. En este caso, Octoparse ofrece 8 opciones de reformateo de datos para que pueda procesar o arreglar a los datos extraídos en el formato correcto.

 

Para acceder a estas funciones en Octoparse, el proceso se puede dividir en 5 pasos principales:

1. Seleccione el campo de datos para formatear

 

2. Haga clic en   para personalizar el campo de datos

 

 

3. Seleccione "Refinar datos extraídos"

 

4. Clic "Add step"

 

5. Seleccione una operación para volver a formatear los datos

 

 

Antes de presentar 8 opciones de formateo, nos gustaría hablar primero sobre el término "cadena"(string).

En programación, una cadena se refiere básicamente a una colección de caracteres como letras, números, símbolos y signos de puntuación. Por ejemplo, "" (space) es una cadena; "Octoparse" es una cadena; y "Hello 2 *% World!" También es una cadena. Una cadena no puede contener ningún carácter también. En otras palabras, una cadena que no contiene caracteres está vacía. Si reemplaza una palabra con una cadena vacía, coloquialmente, es igual a decir que elimina la palabra.

Vería la palabra "cadena" muchas instrucciones de función de las opciones de reformateo de datos de Octoparse. Si ve la palabra "cadena" allí, solo sabe que puede usar las opciones correspondientes para manejar una variedad de tipos de caracteres en los datos extraídos, como letras, palabras, oraciones, números, espacios, símbolos y signos de puntuación.

 

1. Reemplazar

2. Reemplazar con expresión regular

3. Emparejar con expresión regular

4. Recortar espacios

5. Agregar un prefijo

6. Añadir sufijo

7. Reformatear datos / tiempo extraídos

8. Transcodificación HTML

 

 

 

1. Reemplazar

Función: Reemplace string/s específicas en los datos extraídos con new string/s que desee.

 

 

 

 

 

2. Reemplazar con expresión regular

Función: Utilice una expresión regular específica para reemplazar las cadenas coincidentes en los datos extraídos con las cadenas que desee.

Puede obtener más información sobre la expresión regular en W3schools .

 

 

 

 

3. Emparejar con expresión regular

Función: Extrae string/s coincidentes de los datos extraídos utilizando una expresión regular específica.

Puede obtener más información sobre la expresión regular en W3schools .

 

 

 

Octoparse también ofrece la herramienta RegEx para generar automáticamente la expresión regular que necesita. Echemos un vistazo rápido a cómo usar la herramienta RegEx de Octoparse para generar y aplicar una expresión regular. Por ejemplo, aquí queremos recoger el número de estrellas del HTML externo extraído.

· Haga clic en "Try RegEx Tool"

· Ingrese los criterios de coincidencia: comience con start with " alt=" ", end with "star rating"

· Haga clic en "generate" para generar la expresión regular

· Haga clic en "Match" para recoger las cadenas coincidentes

· Haga clic en "Apply"

· Haga clic en "OK" para guardar la configuración

 

 

 

 

 

4. Recortar espacios

Función: Eliminar los espacios no deseados desde el inicio o / y el final de los datos extraídos.

Si desea eliminar los espacios entre los datos, puede usar Reemplazar o Reemplazar con expresión regular.

 

 

 

 

5. Agregar prefijo

Función: Agregue string/stringss delante de los datos extraídos.

 

 

 

6. Añadir sufijo

Función: Agregue una string/strings al final de los datos extraídos

 

 

 

7. Reformatear datos / tiempo extraídos

Función: Cambie la fecha / hora extraída a uno de los 14 formatos incorporados, o en su propio formato personalizado.

 

 

 

 

8. Transcodificación HTML

Función: Convierte automáticamente algunas etiquetas HTML específicas en textos sin formato. Por ejemplo, transcodifique "&gt" into ">" y "&nbsp" en un espacio.

 

 

 

Artículos relacionados:

Extraer datos del código fuente 

Datos del conglomerado extraídos 

Aprenda más sobre la expresión regular en W3school 

 

 

¡Descargue Octoparse para iniciar el web scraping o contáctenos para cualquier
pregunta sobre el extracción de datos!

Contáctenos Descargarse