Cómo empezar
Primero, empiezo con el web scraping para extraer los datos de la Comisión Nacional de Salud de China y uso Tableau para visualizar espacialmente la progresión del brote. También creo un dashboard donde podríamos alternar fácilmente entre las fechas y las provincias para una mirada más cercana.
Descargo de responsabilidad:
Tenga en cuenta que los datos que he recopilado son hasta el 11 de febrero. Al leer este artículo, los datos pueden estar fuera de lugar y no pueden reflejar la situación actual de este brote. Explicaré que hay una manera fácil de mantenerse al día con los datos en vivo más adelante en el artículo. Utilicé web scraping tool para extraer datos en lugar de codificar, ya que puede transmitir los datos a un formato factible sin limpieza de datos.
Elija una fuente de datos
Si busca datos de coronavirus en Google, estoy seguro de que encontrará muchos recursos. Fuentes como Kaggle y WHO son datos secundarios recopilados por otros que van a la zaga de los últimos datos de la fuente primaria, como el sitio web oficial de salud de China. Si es un analista de datos que tiene estándares estrictos con respecto a la precisión y la oportunidad, debe evitar sacar conclusiones con los datos secundarios. Entonces, ¿qué fuente deberías usar? Los datos primarios son los que eliges. En este punto, elegí Coronavirus Update Source (la Fuente de actualización de Coronavirus), ya que se guarda como JSON, lo que nos permite transmitir los datos de ciudades individuales a nuestro sistema a través de una tubería API. (Lea esta guía de un archivo JSON)
Plantilla de Scraping
Otra forma de extraer los datos en vivo es usar una plantilla de scraping como hice en el último artículo. Es una solución simple para las personas que no pueden codificar (vea este video para obtener detalles). Puede configurar un programador de tareas para obtener datos actualizados. Aquí están data que he recopilado y no dude en jugar con ellos.
Visualización de datos con Tableau
Después de obtener un gran volumen de datos, podemos subirlo a Tableau. Primero creo una capa de mapa simplemente arrastrando la Provincia/Estado a los campos de colocación. Después de eso, agrego series de tiempo y acumulo valores para dar una visión completa de las tendencias de datos en cada provincia. Extraigo la provincia de Hubei, ya que puedo cuidar especialmente su tendencia de datos. El mapa muestra una propagación histórica del coronavirus en los últimos 20 días desde el 22 de enero. A partir del 11 de febrero, el número de infecciones confirmadas solo en Hubei llegó a 33.366.
Podemos decir que además de Hubei, este brote también tiene un gran impacto en Guangdong, Zhejiang, Hunan y Henan.
Caso reportado en cada provincia
Observe que los casos reportados de Hubei son significativamente mayores que todos los demás combinados. Creo un grupo y los divido en dos categorías: Hubei y otros. Para tener una mejor idea de a dónde conduce este brote, también agrego líneas de tendencia para analizar la situación actual. Y puede notar que tanto Hubei como otros comienzan a deslizarse por debajo de la línea de tendencia, lo que indica una tendencia a disminuir en los casos confirmados. Sin embargo, el número de muertos no muestra un cambio positivo ya que los números todavía están por encima de la línea de tendencia.
Casos confirmados de Hubei VS. Otros
Número de muertos de Hubei VS. Otros
La tasa de recuperación entre las provincias además de Hubei parece ser una noticia alegre, ya que la línea de tendencia es más rígida con el tiempo, y más lugares se mueven hacia arriba con una indicación de un aumento en el impulso de recuperación. La tasa de recuperación continuará creciendo a medida que las personas ahora están tomando medidas inmediatas para vencer al virus.
Pensamientos finales
Hice una animación, ya que es una excelente manera de comprender el panorama general en el que podemos ver la progresión de este brote. Una vez que visualizamos los datos, se vuelve mucho más fácil de analizar. El mayor desafío en el análisis de datos es la recopilación de datos. Por lo general, invertiría la mayor parte del tiempo en trabajo sin sentido. A menudo, también necesito reparar el formato de datos manualmente. Descubrí que una herramienta de web scraping puede elevar en gran medida la productividad. Sin embargo, no recomendaría abusar y raspar excesivamente ningún sitio web. Esto llevaría a graves consecuencias legales. Consulte este artículo para obtener más información: ¿Es legal el web scraping?