La veracidad de los datos: una nueva clave para el Big Data

En su intervención en el Web Summit 2018, Yves Bernaert, el Senior Managing Director de Accenture, declaró la búsqueda de la veracidad de los datos que será cada vez más importante para dar sentido al Big Data. En definitiva, Data Science está a punto de pasar de la cantidad de datos a la calidad de los mismos.

Es cierto, que la veracidad de los datos, aunque siempre estuvo presente en Data Science, fue eclipsada por otras tres grandes V: Volumen, Velocidad y Variedad. Verosimilitud de los datos

Volumen

Para el Análisis de Datos necesitamos enormes volúmenes de datos. Por suerte, hoy en día los datos son proporcionados no sólo por expertos humanos, sino por máquinas, redes, lecturas de dispositivos conectados, etc. Se puede decir que, en la mayoría de los casos, tenemos suficientes datos a nuestro alrededor. Lo que necesitamos ahora es seleccionar los que pueden ser útiles.

Velocidad

En el campo del Big Data, la velocidad significa el ritmo y la regularidad con la que los datos fluyen desde diversas fuentes. Es importante que el flujo de datos sea masivo y continuo, y que los datos puedan obtenerse en tiempo real o con apenas unos segundos de retraso. Estos datos en tiempo real pueden ayudar a los investigadores a tomar decisiones más precisas y proporcionar una imagen más completa.

Variedad

Para que los datos sean representativos, deben proceder de diversas fuentes y de muchos tipos. En la actualidad, existen muchos tipos de datos estructurados y no estructurados en diversos formatos: hojas de cálculo, bases de datos, lecturas de sensores, textos, fotos, audios, vídeos, archivos multimedia, etc. La organización de este enorme conjunto de datos heterogéneos, su almacenamiento y su análisis se han convertido en un gran reto para los científicos de datos.

¿Qué pasa con la veracidad de los datos?

En términos más generales, la veracidad de los datos es el grado de exactitud o veracidad de un conjunto de datos. En el contexto de los big data, no sólo es importante la calidad de los datos, sino lo fiables que son la fuente, el tipo y el procesamiento de los datos.

La necesidad de contar con datos más precisos y fiables siempre ha sido declarada, pero a menudo se ha pasado por alto en aras de conjuntos de datos más grandes y baratos.

Es cierto que la anterior arquitectura de almacén de datos/inteligencia empresarial (DW/BI) tendía a dedicar cantidades desmesuradas de tiempo y esfuerzo a la preparación de los datos tratando de alcanzar altos niveles de precisión. Ahora, con la incorporación de datos no estructurados, que son inciertos e imprecisos por definición, así como con el aumento de la variedad y la velocidad, las empresas no pueden asignar suficientes recursos para limpiar los datos adecuadamente.

Como resultado, el análisis de datos debe realizarse sobre datos estructurados y no estructurados que son inciertos e imprecisos. El nivel de incertidumbre e imprecisión varía en cada caso, por lo que podría ser prudente asignar una puntuación y una clasificación de Veracidad de Datos para conjuntos de datos específicos.

Fuentes de la veracidad de los datos

La veracidad de los datos ha dado lugar a otras dos grandes V de Big Data: validez y volatilidad:

Validez de los datos volatilidad

Validez

Surgiendo de la idea de exactitud y veracidad de los datos, pero mirándolos desde un ángulo algo diferente, la validez de los datos significa que los datos son correctos y precisos para el uso que se les quiere dar, ya que los datos válidos son clave para tomar las decisiones correctas.

Volatilidad

La volatilidad de los datos, a su vez, se refiere al ritmo de cambio y al tiempo de vida de los mismos. Para determinar si los datos siguen siendo relevantes, tenemos que entender cuánto tiempo es válido un determinado tipo de datos. Datos como los de las redes sociales, en los que los sentimientos cambian rápidamente, son muy volátiles. Los datos menos volátiles, como las tendencias meteorológicas, son más fáciles de predecir y seguir. Sin embargo, por desgracia, a veces la volatilidad no está bajo nuestro control.

Por qué es importante

Los big data son extremadamente complejos y aún está por descubrir cómo liberar su potencial. Muchos piensan que en el aprendizaje automático cuantos más datos tengamos mejor, pero, en realidad, seguimos necesitando métodos estadísticos para garantizar la calidad de los datos y su aplicación práctica. Es imposible utilizar los big data en bruto sin validarlos o explicarlos. Al mismo tiempo, los big data no tienen una base sólida con la estadística. Por eso los investigadores y analistas tratan de entender las plataformas de gestión de datos para ser pioneros en métodos que integren, agreguen e interpreten los datos con gran precisión. Algunos de estos métodos incluyen la indexación y la limpieza de los datos que se utilizan en los datos primarios para dar más contexto y mantener la veracidad de las percepciones.

En este caso, sólo los datos fiables pueden añadir valor a sus análisis y algoritmos de aprendizaje automático y el énfasis en su veracidad no hará más que crecer con los conjuntos de datos que crecen en volumen y variedad.