Todos hemos escuchado las historias de guerra que nacen de datos erróneos:
- Se envían paquetes importantes al cliente equivocado.
- Se realizan dobles pagos a los proveedores debido a registros de facturación corruptos.
- Se pierden oportunidades de venta debido a registros de productos incompletos.
Estas historias no sólo hacen que usted y su empresa queden como tontos, sino que también causan grandes daños económicos. Y cuanto más depende su empresa de los datos, mayor es el potencial de daño.
Aquí, echamos un vistazo a lo que es la calidad de los datos y cómo se puede mejorar todo el proceso de gestión de la calidad de los datos.
¿Qué es la calidad de los datos?
Definir la calidad de los datos es una tarea esquiva. Aunque tenemos la sensación intuitiva de que se refiere a datos de alto nivel, la definición exacta es difícil de precisar. Varias instituciones, académicos y expertos de la industria han tratado de especificar las características de la integridad de los datos en sus definiciones de calidad de datos.
Por ejemplo, Fleckenstein y Fellows (2018) se refieren a los datos de alta calidad como datos que «son aptos para sus usos previstos en operaciones, toma de decisiones y planificación». En una línea similar, el Instituto Nacional de Estándares y Tecnología define la calidad de los datos como: «la utilidad, exactitud y corrección de los datos para su aplicación».
Entonces, a menos que seamos un estudiante que intenta aprobar un examen de procesos de gestión de datos, ¿por qué nos importan estas definiciones? De las definiciones anteriores se desprende que ambas están orientadas a los aspectos pragmáticos de la calidad de los datos. Disponer de datos de alta calidad nos permite planificar, tomar decisiones y utilizar los datos en diversas aplicaciones.
¿Pero por qué importa esto? La calidad de los datos tiene enormes ramificaciones en los resultados de la empresa. Tener una clara comprensión (definición) de lo que constituye la calidad de los datos nos permite medirla y solucionarla.
Aprofundicemos en por qué la calidad de los datos es tan importante.
¿Por qué es importante la calidad de los datos?
Las historias de guerra mencionadas en la introducción hablan mucho de la importancia de los datos. Pero la calidad de los datos es importante por una multitud de otras razones:
- La calidad de los datos afecta al resultado final. Los datos de baja calidad o corruptos afectarán a las operaciones de su negocio desde el punto de vista financiero. Desde el aumento de los gastos al cometer errores (devoluciones de mercancías vendidas, doble facturación, etc.) hasta la pérdida de oportunidades financieras (negociación de costes de suministro más bajos, pérdida de ventas debido a datos incompletos o a la falta de confianza de los clientes, etc.), los datos de baja calidad cuestan más de lo que podría parecer a primera vista.
- La calidad de los datos afecta a la confianza en ellos. Cuando se descubren problemas con la calidad de los datos, se pierde la confianza. Es posible que los clientes no confíen en usted porque ha cometido errores, mientras que los directivos de la empresa pueden considerar que los datos no son fiables para la toma de decisiones. Sea cual sea el caso, la baja calidad de los datos tiene efectos perjudiciales a largo plazo para la reputación de los datos y de las personas que se ocupan de ellos.
- Los datos de alta calidad son necesarios para los productos de datos. Dirigimos empresas en una época en la que cada vez más productos dependen de los datos. Tanto si se trata de aplicaciones que utilizan los datos de los clientes para proporcionar servicios (aplicaciones de inversión financiera, aplicaciones deportivas, etc.) como de productos de aprendizaje automático que basan todo su rendimiento en los datos, tener datos de alta calidad para su producto es lo mismo que tener combustible de alta calidad para su cohete. A menos que el combustible sea de un nivel superior, el cohete no va a volar. O como dicen los ingenieros de aprendizaje automático: «Basura que entra, basura que sale». Los datos malos no van a funcionar. Garantizar que los datos sean tan buenos como sea posible es un requisito previo para una línea de productos de alto rendimiento.
¿Cuáles son los problemas comunes de calidad de datos?
Hay tantos problemas con la calidad de datos como expertos en datos con historias de guerra.
Pregunte a cualquier ingeniero o arquitecto de datos y compartirá con gusto cómo un diseño de base de datos o una implementación de análisis condujo a una debacle empresarial masiva.
Para entender los problemas recurrentes en torno a la calidad de los datos, tenemos que agrupar estos problemas en torno a temas comunes, que se conocen como las dimensiones de la calidad de los datos.
Hay múltiples dimensiones de la calidad de los datos que importan:
- Accesibilidad o disponibilidad de los datos. El acceso a los datos es necesario si queremos analizarlos y sacar conclusiones que conduzcan a conocimientos empresariales rentables. Los problemas relacionados con la accesibilidad de los datos pueden producirse en cualquier fase del proceso ETL. Nuestra recopilación de datos podría romperse, omitiendo la importación de algunos conjuntos de datos en nuestra base de datos, o podríamos encontrarnos con un problema de permisos de compartición, que impide a los analistas acceder a los datos necesarios para su análisis. Esto también dificulta la colaboración entre diferentes analistas porque no tienen acceso a los datos necesarios para trabajar juntos.
- Precisión o exactitud de los datos. La exactitud se refiere a lo bien que los datos reflejan el mundo real que intentan describir. Esta característica de la calidad de los datos es difícil de especificar en las normas de calidad de los datos porque los problemas de exactitud adoptan muchas formas, desde el cambio de direcciones que no se actualizan en los registros de los clientes hasta las faltas de ortografía y las inserciones erróneas. La exactitud de los datos suele afirmarse mediante la aplicación de reglas de negocio dentro del proceso de limpieza de datos, que comprueba la corrección de los mismos.
- Integridad o exhaustividad de los datos. Los valores de datos que faltan siempre presentan un problema dentro de las operaciones de datos. Garantizar que los registros estén completos es una de las características de los datos de alta calidad. Durante el proceso de depuración de datos, los activos de datos con valores ausentes se eliminan o se imputan con las mejores estimaciones como sustitutos.
- Consistencia, coherencia o claridad de los datos. Cuando dos registros sobre la misma unidad contienen información contradictoria, no sólo son incoherentes, sino que merman la capacidad de tomar decisiones basadas en datos. Y ni siquiera pensemos en los problemas de cumplimiento normativo que puede tener si sus informes financieros muestran datos incoherentes…
- Relevancia, pertinencia o utilidad de los datos. Puedes haber recogido todos los datos del mundo, pero son completamente inútiles si no son relevantes para tu análisis y tu negocio. Recoger datos relevantes o útiles (y descartar el resto) forma parte de la garantía de calidad de los datos.
- Oportunidad o latencia de los datos. ¿Con qué rapidez disponemos de los datos? Si hay un retraso entre la recogida de datos de sus fuentes y su análisis, podríamos perder el potencial del análisis en tiempo real. Si los retrasos son aún mayores, podríamos producir informes antes de que todos los datos estén disponibles, pintando así una imagen incorrecta entre lo que se informa (con datos que faltan) y lo que es realmente cierto (con datos retrasados).
- Unicidad de los datos. Algunos datos son únicos por diseño, como el número UUID de su producto, o la identidad de sus clientes. El problema más común en la calidad de los datos es la duplicación de registros, por lo que la misma información se inserta varias veces. Este problema suele surgir durante la introducción de datos, especialmente si se hace manualmente.
- Validez o razonabilidad de los datos. Los datos válidos son aquellos que se ajustan a las limitaciones empresariales o técnicas. Por ejemplo, es probable que su cliente no tenga 140 años, por lo que es probable que haya un problema de validez. Pero la validez no sólo se refiere a las restricciones semánticas (como la edad). También incluye la distribución de los datos y sus métricas agregadas. Observar la media, la mediana, la moda, las desviaciones estándar, los valores atípicos y otras características estadísticas permite discernir la validez de los datos.
¿Quién es responsable de la calidad de los datos?
La calidad de los datos es asunto de todos porque una buena calidad de los datos permite a todos confiar en el proceso y hacer su mejor trabajo. Sin embargo, dependiendo del tipo de operaciones que se lleven a cabo, diferentes personas pueden ser responsables de asegurar la calidad de los datos.
En las empresas y en los despliegues interorganizativos, suele haber un equipo de gestión de datos encargado de asegurar la calidad de los mismos. El equipo está formado por un gestor de datos, que supervisa toda la operación de aseguramiento de la calidad de los datos, así como por profesionales que resuelven conflictos técnicos y administradores de datos. Estos últimos son responsables de comunicar las cuestiones de calidad de datos y la resolución de problemas a través de los silos dentro de la empresa.
En las organizaciones más pequeñas, las startups y las empresas caseras, la responsabilidad suele recaer sobre los hombros de la «persona de datos» (científico de datos, analista de negocios o ingeniero de datos) o alguien del departamento de TI.
¿Cómo consiguen estos equipos y personas unos datos de alta calidad? Recorren el ciclo de gestión de la calidad de los datos y la mejoran.
Cómo mejorar la calidad de los datos
Hay un proceso de mejores prácticas a la hora de mejorar la calidad de tus datos:
- Empieza por establecer un marco de gobierno de datos. El marco de gobierno de los datos especifica qué normas se van a seguir y qué requisitos y reglas empresariales deben aplicarse para conseguir datos de alta calidad. Esto también incluye el cumplimiento normativo, es decir, cómo sus prácticas de calidad de datos cumplen con el Reglamento General de Protección de Datos (GDPR) de la Unión Europea y/o la normativa de la Ley de Privacidad del Consumidor de California (CCPA).
- Establezca KPIs u objetivos para la calidad de los datos. Identifique las dimensiones de la calidad de los datos que deben corregirse y especifíquelas como KPI. Una forma común de evaluar cuánto se ha mejorado la «precisión de los datos» es medir el número de activos de datos (tablas, bases de datos, conductos ETL, etc.) que ha comprobado para detectar problemas de precisión. Asegúrese de establecer también un sistema de registro para la elaboración de informes sobre la calidad de los datos.
- Perfile los datos y establezca una lista de problemas. El perfilado de datos se refiere al análisis de datos que produce un informe sobre la distribución de los datos, las frecuencias, las tendencias centrales y las desviaciones. Esto puede utilizarse para comprender el nivel estructural de los datos. Utilice este y otros análisis para compilar una lista de problemas que deben solucionarse.
- Solucione los problemas. Es tan sencillo como eso: arreglarlos. Esto lo suelen hacer los profesionales de los datos (gestores de datos prácticos, ingenieros de datos y científicos de datos) limpiando los datos (hemos escrito una larga guía sobre las mejores prácticas para la limpieza de datos – consúltela aquí). Asegúrese de registrar todas las correcciones para que pueda generar un informe de todos los hallazgos.
- Itere o evite que los problemas se repitan. La solución de problemas de calidad de datos es cíclica. Una vez que haya terminado, tiene que volver a revisar sus plataformas de datos para verificar que todo está de acuerdo con sus normas y establecido en su marco de gobierno de datos. Si no es así, hay que volver a limpiar los datos. Los enfoques avanzados evitan que se repitan los problemas de calidad de datos, que ampliamos en la siguiente sección.
Cómo garantizar la calidad de los datos a largo plazo
Independientemente de que haya pasado antes por el proceso de afirmación de la calidad de los datos y haya limpiado sus datos, hay varias cuestiones que siempre van a exigir su atención:
- Entropía. No importa lo bien que haya limpiado sus recursos antes, los datos están vivos y se actualizan constantemente, por lo que es probable que surjan nuevos errores.
- La naturaleza de los big data. Los big data se caracterizan mejor por las 3 V: volumen, velocidad y variedad. El volumen se refiere a cómo la cantidad de datos aumenta cada día. La velocidad se refiere a cómo se acelera la producción de datos. Y la variabilidad se refiere a cómo los datos adoptan muchas formas diferentes: mientras que la mayoría de los datos en el pasado eran relacionales (tablas de bases de datos, registros de Excel, etc.), muchos datos hoy en día son no estructurados (archivos de texto, flujos de enlaces de sitios web, grabaciones de vídeo, etc.). Las empresas que utilizan datos en su toma de decisiones o productos se inclinan hacia el big data y sus diversas ventajas y problemas. Aprovechar el potencial de los big data significa que también nos enfrentamos a los retos de escalar nuestra infraestructura para la recopilación de datos sin causar problemas (como datos corruptos y perdidos), así como ajustar nuestro proceso de garantía de calidad a las exigencias de los datos no estructurados.
- Normativa. Reglamentos como el GDPR y la CCPA son solo algunos de los cumplimientos legales que tenemos que acatar. Se introducen nuevas normativas y se actualizan las existentes, lo que exige una supervisión constante y cambios en el trabajo de aseguramiento de la calidad de los datos que llevamos a cabo.
Entonces, ¿cómo mantienen las empresas sus datos bajo control con todos estos factores que influyen en la calidad de los datos?
La respuesta es a través de un software de calidad que esté basado en las mejores prácticas. Un buen software nos ayuda a gestionar los datos de varias maneras para asegurar su calidad:
- Previene las infracciones. Un buen software evita que surjan problemas de calidad de los datos. Por ejemplo, puede establecer restricciones (de clave primaria) para su tabla relacional que impidan la inserción de registros duplicados.
- Supervisa la canalización de los datos. Un buen software supervisa sus plataformas de datos y le notifica cada vez que sospecha que los datos están corruptos, o hace sonar las alarmas cuando realmente sucede (por ejemplo, una tubería de recolección de datos falla).
- Automatice los procesos ETL críticos. La limpieza de datos se reduce a un conjunto de comandos repetitivos ejecutados en su lenguaje favorito (SQL, Python, etc.). Un buen software le permite automatizar estos procesos ETL para garantizar siempre la calidad de sus datos.
- … y mucho más.
Una plataforma para gestionar la calidad de los datos
Un buen software puede ayudarle a gestionar la calidad general de sus activos de datos.
Keboola es un ejemplo de ese software. Como plataforma unificada de DataOps, puede utilizar Keboola para:
- Configurar su canalización de datos dentro de la propia plataforma. Todo el proceso ETL (extracción de fuentes de datos, transformación de datos en bruto limpiándolos y carga de los datos en la base de datos de su elección) se puede lograr en sólo un par de clics.
- Configurar su proceso de limpieza de datos dentro de las transformaciones para garantizar los estándares de calidad de datos de su marco de gobierno de datos.
- Organizar su transformación para que se ejecute automáticamente y tener la seguridad de que siempre le proporcionará datos fiables.
- Supervise la fiabilidad de la cadena de datos de extremo a extremo.
Pero Keboola va un paso más allá:
- Cumple totalmente con las exigencias normativas globales (GDPR, CCPA y muchas más).
- Ofrece los mejores niveles de seguridad del sector.
- Permite la colaboración entre todas sus partes de datos. Los problemas de acceso son cosa del pasado con el control de permisos granular e intuitivo de Keboola.
- Escala sin problemas. ¿Quieres grandes datos? No hay problema con Keboola. La infraestructura se encarga de sí misma, por lo que no sufrirás dolores de crecimiento si decides incluir más fuentes o diferentes activos de datos.
¿Listo para probarlo? Echa un vistazo a todo lo que Keboola tiene que ofrecer en este plan gratuito (para siempre). Sí, para siempre.