O que é a qualidade dos dados, porque é importante e como você pode melhorá-la?

Todos ouvimos as histórias de guerra nascidas de dados errados:

Os pacotes de importação são enviados para o cliente errado.
Os pagamentos duplos são feitos aos fornecedores devido a registos de facturação corrompidos.
As oportunidades de vendas são perdidas por causa de registros incompletos de produtos.

Estas histórias não só fazem você e sua empresa parecerem tolos, como também causam grandes prejuízos econômicos. E quanto mais sua empresa depende de dados, maior o potencial de danos.

Aqui, nós damos uma olhada no que é qualidade de dados e como todo o processo de gerenciamento de qualidade de dados pode ser melhorado.

O que é qualidade de dados?

Definir a qualidade dos dados é uma tarefa elusiva. Embora tenhamos uma sensação intuitiva de que ela se relaciona com dados de alto padrão, a definição exata é difícil de ser fixada. Várias instituições, acadêmicos e especialistas da indústria têm tentado especificar as características de integridade dos dados em suas definições de qualidade de dados.

Por exemplo, Fleckenstein e Fellows (2018) referem-se a dados de alta qualidade como dados que “são adequados para seus usos pretendidos em operações, tomada de decisões e planejamento”. De forma semelhante, o Instituto Nacional de Padrões e Tecnologia define qualidade de dados como: “a utilidade, exatidão e exatidão dos dados para sua aplicação”.

Então, a menos que sejamos um estudante tentando passar um exame em processos de gerenciamento de dados, por que nos preocupamos com essas definições? Está claro das definições acima que ambas estão orientadas para os aspectos pragmáticos da qualidade dos dados. Ter dados de alta qualidade nos permite planejar, tomar decisões e usar dados em várias aplicações.

Mas por que isso importa? A qualidade dos dados tem enormes ramificações no resultado final do negócio. Ter uma clara compreensão (definição) do que constitui qualidade de dados nos permite medi-la e corrigi-la.

Vamos mergulhar mais fundo no porquê da qualidade de dados ser tão importante.

Porquê a qualidade de dados é importante?

As histórias de guerra mencionadas na introdução falam volumes sobre a importância dos dados. Mas a qualidade dos dados é importante por muitas outras razões:

A qualidade dos dados afeta o resultado final. Dados de baixa qualidade ou corrompidos afetarão suas operações de negócios do ponto de vista financeiro. Do aumento das despesas ao cometer erros (devoluções de mercadorias vendidas, facturação dupla, etc.) à perda de oportunidades financeiras (negociar custos de fornecimento mais baixos, perder vendas devido a dados incompletos ou falta de confiança do cliente, etc.), os dados de baixa qualidade custam mais do que parece primeiro.
A qualidade dos dados afecta a confiança nos dados. Quando problemas com a qualidade dos dados são descobertos, você perde a confiança. Os clientes podem não confiar em você porque cometeu erros, enquanto os líderes empresariais podem não achar os dados confiáveis para a tomada de decisões. Seja como for, a baixa qualidade dos dados tem efeitos prejudiciais a longo prazo sobre a reputação dos dados e das pessoas que cuidam deles.
Dados de alta qualidade são necessários para os produtos de dados. Estamos a gerir negócios numa era em que cada vez mais produtos dependem de dados. Quer sejam aplicativos que usam dados de clientes para fornecer serviços (aplicativos de investimento financeiro, aplicativos esportivos, etc.) para produtos de aprendizagem de máquinas que baseiam todo o seu desempenho em dados, ter dados de alta qualidade para o seu produto é o mesmo que ter combustível de alta qualidade para o seu foguete espacial. A menos que o combustível seja de um padrão superior, o foguetão não vai voar. Ou, como dizem os engenheiros de aprendizagem de máquinas: “O lixo entra, o lixo sai.” Maus dados não vão cortá-lo. Garantir que os dados sejam tão bons quanto possível é um pré-requisito para uma linha de produtos de alto desempenho.

Quais são os problemas comuns de qualidade de dados?

Existem tantos problemas com qualidade de dados quanto há especialistas em dados com histórias de guerra.
>

Ask qualquer engenheiro ou arquiteto de dados e eles terão prazer em compartilhar como um projeto de banco de dados ou implementação analítica levou a um grande fracasso comercial.
Para entender as questões recorrentes em torno da qualidade dos dados, temos que agrupar essas questões em torno de temas comuns, que são conhecidos como as dimensões da qualidade dos dados.

Existem múltiplas dimensões da qualidade dos dados que importam:

Acessibilidade ou disponibilidade dos dados. O acesso aos dados é necessário se quisermos analisá-los e tirar conclusões que levem a insights lucrativos do negócio. Questões relativas à acessibilidade dos dados podem acontecer em qualquer fase ao longo do gasoduto ETL. Nossa coleta de dados pode ser quebrada, pulando a importação de alguns conjuntos de dados para a nossa base de dados, ou podemos encontrar um problema com as permissões de compartilhamento, o que impede os analistas de acessar os dados necessários para a sua análise. Isso também dificulta a colaboração entre diferentes analistas, pois eles não têm acesso aos dados necessários para trabalhar em conjunto.
Precisão ou exatidão dos dados. Exactidão refere-se a quão bem os dados reflectem o mundo real que estão a tentar descrever. Esta característica da qualidade dos dados é difícil de especificar nos padrões de qualidade dos dados porque os problemas de precisão assumem muitas formas, desde a mudança de endereços que não são atualizados dentro dos registros do cliente até erros de ortografia e inserções errôneas. A precisão dos dados é normalmente afirmada pela aplicação de regras de negócios dentro do processo de limpeza de dados, que verifica a exatidão dos dados.
Completude ou abrangência dos dados. Os valores dos dados em falta sempre apresentam um problema dentro das operações de dados. Garantir que os registros estejam completos é uma das características dos dados de alta qualidade. Durante o processo de limpeza dos dados, os ativos de dados com valores ausentes são removidos ou são imputados com as melhores estimativas como substituições.
Consistência, coerência ou clareza dos dados. Quando dois registros sobre a mesma unidade contêm informações conflitantes, eles não são apenas inconsistentes – eles também diminuem a sua capacidade de tomar decisões baseadas em dados. E não vamos sequer pensar nas questões de conformidade regulamentar em que você pode entrar se os seus relatórios financeiros mostram dados inconsistentes…
Relevância, pertinência ou utilidade dos dados. Você pode ter coletado todos os dados do mundo, mas eles são completamente inúteis se não forem relevantes para sua análise e seu negócio. Coletar dados relevantes ou úteis (e descartar o resto) faz parte da garantia de qualidade dos dados.
Atualidade ou latência dos dados. Com que rapidez os dados estão disponíveis para nós? Se houver um atraso entre a coleta de dados de suas fontes e a análise dos mesmos, poderemos perder o potencial da análise em tempo real. Se os atrasos forem ainda maiores, podemos produzir relatórios antes que todos os dados estejam disponíveis, pintando assim um quadro incorreto entre o que é relatado (com dados ausentes) e o que é realmente verdadeiro (com dados atrasados).
Exclusividade dos dados. Alguns dados são únicos pelo design, como o número UUID do seu produto, ou a identidade dos seus clientes. A questão comum na qualidade dos dados é a duplicação de registros, onde a mesma informação é inserida várias vezes. Este problema geralmente surge durante a entrada de dados, especialmente se for feito manualmente.
Validade ou razoabilidade dos dados. Os dados válidos são aqueles que estão de acordo com as restrições comerciais ou técnicas. Por exemplo, o cliente provavelmente não tem 140 anos, por isso é provável que haja um problema de validade aqui. Mas a validade não se refere apenas às restrições semânticas (como a idade). Ela também inclui a distribuição de dados e suas métricas agregadas. Olhando para a média, mediana, modo, desvios padrão, outliers e outras características estatísticas permite discernir a validade dos seus dados.

Quem é responsável pela qualidade dos dados?

A qualidade dos dados é assunto de todos, porque a boa qualidade dos dados permite que todos confiem no processo e façam o seu melhor trabalho. No entanto, dependendo do tipo de operações que você executa, diferentes pessoas podem ser responsáveis por afirmar dados de alta qualidade.

Em empresas e implementações inter-organizacionais, geralmente há uma equipe de gerenciamento de dados encarregada de afirmar a qualidade dos dados. A equipe compreende um gerente de dados, que supervisiona toda a operação de garantia da qualidade dos dados, bem como profissionais que resolvem conflitos técnicos e administradores de dados. Estes últimos são responsáveis pela comunicação das questões de qualidade de dados e resolução de problemas nos silos da empresa.

Em organizações menores, startups e home-businesses, a responsabilidade muitas vezes recai sobre os ombros da ‘pessoa dos dados’ (cientista de dados, analista de negócios ou engenheiro de dados) ou alguém do departamento de TI.

Como essas equipes e indivíduos conseguem dados de alta qualidade? Eles passam pelo ciclo de gerenciamento da qualidade dos dados e melhoram-no.

Como melhorar a qualidade dos dados

Há um processo de melhores práticas ao melhorar a qualidade dos seus dados:

Comece configurando uma estrutura de governança de dados. A estrutura de governança de dados especifica quais padrões você irá seguir e quais requisitos e regras de negócios precisam ser aplicados para se obter dados de alta qualidade. Isso também inclui a conformidade regulamentar, ou seja, como as suas práticas de qualidade de dados cumprem os regulamentos do Regulamento Geral de Proteção de Dados da União Européia (GDPR) e/ou do Ato de Privacidade do Consumidor da Califórnia (CCPA).
Estabeleça KPIs ou metas para a qualidade dos dados. Identifique as dimensões de qualidade de dados que precisam de ser corrigidas e especifique-as como KPIs. Uma forma comum de avaliar o quanto a ‘precisão dos dados’ foi melhorada é medir o número de ativos de dados (tabelas, bancos de dados, ETL pipelines, etc.) que você verificou quanto a problemas de precisão. Certifique-se também de configurar um sistema de registro para relatórios de qualidade de dados.
Perfil de dados e estabelecer uma lista de problemas. O perfil de dados refere-se à análise de dados que produz um relatório sobre distribuição de dados, frequências, tendências centrais e desvios. Isto pode então ser usado para compreender o nível estrutural dos dados. Use esta e outras análises para compilar uma lista de questões que precisam de correção.
Corrigir as questões. É tão simples quanto isso – conserte-os. Isto é normalmente feito por profissionais de dados (gestores de dados práticos, engenheiros de dados e cientistas de dados) através da limpeza dos dados (nós escrevemos um longo guia sobre as melhores práticas para a limpeza de dados – veja aqui). Certifique-se de registrar cada correção para que você possa gerar um relatório de todos os resultados.
Iterar ou evitar que os problemas se repitam. A correção de problemas de qualidade dos dados é cíclica. Uma vez terminado, você precisa checar novamente suas plataformas de dados para verificar se tudo está de acordo com seus padrões e configurado em sua estrutura de governança de dados. Se não estiver, você precisará limpar novamente os dados. Abordagens avançadas evitam que os problemas de qualidade de dados se repitam, o que expandimos na próxima seção.

Como garantir a qualidade dos dados a longo prazo

Se você já passou ou não pelo processo de afirmar a qualidade dos dados antes e já limpou seus dados, há vários problemas que sempre vão exigir sua atenção:

Entropia. Não importa quão bem você limpou seus recursos antes, os dados estão vivos e sendo constantemente atualizados, então novos erros provavelmente surgirão.
A natureza dos grandes dados. Os grandes dados são melhor caracterizados pelos 3 Vs: volume, velocidade e variedade. Volume refere-se a como a quantidade de dados está aumentando a cada dia. Velocidade se refere a como a produção de dados é acelerada. E variabilidade refere-se a como os dados tomam muitas formas diferentes: enquanto a maioria dos dados no passado eram relacionais (tabelas de banco de dados, registros em Excel, etc.), muitos dados hoje em dia não são estruturados (arquivos de texto, links de sites, gravações de vídeo, etc.). As empresas que utilizam dados nas suas tomadas de decisão ou produtos oscilam em direcção a grandes dados e às suas várias vantagens e questões. Aproveitar o potencial dos grandes dados significa que também enfrentamos os desafios de dimensionar nossa infra-estrutura de coleta de dados sem causar problemas (como dados corrompidos e ausentes), bem como ajustar nosso processo de garantia de qualidade às demandas de dados não estruturados.
Regulamentos. Regulamentos como o GDPR e CCPA são apenas algumas das normas legais que temos de cumprir. Novos regulamentos são introduzidos e os existentes são atualizados, o que exige supervisão constante e mudanças no trabalho de garantia de qualidade de dados que realizamos.

Então, como as empresas mantêm seus dados em controle com todos esses fatores influenciando a qualidade dos dados?

A resposta é através de software de qualidade que é baseado nas melhores práticas. Um bom software ajuda-nos a gerir os dados de várias formas para garantir a sua qualidade:

Previne violações. Um bom software evita que surjam problemas de qualidade dos dados. Por exemplo, você pode configurar (chave primária) restrições para sua tabela relacional que impedem que registros duplicados sejam inseridos.
Monitora o pipeline de dados. Um bom software monitora suas plataformas de dados e o notifica sempre que suspeita de dados corrompidos, ou soa os alarmes quando isso realmente acontece (por exemplo, um pipeline de coleta de dados falha).
Automatiza processos ETL críticos. A limpeza de dados resume-se a um conjunto de comandos repetitivos executados na sua linguagem favorita (SQL, Python, etc.). Um bom software permite automatizar estes processos ETL para garantir que os seus dados sejam sempre de alta qualidade.
… e mais.

Uma plataforma para gerir a qualidade dos dados

Um bom software pode ajudá-lo a gerir a qualidade geral dos dados dos seus activos.

Keboola é um exemplo de tal software. Como uma plataforma DataOps unificada, pode usar Keboola para:

Configurar o seu pipeline de dados dentro da própria plataforma. Todo o processo ETL (extração de fontes de dados, transformação de dados brutos através da limpeza e carregamento dos dados no banco de dados de sua escolha) pode ser alcançado em apenas alguns cliques.
Configure seu processo de limpeza de dados dentro das transformações para garantir os padrões de qualidade de dados de sua estrutura de governança de dados.
Arrasteça sua transformação para executar automaticamente e tenha certeza de que ela sempre lhe fornecerá dados confiáveis.
Monitorar o pipeline de dados ponta a ponta para confiabilidade.

But Keboola leva-o um passo adiante:

É totalmente compatível com as exigências regulatórias globais (GDPR, CCPA e muitas outras).
Oferece os melhores níveis de segurança da indústria.
Permite a colaboração entre todas as partes de seus dados. Os problemas de acesso são coisa do passado com o controle de permissão granular e intuitivo do Keboola.
Scales sem problemas. Você quer dados grandes? Não há problema com o Keboola. A infra-estrutura se cuida sozinha, assim você não sofrerá dores de crescimento se optar por incluir mais fontes ou diferentes ativos de dados.

Pronto para tentar? Confira tudo o que o Keboola tem a oferecer neste plano gratuito (para sempre). Sim, para sempre.

Junte-se à nossa newsletter