Data Veracity: a New Key to Big Data

, Author

No seu discurso no Web Summit 2018, Yves Bernaert, o Director Geral Sénior da Accenture, declarou a busca da veracidade dos dados que se tornará cada vez mais importante para dar sentido ao Big Data. Em resumo, Data Science está prestes a passar da quantidade de dados para a qualidade de dados.

É verdade, que a veracidade dos dados, embora sempre presente em Data Science, foi superada por outros três grandes V’s: Volume, Velocidade e Variedade. Veracidade dos dados

Volume

Para Análise de Dados precisamos de enormes volumes de dados. Felizmente, hoje os dados são fornecidos não só por especialistas humanos, mas também por máquinas, redes, leituras de dispositivos conectados e assim por diante. Pode-se dizer que na maioria dos casos, temos dados suficientes à nossa volta. O que precisamos agora é selecionar o que pode ser útil.

Velocidade

No campo dos Grandes Dados, velocidade significa o ritmo e a regularidade com que os dados fluem a partir de várias fontes. É importante, que o fluxo de dados seja maciço e contínuo, e que os dados possam ser obtidos em tempo real ou com apenas alguns segundos de atraso. Esses dados em tempo real podem ajudar os pesquisadores a tomar decisões mais precisas e fornecer uma imagem mais completa.

Variedade

Para que os dados sejam representativos, eles devem vir de várias fontes e em muitos tipos. Atualmente, existem muitos tipos de dados estruturados e não estruturados em diversos formatos: planilhas, bancos de dados, leituras de sensores, textos, fotos, áudios, vídeos, arquivos multimídia, etc. A organização deste enorme pool de dados heterogêneos, seu armazenamento e análise tornaram-se um grande desafio para os cientistas de dados.

E a Veracidade dos Dados?

Em termos mais gerais, a veracidade dos dados é o grau de precisão ou veracidade de um conjunto de dados. No contexto de grandes dados, não é apenas a qualidade dos dados que é importante, mas quão confiável é a fonte, o tipo e o processamento dos dados.

A necessidade de dados mais precisos e confiáveis sempre foi declarada, mas muitas vezes negligenciada em prol de conjuntos de dados maiores e mais baratos.

É verdade que a arquitetura anterior de data warehouse/business intelligence (DW/BI) tendia a gastar grandes quantidades de tempo e esforço na preparação dos dados, tentando alcançar altos níveis de precisão. Agora, com a incorporação de dados não estruturados, que é incerta e imprecisa por definição, assim como com o aumento da variedade e velocidade, as empresas não podem alocar recursos suficientes para limpar os dados adequadamente.

Como resultado, a análise de dados deve ser realizada tanto em dados estruturados como não estruturados, que são incertos e imprecisos. O nível de incerteza e imprecisão varia caso a caso, por isso pode ser prudente atribuir uma pontuação de Veracidade de Dados e uma classificação para conjuntos de dados específicos.

Fontes de veracidade dos dados

fontes de veracidade dos dados

Veracidade dos dados deu origem a dois outros dois grandes V’s de Grandes Dados: validade e volatilidade:

Volatilidade dos dados

Validade

Primavera a partir da idéia de precisão e veracidade dos dados, mas olhando para eles de um ângulo um pouco diferente, a validade dos dados significa que os dados são corretos e precisos para o uso pretendido, uma vez que dados válidos são a chave para tomar as decisões corretas.

Volatilidade

A volatilidade dos dados, por sua vez, refere-se à taxa de variação e vida útil dos dados. Para determinar se os dados ainda são relevantes, precisamos entender por quanto tempo um determinado tipo de dado é válido. Tais dados como as mídias sociais onde os sentimentos mudam rapidamente são altamente voláteis. Dados menos voláteis, como tendências climáticas, são mais fáceis de prever e rastrear. No entanto, infelizmente, algumas vezes a volatilidade não está sob nosso controle.

Por que é importante

Dados grandes são extremamente complexos e ainda está para ser descoberto como liberar seu potencial. Muitos pensam que na aprendizagem mecânica quanto mais dados tivermos melhor, mas, na realidade, ainda precisamos de métodos estatísticos para garantir a qualidade dos dados e a sua aplicação prática. É impossível usar dados grandes em bruto sem validar ou explicar. Ao mesmo tempo, os grandes dados não têm uma base forte com estatísticas. É por isso que pesquisadores e analistas tentam entender plataformas de gerenciamento de dados para métodos pioneiros que integram, agregam e interpretam dados com alta precisão. Alguns desses métodos incluem indexação e limpeza dos dados que são usados em dados primários para dar mais contexto e manter a veracidade dos insights.

Neste caso, somente dados confiáveis podem agregar valor aos seus algoritmos de análise e aprendizagem de máquina e a ênfase na sua veracidade só crescerá com conjuntos de dados crescendo em volume e variedade.

Image Credit: Besjunior/

Deixe uma resposta

O seu endereço de email não será publicado.