Data Veracity: a New Key to Big Data

, Author

Web Summit 2018の講演で、アクセンチュアのシニアマネージングディレクター、イヴ・ベルナート氏は、ビッグデータを理解するためにますます重要になるデータの真実性の探求を宣言しました。 つまり、データサイエンスはデータの量からデータの質へと変わろうとしているのです」

確かに、データの真実性は、データサイエンスには常に存在していたものの、他の3つの大きなVに負けていた。 ボリューム、ベロシティ、バラエティです。 データの正確性

データ分析には、膨大な量のデータが必要です。 幸いなことに、今日のデータは人間の専門家だけでなく、機械、ネットワーク、接続されたデバイスからの読み取り値などからも提供されています。 ほとんどの場合、私たちの周りには十分なデータがあると言えます。 ビッグデータの分野では、「速度」とは、さまざまなソースから流れ込んでくるデータのペースと規則性を意味します。 データの流れが大量かつ連続的であることが重要であり、データはリアルタイムまたはわずか数秒の遅れで取得される可能性があります。 このリアルタイムのデータは、研究者がより正確な決定を下し、全体像を把握するのに役立つ。 現在、さまざまな形式の構造化および非構造化データが存在する。 スプレッドシート、データベース、センサー読み取り値、テキスト、写真、オーディオ、ビデオ、マルチメディアファイルなどです。 この巨大な異種データのプールを整理し、その保存と分析を行うことは、データ科学者にとって大きな課題となっています。 ビッグ データという文脈では、重要なのはデータの質だけでなく、データのソース、タイプ、および処理がどれだけ信頼できるかです。

より正確で信頼できるデータの必要性は常に宣言されていましたが、より大きくて安価なデータセットのためにしばしば見落とされてきました。 現在では、不確定で不正確な非構造化データが組み込まれ、さらに多様性と速度が増しているため、企業はデータを適切にクリーンアップするために十分なリソースを割り当てることができなくなっています。

その結果、データ分析は、不確実で不正確な構造化データと非構造化データの両方に対して実行されることになる。 不確実性と不正確性のレベルはケースバイケースで異なるため、特定のデータセットに対してData Veracityスコアとランキングを割り当てることが賢明かもしれません。

Sources of data veracity

data veracity sources

Data veracityは、ビッグデータの他の2つの大きなVである有効性とボラティリティを生み出しました。

data Validity volatility

Validity

データの正確さと真実性から派生して、やや異なる角度から見て、データの有効性は、データが正しい決定を下すための鍵であるため、使用目的に応じて正確であることを意味しています。

ボラティリティ

データのボラティリティとは、転じて、データの変化率や寿命のことである。 データがまだ適切かどうかを判断するには、ある種のデータがどれくらいの期間有効かを理解する必要がある。 ソーシャルメディアのように、感情がすぐに変化するようなデータは、非常に揮発性が高い。 気象動向のような揮発性の低いデータは、予測や追跡がしやすい。 しかし、残念ながら、ボラティリティは私たちがコントロールできないこともあります。 機械学習では、データが多ければ多いほどよいと考える人が多いのですが、実際には、データの品質と実用性を確保するために、統計的な手法が必要なことに変わりはありません。 生のビッグデータを検証も説明もせずに使うことは不可能です。 同時に、ビッグデータには統計学による強力な基盤がありません。 だからこそ、研究者やアナリストはデータ管理プラットフォームを理解し、データを統合し、集計し、高い精度で解釈する手法を開拓しようとするのです。 これらの方法の中には、一次データで使用されるデータにインデックスを付け、クリーニングして、より多くのコンテキストを与え、インサイトの真実性を維持するものもあります。

この場合、信頼できるデータのみが分析や機械学習アルゴリズムに価値を与えることができ、その真実性の重視は、データセットの量と種類が増えるにつれて大きくなります。

Image Credit: Besjunior/

コメントを残す

メールアドレスが公開されることはありません。