Join our newsletter

, Author

間違ったデータから生まれる戦争物語を、私たちは皆聞いたことがあります:

  1. 重要な荷物が間違った顧客に送られる。

これらの話は、あなたやあなたの会社を馬鹿にするだけでなく、大きな経済的損害をもたらします。

ここでは、データ品質とは何か、そして、データ品質管理プロセス全体をどのように改善できるかを見ていきます。

データ品質を定義することは、捉えどころのない作業です。 高水準のデータに関連するという直感はあっても、正確な定義を突き止めるのは困難です。 さまざまな機関、学者、および業界の専門家が、データ品質の定義にデータ整合性の特性を明記しようとしています。

例えば、Fleckenstein and Fellows(2018)は、高品質のデータとは「業務、意思決定、計画における意図した用途に適合している」データであると言及している。 同様に、米国標準技術研究所は、データ品質を次のように定義している。 “その用途に対するデータの有用性、正確性、正しさ “である。

では、データ管理プロセスの試験に合格しようとしている学生でない限り、なぜこれらの定義にこだわるのでしょうか。 上記の定義から明らかなように、どちらもデータ品質の実用的な側面を指向しています。 高品質のデータを持つことで、私たちは計画を立て、意思決定を行い、さまざまな用途でデータを使用することができます

。 データ品質は、ビジネスの収益に大きな影響を及ぼします。 何がデータ品質を構成しているのかを明確に理解(定義)することで、それを測定し修正することができます。

なぜデータ品質が重要なのか、さらに深く掘り下げてみましょう。 しかし、データの品質が重要なのは、他にも多くの理由があります。 低品質または破損したデータは、財務的な観点から業務に影響を及ぼします。 ミスをしたときの費用の増加(販売した商品の返品、二重請求など)から、財務上の機会の損失(供給コストの削減交渉、不完全なデータや顧客の信頼の欠如による販売機会の損失など)まで、低品質のデータは最初に考えたよりも多くの費用を要します。 データ品質に問題があることが発覚すると、信頼を失います。 顧客はミスをしたことを理由に信用しないかもしれないし、ビジネスリーダーは意思決定のためにデータを信頼できないと思うかもしれない。 いずれにせよ、データの品質が低いと、データの評判やそれを管理する人々に長期的な損害を与えることになります。 私たちは、より多くの製品がデータに依存する時代にビジネスを展開しています。 顧客データを利用してサービスを提供するアプリケーション(金融投資アプリ、スポーツアプリなど)から、データに基づいて全てのパフォーマンスを発揮する機械学習製品まで、製品に高品質なデータを持たせることは、ロケット船に高品質な燃料を持たせることと同じである。 燃料が優れていなければ、ロケットは飛ばないのです。 あるいは、機械学習のエンジニアが言うように。 “ゴミが入れば、ゴミが出る” 悪いデータではダメなのです。

データ品質に関する一般的な問題とは何でしょうか?

データ品質に関する問題は、戦争体験を持つデータ専門家の数だけ存在します。

データ エンジニアやアーキテクトに尋ねると、データベースの設計や分析の実装がどのように大規模なビジネスの失敗につながったかを喜んで教えてくれるでしょう。

データ品質を取り巻く再発する問題を理解するには、これらの問題を共通のテーマでグループ化する必要があり、これはデータ品質の次元として知られています。

  1. データへのアクセス性または利用可能性。 データを分析し、有益なビジネス洞察につながる結論を導きたいのであれば、データへのアクセスは必要です。 データ アクセス性に関する問題は、ETL パイプラインのどの段階でも発生する可能性があります。 データ収集がうまくいかず、データベースへのデータセットのインポートをスキップしたり、共有権限に問題があり、アナリストが分析に必要なデータにアクセスできなかったりする可能性があります。 また、異なるアナリストが共同作業に必要なデータにアクセスできないため、アナリスト間の共同作業の妨げにもなります。
  2. データの正確性または正しさ。 正確性とは、データが記述しようとする現実世界をどれだけ反映しているかを意味する。 データ品質のこの特性は、データ品質基準で規定するのが困難です。なぜなら、正確性の問題は、顧客記録内で更新されない住所の変更から、スペルミスや誤った挿入まで、さまざまな形で発生するからです。 データの正確性は、通常、データが正しいかどうかをチェックするデータクレンジングプロセスの中でビジネスルールを適用することによって主張される。
  3. データの完全性または包括性。 データの欠落は常にデータ運用の中で問題となる。 記録が完全であることを保証することは、高品質なデータの特徴の1つである。 データクリーニングの過程で、欠損値を持つデータ資産は削除されるか、あるいは代替となる最良の推定値でインプットされる
  4. データの一貫性、一貫性、または明確性。 同じユニットに関する2つのレコードが矛盾する情報を持っている場合、それらは単に矛盾しているだけでなく、データに基づいた意思決定を行う能力を低下させます。 また、財務報告書に一貫性のないデータが記載されている場合、規制遵守の問題に巻き込まれる可能性があることも忘れてはなりません。 世界中のあらゆるデータを収集しても、それが分析やビジネスに関連していなければ、まったく意味がありません。 関連性のあるデータや有用なデータを収集すること(そして残りは捨てること)は、データ品質保証の一部です。 データはどれくらいの速さで利用できるのか。 データソースからデータを収集してから分析するまでに遅れが生じると、リアルタイム分析の可能性を失う可能性があります。 遅延がさらに長くなると、すべてのデータが利用可能になる前にレポートを作成することになり、報告されたもの(データがない)と実際のもの(遅延したデータ)の間に誤った図式が描かれるかもしれません。
  5. データの一意性。 製品のUUID番号や顧客のIDのように、設計上一意であるデータもあります。 データ品質における共通の問題は、同じ情報が複数回挿入されるレコードの重複です。 この問題は通常、データ入力時、特に手作業で行う場合に発生します。
  6. データの妥当性または合理性。 有効なデータとは、ビジネス上または技術上の制約に沿ったものです。 例えば、顧客は140歳ではないでしょうから、ここに妥当性の問題があると考えられます。 しかし、妥当性とは意味的制約(年齢など)だけを指すのではありません。 データの分布とその集計指標も含まれます。 平均値、中央値、最頻値、標準偏差、外れ値、およびその他の統計的特性を見ることで、データの妥当性を見分けることができます。

データ品質に責任を持つのは誰ですか。

データ品質が良いと、誰もがプロセスを信頼して最高の仕事ができるので、データ品質は全員の仕事です。

企業や組織横断的な展開では、通常、データ品質の保証を担当するデータ管理チームが存在します。 このチームは,データ品質保証業務全体を監督するデータマネージャー,技術的な衝突を解決するプラクティショナー,データスチュワードで構成されています。 後者は、ビジネス内のサイロを越えてデータ品質の問題と問題解決を伝える責任を負う。

小規模な組織、スタートアップ、およびホームビジネスでは、この責任は「データ担当者」(データサイエンティスト、ビジネスアナリスト、データエンジニア)またはIT部門の誰かの肩にかかることがよくある。

これらのチームや個人は、どのようにして高品質なデータを実現しているのでしょうか。 彼らはデータ品質管理のサイクルを経て、それを改善します。

データ品質を改善する方法

データの品質を改善する場合、ベストプラクティスのプロセスがあります:

  1. データガバナンスのフレームワークを設定することから始めてください。 データガバナンスのフレームワークは、高品質のデータを実現するために、どの標準に従うか、どのようなビジネス要件やルールを適用する必要があるかを規定するものです。 これには、規制の遵守、すなわち、データ品質の実践が欧州連合の一般データ保護規則(GDPR)および/またはカリフォルニア州消費者プライバシー法(CCPA)の規制をどのように満たすかも含まれます。
  2. データ品質に関するKPIまたは目標を設定する。 修正が必要なデータ品質の次元を特定し、KPIとして指定する。 データの正確さ」がどの程度改善されたかを評価する一般的な方法は、正確さに問題がないかチェックしたデータ資産(テーブル、データベース、ETLパイプラインなど)の数を測定することである。 また、データ品質報告のためにログシステムを設定することを忘れないでください。
  3. データのプロファイルと問題点のリストを作成する。 データのプロファイリングとは、データの分布、頻度、中心傾向、偏差などのレポートを作成するデータ分析のことをいいます。 これは、データの構造的なレベルを理解するために使用することができる。 1372>
  4. 問題を解決する。 それはとても簡単なことで、問題を解決することです。 これは通常、データプラクティショナー(ハンズオンデータマネージャー、データエンジニア、データサイエンティスト)がデータをクリーニングすることによって行います(データクリーニングのベストプラクティスについては、長いガイドを書きましたので、こちらをご覧ください)。 すべての修正内容をログに記録し、すべての発見事項のレポートを作成できるようにしてください。
  5. 問題が繰り返されるのを防ぐ。 データ品質の問題の解決は周期的に行われます。 修正が終わったら、データプラットフォームを再確認し、すべてが標準に従っているか、データガバナンスフレームワークで設定されているかを確認する必要があります。 そうでない場合は、データを再クリーン化する必要があります。 高度なアプローチによってデータ品質の問題の再発を防ぐことができますが、これについては次のセクションで詳しく説明します。

長期的にデータ品質を確保する方法

以前にデータ品質を主張するプロセスを経てデータをクリーニングしたかどうかにかかわらず、常に注意を必要とする問題がいくつかあります:

  1. Entropy(エントロピー)です。
    1. エントロピー。以前どれだけリソースをクリーニングしたとしても、データは生きており、常に更新されているので、新しいエラーが出現する可能性が高い。 ビッグデータは、量、速度、多様性という3つのVで最もよく特徴付けられます。 ボリュームとは、データの量が日々増えていく様子を指す。 ベロシティは、データの生産がいかに加速されているかに関係する。 また、「多様性」とは、データの形態が多様であることを意味します。過去のほとんどのデータはリレーショナルデータ(データベースのテーブル、Excelのレコードなど)でしたが、現在の多くのデータは非構造化データ(テキストファイル、ウェブサイトのリンクストリーム、ビデオの録画など)です。 意思決定や製品にデータを利用する企業は、ビッグデータに向かって揺れ動き、その様々な利点と課題を抱えている。 ビッグデータの可能性を活用するということは、問題(データの破損や欠落など)を起こさずにデータ収集のためのインフラを拡張することや、品質保証プロセスを非構造化データの需要に合わせるという課題にも直面することを意味します
    2. 規制。 GDPRやCCPAなどの規制は、私たちが遵守しなければならない法的順守事項の一部に過ぎません。 新しい規制が導入されたり、既存の規制が更新されたりするため、私たちが行うデータ品質保証業務には常に監督と変更が求められます。

    では、データ品質に影響を与えるこれらの要因すべてにおいて、企業はどのようにしてデータを管理しているのでしょうか。 優れたソフトウェアは、いくつかの方法でデータを管理し、その品質を保証するのに役立ちます:

    1. 違反を防止する。 優れたソフトウェアは、データ品質の問題が発生するのを防ぎます。 たとえば、リレーショナル テーブルに (主キー) 制約を設定して、重複するレコードが挿入されないようにすることができます。 優れたソフトウェアは、データプラットフォームを監視し、破損したデータの疑いがあるときはいつでも通知し、実際に起きたときはアラームを鳴らす(例えば、データ収集パイプラインが失敗した場合)。
    2. 重要な ETL プロセスを自動化する。 データのクリーニングは、お気に入りの言語 (SQL、Python など) で実行される一連の反復コマンドに帰結します。

    データ品質を管理するプラットフォーム

    優れたソフトウェアは、データ資産の全体的なデータ品質を管理するのに役立つことがあります。 統一された DataOps プラットフォームとして、Keboola を使用すると、次のことが可能になります:

    1. プラットフォーム自体でデータ パイプラインをセットアップすることができます。
    2. 変換内でデータクリーニングプロセスを設定し、データガバナンスフレームワークのデータ品質標準を保証します。
    3. 変換をオーケストレーションして自動的に実行し、常に信頼できるデータを提供しますのでご安心ください。
    4. エンドツーエンドのデータパイプラインの信頼性を監視します。

    しかし、Keboola はさらに一歩先を行きます。

    1. 世界の規制要求 (GDPR, CCPA, その他多数) に完全準拠。 Keboolaのきめ細かく直感的な権限制御により、アクセスの問題は過去のものになります。
    2. シームレスにスケールアップ。 ビッグデータが欲しいですか? Keboolaなら問題ありません。 インフラストラクチャーは自分自身で管理するので、より多くのソースや異なるデータ資産を含めることを選択しても、成長の苦しみに悩まされることはないでしょう。 この (永久) 無料プランで、Keboola が提供するすべてをチェックしてください。 そうです、永久にです。

コメントを残す

メールアドレスが公開されることはありません。