データ負債とは何か
組織において溜め込まれている膨大なデータは、実は「データ負債」となっており、その活用が妨げられているケースが多くあります。
以下ではデータ負債の定義について説明をしたうえで、DataOpsにも関連して、なぜデータ負債が企業のデータ活用もしくは意思決定の上で脅威になるのか解説します。また、データ負債に対して、DataOpsフレームワークを適用することが解決に繋がることについても解説していきます。
目次
データ負債とは
そもそもデータ負債とはどういった意味でしょうか。実は、データ負債はDataOpsの文脈で登場する用語で、「分断されたデータ環境による、データの異質性から生じるコスト」の事を指します。
「データ負債」の提唱者の一人である、データ情報管理のアドバイザーのJohn Ladley氏は、自身のサイトのブログ(英語)にて、「データ負債」は、元々はアジャイル・ソフトウェア開発における「技術負債」という概念に基づいた用語であるとしています。
技術的負債とは、ソフトウェアの機能を先延ばしにしたり、実現に時間がかかる(あるいは難しい)考え込まれた解決策ではなく、簡単かつ迅速な解決策を選択したりすることで生じるコストを指します。
さらに、John Ladley氏はデータの作成、管理、使用に関する意思決定にも、同様のコンセプトが適用されるべきである、と指摘しています。データに関わる意思決定は、機能や納期といった従来のプロセス指向のルールに基づいて行うのではなく、現在の決定がデータの使用や管理にかかるコストやリスクに対して将来的にどのような影響を与えるかを検討する必要があります。
組織内にデータサイロが多数存在して、全組織的なデータ管理アプローチが機能していない状態を「データ債務がある」状態といえます。
まずは、この状態を組織の戦略的な競争上の必須事項として認識することが必要です。
そして、優れた意思決定や分析を行うためのデータ統合が必要となります。具体的には、様々なエンタープライズデータから高品質に統合されたデータを大規模に迅速かつ継続的に提供することが必要です。
これまで、私たちはクライアント/サーバ、Web 1.0、Web 2.0、クラウド、ビッグデータなど、一連の大規模な情報技術の変革を目の当たりにしてきました。これらの変革の中で最も重要でありながら過小評価されているのが、DevOpsの驚異的な出現です。
DevOpsは、アジャイル手法の究極の実用的な進化といえます。先進的なIT企業が、迅速な機能速度と変化の速さによって、急成長を可能にするための開発手法です。
デジタルネイティブなインターネット企業との競争に熱心な伝統的な企業は、すでにDevOpsを大規模に導入し始めています。
DevOpsの採用のような根本的な変化は、新しいテクノロジーが成熟し、そのメリットが広く理解され、レガシー/既存の企業ベンダーのIT費用やロックイン(ベンダーによる他社に変えられないサービスの縛り)が耐えられなくなり、決定的な大多数のユーザーによる導入を通じたコアとなる標準が出現した後に、大企業に受け入れられる傾向があります。
そして、DevOpsのデータ分野での適用とも言える、「DataOps」において、もう一つの根本的な変化が始まっています。
データ負債を「返済」するためのDataOps
データ負債は、企業がゆるやかにつながったポートフォリオとして事業を運営し、各事業部門がデータ管理について「フリーライダー(コストを負担せずただで利用すること)」的な判断をしている場合に、しばしば発生するものです。
企業は、事業間でレバレッジとシナジーを生み出そうとするとき、データ負債の問題を認識し、その解決に取り掛かります。しかし、増大し複雑になりすぎたデータに対して、抜本的な対策を講じるのは難しくなっているのが実情です。
そこで、データ負債ににわかに注目が集まりました。優れた意思決定と分析には、優れた統合データが必要です。これは、古典的なガベージ・イン/ガベージ・アウト(欠陥のある、または無意味な入力データは無意味な出力を生み出すという概念) 問題を解決するための最有力ともいえる解決策です。
データ負債の問題の深刻さを認識し、戦略的な必須事項として取り組むことを決定した組織では、DataOpsによって、さまざまな企業のデータソースから、高品質な統一されたデータを迅速かつ継続的に大規模に提供することで、データ負債を返済できるのです。
データ債務からデータ資産へ
先進的なIT活用企業の多くは、収集データを分析し、その結果に基づいて意思決定を行うデータドリブンなアプローチを用いています。具体的には、優秀なエンジニアを多数抱えてデータインフラをスクラッチ開発から構築し、初日からデータを資産として管理することで、データ負債を回避してきました。
そして、先進的なIT活用企業のリーダーは、データを資産として自発的に管理することが、デジタル変革の最初の基本ステップだと理解しています。
データ活用が遅れている企業は、従来の競合他社がより効果的にデータを活用するという脅威、そしてスタートアップ企業による破壊的なアプローチの脅威に直面します。このため、データ活用に消極的な企業であっても、最終的にはデータを真剣に管理することになります。
DataOpsフレームワークを適用する
DataOpsは、これらの企業がデータを資産として扱い、データの負債を返済するためのフレームワークです。
プロジェクトの成功のためには、まずはビジネスの実体に沿ってデータを整理する必要があります。
- 顧客データ
- サプライヤーデータ
- 製品データ
- 研究データ
- 設備データ
- 従業員データ
- 部品データ
もちろん、企業や業界にはそれぞれ主要なデータ・エンティティ(管理目的を明記したデータの実体)があります。銀行は不正行為の検出を可能にするエンティティに関心を持つかもしれませんし、農業関連企業は気候や作物のデータに関心を持つかもしれません。
しかし、どの企業にとっても、多くのデータソースにまたがる論理エンティティ(データの構造と他のデータとの関係性を明記したデータの実体)を理解することは、信頼性の高い分析を実現するための鍵となります。
多くのDataOpsプロジェクトは、単一の利用事例のための単一のエンティティから始まり、その後拡張していきます。
このアプローチは、データエンジニアリング活動を、製品の販売拡大や、分析および意思決定のための特定のエンティティに関する統一されたクリーンなデータの使用によるコスト削減などのROI(投資利益率)に結びつけます。
これらの主要な事業体のそれぞれについて、最高データ責任者(CDO: Chief Data Officer)は以下の基本的な質問に答えられるようになっている必要があります。
- どのようなデータがあるのか?
- データはどこから来るのか?
- データはどこで消費されるのか?
これらの主要なエンティティに対して、重複や誤記、表記の揺れなどを探し出し、削除や修正、正規化などを行ってデータの品質を高めた状態な「クリーン」でかつ統一されたデータを確保するために、DataOpsインフラの主要な要素は、コアとなる論理エンティティに企業のデータをマッピングする参照システムを作成することです。
この統一された参照システムは、ソースシステム全体の生の物理属性から構築された統一された属性で構成される必要があります。生データにおける物理的属性間のパス経路の管理、基礎となるデータの変更、およびそのデータに対する共通操作により、中心的な参照システムのための本番環境の準備としてデータを形成することが、DataOpsテクノロジーとプロセスの中核となる特性です。
DataOpsを推進するReckoner
Reckonerは、組織のデータ統合を協力に推進するために欠かせない、いわばDataOpsのパートナーといえる存在です。
DataOpsでプロジェクトを進めようとなるとなると、仕様、テスト、インフラ構築などが難しそうだと感じる企業様は多いのではないでしょうか。
Reckonerは、直感的なインターフェースのクラウド型ETLにより、データの集約・連携を実現できます。
具体的な活用イメージや貴社のデータ活用課題などお気軽にお問い合わせください。