【用語集】DWH(Data Warehouse)

DWH(データウェアハウス)は「データの倉庫」を意味し、膨大なデータを時系列で保存するデータベースの一種です。蓄積されたデータを分析・活用し、適切な経営判断をするうえでDWHは必要不可欠な存在です。

混同しやすい、データベースやデータマート、データレイクとの違いについて触れながら、DWHの特徴を解説していきます。

DWHとは

DWHは、データ活用を行うためにデータを保管しておくデータベースを指します。

詳しいDWHの特徴は以下の通りです。

統合されたデータが保存されている

DWHは複数のシステムやアプリケーションからデータを統合し、分析しやすい形でデータを保持しています。顧客管理システム、販売管理システム、勤怠管理システム……といった、異なるシステム間のデータを連携し、表記の揺れやフォーマット変換・採番などをした状態の「最適化されたデータ」を保持します。

ただし、DWHにはデータ項目を適切に変換・最適化する機能はありません。データ変換が必要な場合は、ETLを利用するのが一般的です。

なお、大手クラウドサービスベンダーからもDWHは提供されています。具体的には、AWSからは「Redshift」、Googleからは「BigQuery」、そしてマイクロソフトからは「Synapse Analytics」が提供されています。上記以外のクラウドDWHでとくに有名なのは「Snowflake」ですが、他にも多数のクラウドDWHがあります。

データが時系列で保存されている

DWHの特徴のひとつとして「時系列でのデータ管理」が挙げられます。DWHは過去データに基づいた分析に使用されるため、過去~現在までのデータを正確に保持しており、常に合理的かつ有用性が高い分析結果が導き出せる状態になっています。

データの更新・削除を行わない

DWHは基本的にデータの更新・削除を行いません。過去データをもとに分析を行うため、データを更新・削除してしまえば分析結果に影響が出てしまい、データに基づいた判断ができなくなってしまうからです。

サブジェクトごとにデータが保存されている

DWHはアプリケーションごとではなく、サブジェクトごとにデータが保存されていることも大きな特徴です。サブジェクトごととは、「顧客」「売上」「工数」「製造」…といった「カテゴリ単位」という意味です。DWHは一般的なデータベースとは異なり、分析に使用することを第一に考えて設計されているため、このような管理構成になっています。

【DWHの特徴】データベースやデータマート、データレイクとの違い

DWHと混同しやすい言葉として「データべース」「データマート」「データレイク」などが挙げられます。

これらの違いについて説明していきます。

DWHとデータベースの違い

DWHとデータベースの違いは大きくふたつ、「データ分析のしやすさ」「データ容量の違い」が挙げられます。

DWHは複数のシステム間データを統合したデータを保持するのに対し、データベースは各システムごとにデータを持ち、独立した形でデータベースが成り立っています。データベースはDWHと比べてデータが集約されておらず、データ分析を行うのには適していません。

また、過去のデータをすべて管理することを目的としているDWHは当然、一般的なデータベースに比べ蓄積できるデータ容量は大きいです。DWHはデータを永続的に保持して分析に役立てる、という点でもデータベースとは異なります。

分かりやすく言えば、「DWHは分析用のデータの集合体」「データベースはトランザクションを目的としたデータの集合体」ということになります。

DWHとデータマートの違い

データマートは、DWHから必要なデータをサブジェクトごとに抜き取ったデータの集合体を指します。

例:
データマート①→「管理部用の顧客データ」
データマート②→「販売部用の売上データ」
データマート③→「営業部用の受発注データ」
DWH→「①②③すべてのデータを管理」

つまりDWHはデータマートを内包する、親の立ち位置であると言えます。

DWHとデータレイクの違いについて

もっともDWHと混同して考えてしまいがちなのが、データレイクです。データレイクは主に「規則性を持たないデータの管理」を行うための膨大なデータベースです。雑な言い方をすれば「とりあえず大量にデータを集めてそこから何かを導き出す」ために使用されます。音声、画像、動画、SNSログデータ、GPSなど、データの種類や形式も様々です。

それに対し、DWHで管理するデータは利用目的に合わせて綺麗に形成しなおされた、いわば「すぐに利用できるデータ」です。DWHは分析の目的が確立された「演繹的」手法なのに対し、データレイクの活用は大量のサンプルから何かを導き出す「帰納的」手法だと言えるでしょう。

最後に:DWHの活用で企業を活性化

DWHとは
「データ分析するためにデータを整理して格納しておくもの」

データ分析において重要なDWHについて、より深く理解できたのではないでしょうか。

DWHを構築するためには、サイロ化しているデータを整理し、目的に応じて統合する必要があります。もしDWH構築のコストや工数を最小限に抑えたいという場合は、ぜひ弊社のETLツールReckonerの利用をご検討ください。

当社のETLツールである「Reckoner(レコナー)」は、GUIからの直観的な操作を実現し、プログラミング知識なくETLを利用できます。なお、Reckonerでは以下のどちらのシナリオも対応しています。

DWHのデータを抽出し、Reckonerで変換後に、別システムにロード
別システムのデータを抽出し、Reckonerで変換後に、DWHにロード

Reckonerでは現在、14日間無料トライアルをご提供しておりますので、ぜひご活用ください。

ETLツールについて詳しく知りたい、ETLツールの選び方を知りたいという方はこちらの「ETLツールとは?選び方やメリットを解説」をぜひご覧ください。

ブログ一覧へ戻る