【用語集】データレイク

Reckoner編集部

2021.5.11

データレイクは、あらゆる形式(構造化データ、非構造化)のデータを格納できるストレージリポジトリです。ビッグデータを活用する時代の到来とともにデータレイクは注目視され、多様化するデータを一括管理するために活用されるようになりました。

本記事では、DB(データベース)やDWH(データウェアハウス)との違いについて触れながら、データレイクとは何か解説していきます。

データレイクが必要な理由

Aberdeen社の調査によると、データレイクを実装している企業は、未実装の他企業に対して収益成長率が 9% 上回っているというデータがあります。*

データレイクに保存されたデータをもとに、データ分析や機械学習を行うことで、生産性の向上や顧客満足度の向上、合理的な意思決定ができるようになり、結果として事業の成長に繋がっていると考えられます。

データレイクの導入には手間や運用コストはかかりますが、今後のビジネス成長ににつながるデータ基盤整備と考えると、「正しく活用される」のであれば「割に合う投資」となると考えられます。

*参考記事
https://s3-ap-southeast-1.amazonaws.com/mktg-apac/Big+Data+Refresh+Q4+Campaign/Aberdeen+Research+-+Angling+for+Insights+in+Today’s+Data+Lake.pdf

【データレイクの特徴】DBやDWHとの違いについて

データレイクの大きな特徴は、データをそのままの形で保存できることです。構造化(エクセル・CSVなど)、非構造化(画像・動画・音声など)問わずデータを管理しておきたいときに役立ちます。

データを生の状態で保存して活用できるため、柔軟性が高く、帰納的アプローチを行う機械学習などに向いており、今ではビッグデータの管理になくてはならない存在です。

以下、混合しやすいDBやDWHとの違いについて解説していきます。

DBとの違い

DB:構造化データを管理する
データレイク:構造化・非構造化データを管理する

一般的なDBは、行と列で定義(構造化)されたリレーショナルデータを管理します。これに対し、データレイクはあらゆるデータを生データの状態で管理するのを得意とするため、この点が両者の違いです。

また、DBは構造化データを扱っているため、データ管理がしやすく、必要に応じてすぐに集計・解析することが可能です。しかし近年、ビッグデータのような非構造化データの活用が重要視されるにつれ、従来のリレーショナルDBではなく、データレイクが用いられる機会が増えてきました。

DWHとの違い

DWH:データ分析しやすい形に整理してから格納する
データレイク:生データを大量に管理しておく

DWHはデータを格納する前段階で、データを成形しなおします。DWHはデータ活用することを前提として用いられるため、目的に合った設計を行ったうえでデータを成形し、格納しておきます。データレイクは「生データを大量に保管すること」を目的としているため、データの保管方法や目的という点で両者は異なります。

また、データレイクは構造化するコストがかからないため、DWHよりも安価に大量のデータを保管できるという特徴があります。

DBとDWHの違いについては以下の記事で詳しく説明しております。

参考記事: 用語集DWH(データウェアハウス)
https://reckoner.io/glossary/dwh/

最後に:データ分析でお悩みなら弊社までお問い合わせを

ビッグデータの活用や社内でサイロ化しているデータを活用して、今後のビジネスに活かしていきたいと考えている企業様は、ぜひ弊社にお任せください。

「データ活用したいが何から始めればよいか分からない」といった質問でも構いませんので、お気軽に問い合わせいただければ幸いです。

貴社の状況に合わせた提案をさせていただきます。

今なら14日間無料!

資料請求、トライアルの申し込み、御社へ伺っての製品デモンストレーションまで、
お気軽にご相談ください。

資料請求・お問い合わせ