【用語集】データクレンジング
データクレンジングとは、データベースやデータウェアハウス内のデータの品質を高めるために行うデータ処理を指します。以下で詳しく解説します。
データクレンジングを行う目的
データクレンジングを行い、データの品質を高める目的は、大きく分けて5つあります。
売上/利益の向上
仮に100件の見込み客データがあるとして、そのうち30件は重複や不正確なデータだった場合を考えてみましょう。
営業マンが不正確なデータをもとに営業活動を行うと、多くの無駄が生じます。具体的には、本来存在しない会社や人に対して営業活動を行ったり、見当違いな提案をしたりします。
データクレンジングを行うことで、データの重複がなくなり、また正確なデータに統一されることで、無駄がなくなり、本当に必要な行動のみを行えるようになります。結果、売上や利益が改善します。
コスト削減
10万件の顧客リストに対して、毎年4回DMを送る通信販売の会社があったとします。
10万件の顧客リストの中に、1万件の重複や古いデータが有った場合、DM配送先に対して「1万件の無駄な発送を依頼」してしまうことになります。
データクレンジングを行うことで、重複や古いデータを統合・削除でき、結果、データ未整備から発生する無駄なコストが削減できます。
データ処理スピードの向上
1000万件の顧客データを管理するネット企業を想定してください。
「10年以上前から、全くメールが読まれた痕跡がない顧客」が300万件いたとします。しかし、この対象がそのままマーケティングデータベースに存在し続けた場合、「ほぼ利用が見込めない顧客」に対して、無駄な処理を行い続けることになります。結果、データ処理スピードに時間がかかってしまいます。
データクレンジングにより、不要なデータをアーカイブする、または削除することで、必要なデータだけをマーケティングデータベースに残し、処理速度を改善できるようになります。
クレーム防止
5万件の取引先がいる工具メーカーを思い浮かべてください。
仮に、5万件のうち、3000件のデータ重複があったとします。この場合、定期的なDMが同じ顧客担当者に複数届く可能性があります。顧客担当者からすると「あの会社は同じDMを何通も送ってきて、鬱陶しい」と判断され、クレームにつながります(顧客満足度も低下します)。
データクレンジングを行い重複を排除することで、クレームならび顧客満足度の低下を未然に防ぐことができます。
データベース統合時の最適化処理
一般的に「名寄せ」と呼ばれる処理です。
例えば、企業買収などで「A銀行(買収した銀行)」と「B銀行(買収された銀行)」が統合され、A銀行のシステムのみが残ることになるとします。この場合、B銀行のシステムはすべて破棄されますが、データのみA銀行のシステムに移されます。
しかし、「顧客C」がA銀行にもB銀行にも取引がある場合、顧客データをそのまま移してしまうと重複が発生します。これを防ぐために、「このような条件が発生した場合は、このようなデータ統合処理を行う」というロジックをあらかじめ定めて、顧客データを一本化します。
データクレンジングで行う3つのデータ処理
「データクレンジング」という言葉は、1つのデータ処理を指しているわけではありません。データ品質を高めるための複数のデータ処理をまとめて「データクレンジング」と呼んでいます。
以下では、一般的に「データクレンジング」に含められる3つのデータ処理について、分かりやすくお伝えします。
(1)データ重複の削除
例えば、以下のような個人情報があるとします。
氏名、電話番号、郵便番号、都道府県、以下の住所がすべて一致する個人情報で、これは明らかな重複と判断できます。この場合、重複するデータのうちの1つを残し、残りを削除する作業が「データ重複の削除」です。
これに似た作業として、冒頭で簡単に解説した「名寄せ」があります。
(2)データ表記の統一
以下のサンプルデータをご覧ください。
ここでは、「電話番号のハイフンありなし」「郵便番号のハイフンありなし」「登録住所の区切り方」「丁目の表記」「全角半角」の違いがあります。こうした表記の違いを、1つのルールに統一するのが「データ表記の統一」です。
上記のサンプルデータをデータクレンジング処理して表記を統一すると、以下のようになります。
(3)可読できないデータの処理
以下のサンプルデータをご覧ください。
No.2はおそらく文字のエンコードが不正確に行われたために、文字化けしています。こうしたデータに対してデータクレンジングを行い、「再びエンコードし登録し直す」、または「一律削除する」処理が行われます。
データクレンジング処理を細分化していくと、上記3つの処理以外の処理も登場する場合がありますが、基本はこの3つの処理だと理解しておくとよいでしょう。
最後に:データクレンジングのお悩みはお問い合わせを
当社は、データ整備を行うためのETLツール「Reckoner」を提供し、お客様のデータ基盤の最適化を支援しております。
- データクレンジングを行いたいが、どこから手を付けてよいか分からない
- データクレンジングをどのように継続的に行えばよいか意見が欲しい
- コストを抑えてデータクレンジングを行う方法を知りたい
- 高度な知識がなくても定型的なデータクレンジングを行う方法を知りたい
このような課題がある場合はお気軽にお問い合わせください。最適なアプローチをご提案させていただきます。
ETLツールについて詳しく知りたい、ETLツールの選び方を知りたいという方はこちらの「ETLツールとは?選び方やメリットを解説」をぜひご覧ください。