【用語集】データクレンジング

Reckoner編集部

2021.6.2

データクレンジングとは、データベースやデータウェアハウス内のデータの品質を高めるために行うデータ処理を指します。以下で詳しく解説します。

データクレンジングを行う目的

データクレンジングを行い、データの品質を高める目的は、大きく分けて5つあります。

売上/利益の向上

仮に100件の見込み客データがあるとして、そのうち30件は重複や不正確なデータだった場合を考えてみましょう。

営業マンが不正確なデータをもとに営業活動を行うと、多くの無駄が生じます。具体的には、本来存在しない会社や人に対して営業活動を行ったり、見当違いな提案をしたりします。

データクレンジングを行うことで、データの重複がなくなり、また正確なデータに統一されることで、無駄がなくなり、本当に必要な行動のみを行えるようになります。結果、売上や利益が改善します。

コスト削減

10万件の顧客リストに対して、毎年4回DMを送る通信販売の会社があったとします。

10万件の顧客リストの中に、1万件の重複や古いデータが有った場合、DM配送先に対して「1万件の無駄な発送を依頼」してしまうことになります。

データクレンジングを行うことで、重複や古いデータを統合・削除でき、結果、データ未整備から発生する無駄なコストが削減できます。

データ処理スピードの向上

1000万件の顧客データを管理するネット企業を想定してください。

「10年以上前から、全くメールが読まれた痕跡がない顧客」が300万件いたとします。しかし、この対象がそのままマーケティングデータベースに存在し続けた場合、「ほぼ利用が見込めない顧客」に対して、無駄な処理を行い続けることになります。結果、データ処理スピードに時間がかかってしまいます。

データクレンジングにより、不要なデータをアーカイブする、または削除することで、必要なデータだけをマーケティングデータベースに残し、処理速度を改善できるようになります。

クレーム防止

5万件の取引先がいる工具メーカーを思い浮かべてください。

仮に、5万件のうち、3000件のデータ重複があったとします。この場合、定期的なDMが同じ顧客担当者に複数届く可能性があります。顧客担当者からすると「あの会社は同じDMを何通も送ってきて、鬱陶しい」と判断され、クレームにつながります(顧客満足度も低下します)。

データクレンジングを行い重複を排除することで、クレームならび顧客満足度の低下を未然に防ぐことができます。

データベース統合時の最適化処理

一般的に「名寄せ」と呼ばれる処理です。

例えば、企業買収などで「A銀行(買収した銀行)」と「B銀行(買収された銀行)」が統合され、A銀行のシステムのみが残ることになるとします。この場合、B銀行のシステムはすべて破棄されますが、データのみA銀行のシステムに移されます。

しかし、「顧客C」がA銀行にもB銀行にも取引がある場合、顧客データをそのまま移してしまうと重複が発生します。これを防ぐために、「このような条件が発生した場合は、このようなデータ統合処理を行う」というロジックをあらかじめ定めて、顧客データを一本化します。

データクレンジングで行う3つのデータ処理

「データクレンジング」という言葉は、1つのデータ処理を指しているわけではありません。データ品質を高めるための複数のデータ処理をまとめて「データクレンジング」と呼んでいます。

以下では、一般的に「データクレンジング」に含められる3つのデータ処理について、分かりやすくお伝えします。

(1)データ重複の削除

例えば、以下のような個人情報があるとします。

No.氏名電話郵便番号都道府県住所以下最終更新日
1田中太郎03123456781000001東京都千代田区千代田1-1-12019/03/23
2田中太郎03123456781000001東京都千代田区千代田1-1-12020/10/30

氏名、電話番号、郵便番号、都道府県、以下の住所がすべて一致する個人情報で、これは明らかな重複と判断できます。この場合、重複するデータのうちの1つを残し、残りを削除する作業が「データ重複の削除」です。

これに似た作業として、冒頭で簡単に解説した「名寄せ」があります。

No.氏名電話勤務先役職最終更新日データ元
1田中太郎09012345678ABC商事課長2012/10/15Aデータベース
2田中太郎09012345678ABC商事部長2020/08/13Bデータベース

名寄せは、複数のデータベースを統合する際によく発生します。No.1と2の田中太郎さんのデータは完全に一致していません。しかし「氏名」「携帯電話」「勤務先」が一致していることから、「おそらく、作成日の違いにより役職が変わったのだろう」と判断して、新しいデータを残し、古いデータを削除します。
または、新しいデータを基本としつつ、古いデータにしかない情報を、新しいデータに追加します。

名寄せは、言ってみれば「詳細な条件分岐を含む、重複処理の高度版」です。「データクレンジングという語に名寄せが含まれる」という意見もあれば、「含まれない」という意見もあります。

(2)データ表記の統一

以下のサンプルデータをご覧ください。

No.氏名電話郵便番号都道府県市区町村住所以下
1長田一郎03-1234-56781000006東京都千代田区有楽町4丁目3-1
2橋本花子0323456789100-0004東京都なし千代田区大手町3-1-1

ここでは、「電話番号のハイフンありなし」「郵便番号のハイフンありなし」「登録住所の区切り方」「丁目の表記」「全角半角」の違いがあります。こうした表記の違いを、1つのルールに統一するのが「データ表記の統一」です。

上記のサンプルデータをデータクレンジング処理して表記を統一すると、以下のようになります。

No.氏名電話郵便番号都道府県市区町村住所以下
1長田一郎03-1234-5678100-0006東京都千代田区有楽町4-3-1
2橋本花子03-2345-6789100-0004東京都千代田区大手町3-1-1

(3)可読できないデータの処理

以下のサンプルデータをご覧ください。

No.氏名電話郵便番号都道府県市区町村住所以下
1長田一郎03-1234-5678100-0006東京都千代田区有楽町4-3-1
2���������� 鐚�鐚�
鐔縁
鐚�鐚�
鐔�鐔�鐔� 鐚醐執鐚�
��鐚�鐚�鐃�鐃<�奄������純�紫��腥�
鐔�
��������帥�若��
讐鐔鰹輯鐔� 鐔э秀鐔�終��
��絖

No.2はおそらく文字のエンコードが不正確に行われたために、文字化けしています。こうしたデータに対してデータクレンジングを行い、「再びエンコードし登録し直す」、または「一律削除する」処理が行われます。

データクレンジング処理を細分化していくと、上記3つの処理以外の処理も登場する場合がありますが、基本はこの3つの処理だと理解しておくとよいでしょう。


最後に:データクレンジングのお悩みはお問い合わせを

当社は、データ整備を行うためのETLツール「Reckoner」を提供し、お客様のデータ基盤の最適化を支援しております。

  • データクレンジングを行いたいが、どこから手を付けてよいか分からない
  • データクレンジングをどのように継続的に行えばよいか意見が欲しい
  • コストを抑えてデータクレンジングを行う方法を知りたい
  • 高度な知識がなくても定型的なデータクレンジングを行う方法を知りたい

このような課題がある場合はお気軽にお問い合わせください。最適なアプローチをご提案させていただきます。

今なら14日間無料!

資料請求、トライアルの申し込み、御社へ伺っての製品デモンストレーションまで、
お気軽にご相談ください。

資料請求・お問い合わせ