【用語集】データクレンジング

データクレンジングとは、データベースやデータウェアハウス内のデータの品質を高めるために行うデータ処理を指します。以下で詳しく解説します。

データクレンジングを行う目的

データクレンジングを行い、データの品質を高める目的は、大きく分けて5つあります。

売上/利益の向上

仮に100件の見込み客データがあるとして、そのうち30件は重複や不正確なデータだった場合を考えてみましょう。

営業マンが不正確なデータをもとに営業活動を行うと、多くの無駄が生じます。具体的には、本来存在しない会社や人に対して営業活動を行ったり、見当違いな提案をしたりします。

データクレンジングを行うことで、データの重複がなくなり、また正確なデータに統一されることで、無駄がなくなり、本当に必要な行動のみを行えるようになります。結果、売上や利益が改善します。

コスト削減

10万件の顧客リストに対して、毎年4回DMを送る通信販売の会社があったとします。

10万件の顧客リストの中に、1万件の重複や古いデータが有った場合、DM配送先に対して「1万件の無駄な発送を依頼」してしまうことになります。

データクレンジングを行うことで、重複や古いデータを統合・削除でき、結果、データ未整備から発生する無駄なコストが削減できます。

データ処理スピードの向上

1000万件の顧客データを管理するネット企業を想定してください。

「10年以上前から、全くメールが読まれた痕跡がない顧客」が300万件いたとします。しかし、この対象がそのままマーケティングデータベースに存在し続けた場合、「ほぼ利用が見込めない顧客」に対して、無駄な処理を行い続けることになります。結果、データ処理スピードに時間がかかってしまいます。

データクレンジングにより、不要なデータをアーカイブする、または削除することで、必要なデータだけをマーケティングデータベースに残し、処理速度を改善できるようになります。

クレーム防止

5万件の取引先がいる工具メーカーを思い浮かべてください。

仮に、5万件のうち、3000件のデータ重複があったとします。この場合、定期的なDMが同じ顧客担当者に複数届く可能性があります。顧客担当者からすると「あの会社は同じDMを何通も送ってきて、鬱陶しい」と判断され、クレームにつながります(顧客満足度も低下します)。

データクレンジングを行い重複を排除することで、クレームならび顧客満足度の低下を未然に防ぐことができます。

データベース統合時の最適化処理

一般的に「名寄せ」と呼ばれる処理です。

例えば、企業買収などで「A銀行(買収した銀行)」と「B銀行(買収された銀行)」が統合され、A銀行のシステムのみが残ることになるとします。この場合、B銀行のシステムはすべて破棄されますが、データのみA銀行のシステムに移されます。

しかし、「顧客C」がA銀行にもB銀行にも取引がある場合、顧客データをそのまま移してしまうと重複が発生します。これを防ぐために、「このような条件が発生した場合は、このようなデータ統合処理を行う」というロジックをあらかじめ定めて、顧客データを一本化します。

データクレンジングで行う3つのデータ処理

「データクレンジング」という言葉は、1つのデータ処理を指しているわけではありません。データ品質を高めるための複数のデータ処理をまとめて「データクレンジング」と呼んでいます。

以下では、一般的に「データクレンジング」に含められる3つのデータ処理について、分かりやすくお伝えします。

(1)データ重複の削除

例えば、以下のような個人情報があるとします。

氏名、電話番号、郵便番号、都道府県、以下の住所がすべて一致する個人情報で、これは明らかな重複と判断できます。この場合、重複するデータのうちの1つを残し、残りを削除する作業が「データ重複の削除」です。

これに似た作業として、冒頭で簡単に解説した「名寄せ」があります。

(2)データ表記の統一

以下のサンプルデータをご覧ください。

ここでは、「電話番号のハイフンありなし」「郵便番号のハイフンありなし」「登録住所の区切り方」「丁目の表記」「全角半角」の違いがあります。こうした表記の違いを、1つのルールに統一するのが「データ表記の統一」です。

上記のサンプルデータをデータクレンジング処理して表記を統一すると、以下のようになります。

(3)可読できないデータの処理

以下のサンプルデータをご覧ください。

No.2はおそらく文字のエンコードが不正確に行われたために、文字化けしています。こうしたデータに対してデータクレンジングを行い、「再びエンコードし登録し直す」、または「一律削除する」処理が行われます。

データクレンジング処理を細分化していくと、上記3つの処理以外の処理も登場する場合がありますが、基本はこの3つの処理だと理解しておくとよいでしょう。

最後に:データクレンジングのお悩みはお問い合わせを

当社は、データ整備を行うためのETLツール「Reckoner」を提供し、お客様のデータ基盤の最適化を支援しております。

  • データクレンジングを行いたいが、どこから手を付けてよいか分からない
  • データクレンジングをどのように継続的に行えばよいか意見が欲しい
  • コストを抑えてデータクレンジングを行う方法を知りたい
  • 高度な知識がなくても定型的なデータクレンジングを行う方法を知りたい

このような課題がある場合はお気軽にお問い合わせください。最適なアプローチをご提案させていただきます。

ETLツールについて詳しく知りたい、ETLツールの選び方を知りたいという方はこちらの「ETLツールとは?選び方やメリットを解説」をぜひご覧ください。

ブログ一覧へ戻る