2022.6.27

データガバナンスをどう守る?Snowflake編

はじめに

データガバナンスはもはや実施が必要な項目となっています。この記事を読んでいるみなさまは何らかの形でデータガバナンスという言葉を聞いたことがあり、考慮が必要なことだと感じているかと思います。本記事では

  • データガバナンスの必要性
  • データガバナンスを実現するためにsnowflakeが貢献できること

をお伝えしていきたいと思います。

データガバナンスの重要性

近年データの流動性が高まることでデータガバナンスの重要性は増しています。それは例えば以下のようなことが挙げられます。

  • 重要なデータが社外に流出するリスクを事前に考慮しているか?
  • データの整形と利用を繰り返す中でマスターとなるデータの所在は明らかになっているか?
  • データの取り扱いが適法もしくは規約通りとなっているか?
  • データの取り扱いの責任はだれにあるのか?
  • 法務と事業部やIT部門が有機的に連携できているのか?

できてないことで法務が勝手にプライバシーポリシーを変更し事業部やIT部門が後追いで対応したり、場合によってはプロジェクトが止まるリスクがあります

このようにデータのガバナンスをしないことによるリスクは年々増えていますので、この機会に一度考えてみてはいかがでしょうか?

snowflakeとは?

snowflakeとはデータウェアハウスのひとつで、さらにデータウェアハウスとは多くのデータの保管庫となります。snoflakeの利点はデータシェアリング機能に優れており、snowflake間でのデータの受け渡しは個別のETLの開発がいらず、snowflakeの純正のシェア機能によりETLを設定できることが挙げられます。またデータウェアハウスとしてのスケーラビリティに優れており、有名データウェアハウスの性能限界をさらにこえるデータ量を扱うことができることにあります。またパートナー企業から保有データに対して価値のあるデータを追加して返してくれる仕組みがあり、多くの企業が参加しているのも特徴になります。

図1: snowflakeを使ってる企業(パートナー)からデータを共有を多く行われている

snowflakeでできるデータガバナンス

データガバナンスでは

  1. データの流動性の高い基盤構築
  2. データの機密性の保持
  3. データの高い可用性
  4. データ利用の役割

といった観点での構築が必要となります。

snowflakeでは上記に有用な仕組みを備えています。

1に対してはデータシェアリング機能を有しており、snowflake基盤上で公開されているデータを確認できます。
(シェアリング元に申請することでさまざまなデータを利用可能)

図2: 管理画面の共有ボタンによるデータシャリング活用の様子

2については※1のように列レベルでのデータアクセスの定義ができるので、秘匿性の高いデータへのアクセスの制限が可能になります。例えば雇用者データの中で年収データには特定の人にしか見せたくないといったシチュエーションを考えます。

一般的にはこのようなケースでは該当データを抜いたデータテーブル(ビュー)を作成して、必要なユーザーに参照権限をつけるといったことをします。この場合データが重複管理したりテーブルを余分に管理したりといったタスクが増えるので保守性が下がりますが、snowflakeではこの心配がなくなります。

図3: テーブル(例ではTEST_TBL)に対して任意の権限を付与できる

3についてはデータベースの拡張性が高く、基盤となるメモリや容量等の設定が柔軟にできるのでスケーラビリティの高い利用が設計されています。

4については2とかぶる点がありますが、データの利用者を細かく設定できるので、誰がどのデータを閲覧可能なのか?といった管理をしやすく設定されています。

まとめ

データの利用価値を高めてくれる仕組みを多くもつデータクラウドになります。単にDWHとしての機能も可用性について優れていますが、パートナー企業のデータを利用したり、データシェアリング機能を使ってデータの参照を簡単にできたり、逆にデータ提供も簡単にできるようになります。またデータへの参照権限を列レベルで管理できるといった機密性にも優れています。

単純に大きな単位でのビッグデータを扱っている企業ももちろんですがデータに付加価値をつけてビジネスをより進めたい企業にも合っているデータクラウドということができます。

参考

※1: https://docs.snowflake.com/ja/user-guide/security-column-intro.html

Reckonerではソース(シンク)選択にプリセットされているのでSnowflakeとのパイプラインの構築が簡単にできます。前章に合致している企業様はReckonerによる構築を一度ご検討をしてみてはいかがでしょうか?

Reckonerでは現在、14日間無料トライアルをご提供しておりますので、ぜひご活用ください。

ブログ一覧へ戻る

データの集約・連携にかかる
エンジニアの開発工数を
Reckonerで大幅削減!

具体的な活用イメージや貴社のデータ活用課題などお気軽にお問い合わせください。現在、無料キャンペーン中!実際にデータ連携を構築してお試しいただけます!

Reckoner