DataOpsの未来とトレンド

DataOpsが実現されると将来どうなるでしょうか。ビッグデータに関連する課題が増え続け、簡単にアクセスできる統一されたデータに対する企業の要求が高まる中、DataOpsの未来はどのようなものになるのでしょうか。以下の記事では、期待される4つの重要なトレンドについて解説します。

なお、下記記事については以下の書籍を参考元とし執筆を行っております。
(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc.”7. Embracing DataOps: How to Build a Team and Prepare for Future Trends, Future of Data Ops”)

目次

IoTによるデータ爆発と分析の自動化

農作物がいつ水を必要とするか、重機がいつサービスを必要とするかなどの情報を得たい場合において、IoT(Internet of Things)デバイスは、分析が必要とされる莫大なデータを生成します。

シスコの前CEOであるジョン・チェンバース氏は、2025年までに接続されるデバイスの数が5,000億個になると宣言しています。これは地球上の人口数の約100倍に相当します。

一般的な携帯電話には、加速度計、GPS、放射線検出器など14個近いセンサーが搭載されています。風力発電機や遺伝子シークエンサー(遺伝子の塩基配列決定プロセスを自動化するための装置)などの産業用機械には100個ものセンサーが搭載されており、電力網の電力センサーは1秒間に60回、建設用フォークリフトは1分間に1回データを送信することができます。

IoTデバイスは、企業が利用できるデータ量を大幅に増加させる要素のひとつに過ぎません。このような新しいデータの利用の結果として、その管理や分析がより困難になり、従来のデータ管理プロセスやツールに負担がかかり続けることになります。人工知能(AI)や機械学習による自動化を進めてこそ、この多様でダイナミックなデータを経済的に管理することができます。

(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc.”7. Embracing DataOps: How to Build a Team and Prepare for Future Trends, Future of Data Ops. The Need for Smart, Automated Data Analysis”)

オープンソースと商用ツールの相互運用性

新しいタイプのデータが大量に出現したことは、単一のプラットフォームでビッグデータを使いこなすことができるという(誤った)前提を崩しました。低品質のデータを価値ある情報に変える、統合された単一ベンダーによるプラットフォームの魅力は、統合のコストとリスクの回避にあります。

しかし、企業データ管理のパイプライン(様々なデータソースから生データを取り込み、データストアに移行して分析する手法)を構築するためのツールの進化に対応し、最適なものを統合ソリューションとしてパッケージ化できるベンダーは非常に少ないのが実情です。

多くの企業は、自社独自のデータの取得、整理、準備、分析、可視化に特化して設計されたアプリケーションを購入しています。今後、ビッグデータの活用を成功させるためには、目的に応じた相互運用性の高いテクノロジーを組み合わせることがますます重要になります。

参照アーキテクチャは、共通のボキャブラリー、再利用可能な設計、および業界のベストプラクティスを提供し、より具体的なアーキテクチャの制約条件として使用されます。

歴史的に、Linuxでホストされるウェブサイトの基礎となる、Linux、Apache、MySQL、PHPで構成されるLAMPスタックや、Elastic社が提供するオープンソース製品群で、あらゆる種類のソースからあらゆる形式のデータを取得し、そのデータをリアルタイムに検索、分析、可視化することを支援するために設計されたELKスタックなどがあります。これらのスタックと同様に、参照アーキテクチャが統合されることになるでしょう。

現代のデータサプライチェーンの複雑性に対応できるオープンソースおよびベンダーによる商用のコンポーネントの両方を、組織は利用する必要があります。

これらのコンポーネントは、エンドツーエンドのソリューションに統合する必要があります。エンドツーエンドソリューションとは、アプリケーションプログラム、ソフトウェア、システムのプロバイダーが、顧客のニーズを満たすために他のベンダーが関与することなしに、すべてのソフトウェアとハードウェアの要件を提供することを指します。

しかし、幸いなことに、これらのコンポーネントは必要な相互運用性をサポートするように構築されています。

(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc.”7. Embracing DataOps: How to Build a Team and Prepare for Future Trends, Future of Data Ops. Custom Solution from Purpose-Built Components”)

ツールの高度化と使いやすさの向上

今後数年間のデータ分析には、人間の知識とテクノロジーとの共生が必要です。さまざまな形式のデータを扱う必要があるため、組織は自動化(AIと機械学習)の進歩を利用して、人間の才能を補強する必要があります。

同時に、知的労働者は、テクノロジーで完全に埋めることができない溝を埋めるために、技術的なスキルを向上させる必要があります。自動化と人間の知識の組み合わせにより、組織は、有益な意思決定を促進する適切なデータを、適切なユーザーに届けることができます。

このためには、3つのアプローチがあります。

1つめは、データサイエンスやデータエンジニアリングを学んだ多くの大卒者が就労することで、多くの組織におけるデータスキルが向上することです。

2つめは、すでに組織内で働いている従業員がデータに関するスキルを向上させ、組織のデータスキルを向上させることです。

3つめは、AIや機械学習をパッケージ化したデータ管理ツールがより利用しやすくなることで、AIや機械学習の参入障壁が低くすることです。

これらの要因が組み合わさって、データ領域における実践的な進歩が可能となります。

(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc.”7. Embracing DataOps: How to Build a Team and Prepare for Future Trends, Future of Data Ops.Increased Approachability of Advanced Toos”)

分野の専門家がデータキュレーターやデータスチュワードになる

データ統合を真に効果的に行うために必要なのは、データエンジニアではなく、高度に文脈的なレコメンダー(問題発見の専門家)です。彼らが統合プロセスに関与すれば、データのデリバリーにおける生産性向上を実現できます。

データ利用者(ビジネスユーザー)は、顧客、販売、人事などの業務的なデータを熟知しています。彼らは、データの品質を評価し、データの完全性を向上させるプロジェクトに専門知識を提供することができます。

しかし、データ利用者は通常業務が忙しすぎて、データキュレーション(大量の情報を収集・整理し他のユーザーに共有すること)と、スチュワードシップ(データ資産の管理) に時間を割くことができません。よって、データ統合におけるデータ利用者の役割について認識してもらい、フィードバックを得るよう働きかけることは極めて重要です。また、データ利用者からフィードバックを得るためのハードルを下げることも大切です。

体系的にフィードバックを得て、それを取り入れることで、データ品質に関する問題解決において、より重要な問題への取り組みを優先できます。そして、データソースの問題修正、低品質のデータ問題の解決を通じて、大きなな効果が得られます。

(参考元: Getting DataOps Right Andy Palmer, Michael Stonebraker, Nik Bates-Haus, Liam Cleary, Mark Marinelli Published by O’Reilly Media, Inc.”7. Embracing DataOps: How to Build a Team and Prepare for Future Trends, Future of Data Ops. Subject Matter Expert Will Become Data Curators and Stewards”)

まとめ

DataOpsのゴールは、単に「組織が持つデータ基盤の自動化、可用性向上、管理性の工場」とすべきではありません。データは最終的にはユーザーが短時間で、より質の高い判断を下すために必要な情報です。各組織でDataOpsに取り掛かろうとする際は、ユーザーのデータ利用と判断に貢献しているかを考慮する必要があります。

従来のデータ管理技術は、データセットが静的で比較的少数の場合は適切ですが、大量かつ複雑な環境では破綻します。その主な原因は、トップダウン式のルールベースのアプローチであり、構築と維持に多大な手作業を要することが多いためです。このようなアプローチは、急速に支持を失いつつあります。

より多くのデータ、テクノロジーの進化、そして専門家によるキュレーションの必要性が高まっているのです。データ統合テクノロジーは、人間の手による機械学習によってデータセットを接続し、使いこなすことに貢献します。この新しいアプローチを採用する組織の未来は明るいといえます。

Reckonerは、新しいアプローチを取り入れ、DataOpsを実現する企業をサポートしていきます。

ブログ一覧へ戻る