
膨大なデータを企業の武器に変える「データファブリック」とは

現在のビジネスシーンではデータがとても大きな価値を持っています。しかしデータの量が指数関数的に増加し管理方法が課題になってきました。そこで注目されているのが「データファブリック」です。
データファブリックはいわば情報(データ)を一元管理できるアーキテクチャ・技術です。
インテリジェントなデータインフラを利用することで、いつでも必要なデータにアクセスできるようにするアプローチと言えます。今回は、そんなデータファブリックについて、現在の課題から技術、活用までを解説します。
データの保存場所も問題のひとつです。オンプレやクラウドに分散していると、必要な時にすぐデータにアクセスすることが難しくなるため、特定のデータが複数個所に複製されていた場合、ひとつだけ更新されたりするとデータ間の整合性に問題を引き起こします。
また、部門ごとに独自のシステムでデータを収集、管理するデータのサイロ化も問題になっています。データを異なる構造で保存してしまうと、データの一貫性を保てなくなります。せっかくのデータも統合できなければ比較もできず、活用しきれません。
さらにデータの種類もテキストだけでなく画像や音声、動画など多岐にわたります。SNSの投稿やIoTが生成する情報なども、非構造化データと呼ばれます。普通に使う分には便利なのですが、一般的なデータベースシステムだと効率的に処理することができず、分析してビジネスに活用することが難しいのがネックです。
データファブリックは、このような課題を解決し、ビッグデータを高速処理するための分散処理システムの一つなのです。
その後、2000年代に登場したのがデータレイクです。異なるソースから大量のデータを集めるストレージ技術の一つで、非構造化データをそのまま保存するのが特徴です。柔軟なデータ処理と分析が可能になりますが、データの品質管理が課題になっています。どこにどのデータがあるのかを示すデータカタログが必要になりますが、品質維持に失敗すると、どこに何があるのかわからないデータスワンプ(沼地)になってしまうのです。
データファブリックはデータの統合・管理を一貫して行う統合的な仕組みです。ファブリックは織物という意味で、データファブリックでの糸はデータソースです。営業データや顧客データ、IoTのセンサーデータなどを組み合わせて、布にします。柄やデザインは品質管理やデータガバナンスと考えるとよいでしょう。そして、布地から製品を作り出す工程が、データ分析から洞察を得る工程と言えます。
データウェアハウスとデータレイク、データファブリックは異なる技術ではありますが、代替する考え方でもありません。包括したり共存する技術と言えるのです。
単一のプラットフォームに統合すれば、データガバナンスとセキュリティも簡素化できます。単一のツールで運用できるので複雑さも軽減されます。
クラウドで分散管理する際のメリットは何と言ってもスケーラビリティです。データ量や処理需要が増加しても、簡単にシステムを追加できます。データ処理と分析のタスクを複数のシステムに分散するため、パフォーマンスが向上できるのもポイントです。
集中型と分散型を組み合わせた、ハイブリッドタイプのデータファブリックもあります。両者のメリットを活用し、デメリットを軽減するのです。企業は、既存のインフラとデータのニーズに応じて、分散させる機能を選択できます。スケーラビリティも確保できますし、一貫したポリシーでデータをコントロールできるようになります。
ハイブリットデータファブリックの課題としては、データの統合が難しくなるので、高度なデータ統合・取り込み機能が必要になります。また、集中タイプと分散タイプの技術とシステムを組み合わせるため、管理の複雑さは増してしまいます。
それぞれの状況に応じて適切な方法を選択するのがよいでしょう。
ダッシュボードや分析ツールでデータを可視化することで、データ分析の専門スキルがなくても簡単に分析できます。
また、AIと連携しやすい点もメリットのひとつです。データファブリックでは、データが統合され、整理されているので機械学習するのに手間がかかりません。データの一貫性が保たれているので、学習モデルの正確性が高まります。非構造化データも扱えるので、多様な形式で機械学習できるのも大きな利点です。
データが自由に行き交うようになるので、複数拠点にバックアップもしやすくなり、セキュリティインシデント対策のための効率的な冗長化が可能です。そのため、BCP(Business Continuity Plan、事業継続計画)対策にもなります。
データファブリックを実現し、データドリブンな経営にフォーカスできる企業が、これからの新しい時代を勝ち残る企業になることでしょう。
データファブリックはいわば情報(データ)を一元管理できるアーキテクチャ・技術です。
インテリジェントなデータインフラを利用することで、いつでも必要なデータにアクセスできるようにするアプローチと言えます。今回は、そんなデータファブリックについて、現在の課題から技術、活用までを解説します。
爆発的に増えたデータ量の分析・活用が企業の課題に
企業が扱うデータ量は年を追うごとに増えています。爆発的に広まっているIoTが吐き出す情報や個人にアプローチできるSNSから生まれる情報、ウェブサイトから収集した情報など、従来のPCやサーバーで扱えるデータ量ではありません。このようなビッグデータの処理には時間がかかってしまい、ビジネスアクションの遅れにつながってしまいます。データの保存場所も問題のひとつです。オンプレやクラウドに分散していると、必要な時にすぐデータにアクセスすることが難しくなるため、特定のデータが複数個所に複製されていた場合、ひとつだけ更新されたりするとデータ間の整合性に問題を引き起こします。
また、部門ごとに独自のシステムでデータを収集、管理するデータのサイロ化も問題になっています。データを異なる構造で保存してしまうと、データの一貫性を保てなくなります。せっかくのデータも統合できなければ比較もできず、活用しきれません。
さらにデータの種類もテキストだけでなく画像や音声、動画など多岐にわたります。SNSの投稿やIoTが生成する情報なども、非構造化データと呼ばれます。普通に使う分には便利なのですが、一般的なデータベースシステムだと効率的に処理することができず、分析してビジネスに活用することが難しいのがネックです。
データファブリックは、このような課題を解決し、ビッグデータを高速処理するための分散処理システムの一つなのです。
データファブリックに必要な要素
データファブリックの実現には複数の要素が必要になります。「データの統合」「ストレージインフラ」「セキュリティとガバナンス」「データの分析」ですデータの統合
最も重要なのが、データの統合です。データファブリックは異なるフォーマットのソースからデータを収集し統合することが可能になります。例えば、販売データの場合、販売管理のExcelファイルやウェブサイトのログファイル、顧客データベースから必要なデータを抽出し、統一的なフォーマットに変換します。そして、変換したデータを一つの場所に保存するのです。ストレージインフラ
様々な構造データを扱う統一されたストレージインフラも必要になります。様々なデータストレージテクノロジーをサポートし、冗長性と高可用性を確保することでデータの損失を防ぎ、ダウンタイムを最小限に抑える必要があります。セキュリティとガバナンス
データセキュリティとガバナンスも重要です。統合されたデータに誰でもアクセスできるようにするわけにはいきません。権限のないユーザーにデータを見せるときは個人情報をマスクするなど、プライバシー保護の仕組みも必要です。データの改変に関する監査証跡も残します。さらには、適切なセキュリティを組み込むことで、企業はコンプライアンスを確保しながら、安心してデータを管理・運用できるようになるのです。データの分析
そして、データファブリックの目的でもあるデータの高度な分析です。リアルタイムに分析することで、変化する市場や顧客ニーズに対し、迅速に対応できるようになります。さらに、AIを活用し、データのパターンや関係性を見つけ出すことができます。データウェアハウスやデータレイクとの違い
データの統合活用というと、データウェアハウスやデータレイクとの違いが気になるかもしれません。データウェアハウスは1990年代から利用されており、データを統合したデータベースで、高速な分析が可能になります。しかしオンプレミスで中央集権的に管理することが多く、高コストで運用が複雑なのがネックでした。その後、2000年代に登場したのがデータレイクです。異なるソースから大量のデータを集めるストレージ技術の一つで、非構造化データをそのまま保存するのが特徴です。柔軟なデータ処理と分析が可能になりますが、データの品質管理が課題になっています。どこにどのデータがあるのかを示すデータカタログが必要になりますが、品質維持に失敗すると、どこに何があるのかわからないデータスワンプ(沼地)になってしまうのです。
データファブリックはデータの統合・管理を一貫して行う統合的な仕組みです。ファブリックは織物という意味で、データファブリックでの糸はデータソースです。営業データや顧客データ、IoTのセンサーデータなどを組み合わせて、布にします。柄やデザインは品質管理やデータガバナンスと考えるとよいでしょう。そして、布地から製品を作り出す工程が、データ分析から洞察を得る工程と言えます。
データウェアハウスとデータレイク、データファブリックは異なる技術ではありますが、代替する考え方でもありません。包括したり共存する技術と言えるのです。
データファブリックの構築方法
データファブリックはオンプレミス、クラウドのどちらでも構築できます。単一のプラットフォームに統合すれば、データガバナンスとセキュリティも簡素化できます。単一のツールで運用できるので複雑さも軽減されます。
クラウドで分散管理する際のメリットは何と言ってもスケーラビリティです。データ量や処理需要が増加しても、簡単にシステムを追加できます。データ処理と分析のタスクを複数のシステムに分散するため、パフォーマンスが向上できるのもポイントです。
集中型と分散型を組み合わせた、ハイブリッドタイプのデータファブリックもあります。両者のメリットを活用し、デメリットを軽減するのです。企業は、既存のインフラとデータのニーズに応じて、分散させる機能を選択できます。スケーラビリティも確保できますし、一貫したポリシーでデータをコントロールできるようになります。
ハイブリットデータファブリックの課題としては、データの統合が難しくなるので、高度なデータ統合・取り込み機能が必要になります。また、集中タイプと分散タイプの技術とシステムを組み合わせるため、管理の複雑さは増してしまいます。
それぞれの状況に応じて適切な方法を選択するのがよいでしょう。
データファブリックのメリット
いずれの構築方法でもデータファブリックにデータをまとめることで、テクニカル人材でなくても必要なデータを必要なタイミングで、セルフサービスで活用できるようになります。このセルフサービスという点がポイントで、データの民主化を実現すると言ってもよいでしょう。ダッシュボードや分析ツールでデータを可視化することで、データ分析の専門スキルがなくても簡単に分析できます。
また、AIと連携しやすい点もメリットのひとつです。データファブリックでは、データが統合され、整理されているので機械学習するのに手間がかかりません。データの一貫性が保たれているので、学習モデルの正確性が高まります。非構造化データも扱えるので、多様な形式で機械学習できるのも大きな利点です。
データが自由に行き交うようになるので、複数拠点にバックアップもしやすくなり、セキュリティインシデント対策のための効率的な冗長化が可能です。そのため、BCP(Business Continuity Plan、事業継続計画)対策にもなります。
データファブリックでビジネスの指針を明確に
データファブリックを構築することで、企業ごとに独自のインサイトが得られます。消費者自身さえ意識していない行動を把握できれば、マーケティングで大きなアドバンテージが得られ、イノベーションの機会が増えるかもしれません。事実に基づいた分析による意思決定はビジネスの方向性を明確にしてくれます。データファブリックを実現し、データドリブンな経営にフォーカスできる企業が、これからの新しい時代を勝ち残る企業になることでしょう。
著者:ITライター柳谷智宣