この投稿を読み終える頃には、Web上とデバイス上で人により2,730万テラバイトのデータが生成されます。企業が高度の統合テクノロジーを採用しない場合、これだけでも制御不可能な量のデータや課題が企業にもたらされているのが明確です。データのサイロ化(たこつぼ化)がもたらす脅威については、別の議論が必要になります。本投稿は、現行の統合的ソリューションに伴う様々な課題を厳選しています。
データ量の増大は懸念すべきことです。IDGのアンケートに回答した企業の20%は1000以上の情報源からデータを引き出し、自社の分析システムにフィードしています。第一歩を踏み出すことを躊躇している組織は、以下のような課題に直面することになる可能性が高いのです。データ統合は見直しが必要です。それは以下のギャップを考慮することによってのみ達成できます。では簡単に見てみましょう。
異種のデータソース
異なる複数のソースからのデータは、Excel、JSON、CSVなどの複数のフォーマットや、Oracle、MongoDB、MySQLなどのデータベースから提供されます。例えば、2つのデータソースは同じフィールドの異なるデータタイプや、同じパートナーデータの異なる定義を持っていることがあります。
異種ソースは異なるフォーマットやストラクチャのデータを生成します。多様なスキーマはデータ統合のスコープを複雑化し、データセットの統合にかなりのマッピングを必要とします。
データ専門家は、1つのソースからのデータを他のソースに手動マッピングしたり、すべてのデータセットを1つのフォーマットに変換したり、データを抽出・変換して他のフォーマットと互換性を持たせることができます。これらはすべて、有意義でシームレスな統合の実現を困難にします。
データストリーミングの扱い
データのストリーミングは継続的で終わりがありません。記録されたイベントの途切れることないシーケンスから構成されています。従来のバッチ処理技術は、始まりと終わりが明確に定義された静的データベース用に設計されており、途切れなく流れるデータストリーミングには適していません。これによって同期化とスケーラビリティ、異常検知、貴重なインサイトの取得、意思決定の強化が複雑になります。
これに取り組むためには、企業はリアルタイムの解析、集約、受信データのストリーム変換を可能にするシステムを必要とします。従来のアーキテクチャとダイナミックデータストリーム間のギャップを減らすことで、企業は、連続的情報の流れが持つパワーを利用することができます。
非構造化データフォーマットの問題
増大するデータには大量の非構造化データを含まれているため、さらに問題となります。Web 2.0では、ソーシャルプラットフォーム上のユーザー生成データが、音声や映像、画像などで飛び交っていました。
非構造化データには定義済みのフォーマットがなく、一貫性のあるスキーマや検索可能な属性を持っていないため、扱いが困難です。データベースに保管されている構造化データセットのような検索可能な属性を持っていません。そのため、分類や索引付け、関連情報の抽出が複雑となります。
予測不可能な様々なデータタイプにはよく、無関係なコンテンツやノイズが含まれています。これらには、有意義な分析のために合成データの生成、自然言語処理、画像認識、およびMLテクニックが必要になります。複雑なのはこれだけではありません。データ量の大幅な増加を管理するためのストレージのスケーリングやインフラの処理が困難なのです。
しかしながら、この混乱から価値あるインサイトを引き出すための様々な優れたツールが存在します。例えばMonkeyLearnは、パターンを見つけるためにMLを導入しています。K2viewは、特許取得済みのエンティティベースの合成データ生成のアプローチを取っています。Cogitoもまた、自然言語処理を使って価値あるインサイトを提供しています。
データ統合の未来
データ統合は、従来のETL(Extract(抽出)-Transform(変換)-Load(格納)から、自動ELT、クラウドベースのインテグレーション、またMLを採用するその他のインテグレーションに迅速に移行します。
ELTは変換フェーズをパイプラインの最後に移し、生データセットをウェアハウスやレイク、レイクハウスに直接格納します。これによってデータを変換・変更する前に、システムがデータをチェックすることができます。このアプローチは、分析やBIで大量のデータを処理する際に効率的です。
Skyviaと呼ばれるクラウドベースのデータ統合ソリューションが人気を集めています。複数のソースからデータを統合し、クラウドベースのデータウェアハウスに送り込むことができます。リアルタイムでデータ処理をサポートするだけでなく、業務の効率性を大幅に向上することができるのです。
バッチインテグレーションソリューションは、レガシーシステムと新規システムの両方に採用でき、大量のデータ用に容易にスケーリングできます。ウェアハウスやCSVエキスポート/インポート、クラウド・ツー・クラウドのマイグレーションなどのデータ統合に完全にフィットします。
データ手動業務の90%がクラウドベースのインテグレーションを採用する傾向があり、人気のある多くのデータ製品はすでに有利な立場にあります。
さらにまた、企業は今後、自社のデータ統合のソリューションが、業務効率を損なうことなしにあらゆる種類のデータを処理することを期待することができます。これは近い将来データソリューションが、多数のテラバイト単位のデータを同時に処理する高度な弾性処理をサポートすることを意味しています。
データサイエンティストは、クラウドインスタンスを維持するために必要な労力を軽減することを期待しているため、サーバーレスのデータ統合もまた今後人気が高まることでしょう。
データ駆動の未来への足がかり
本投稿では、異種のデータソースや分割駆動型のストリーミングデータ、非構造化フォーマットに伴う課題について検討してきました。企業はいま行動を起こし、シームレスな統合を実現するための慎重なプラニング、高度なツール、ベストプラクティスを採用するべきです。
また、企業が期限内に取り組めば、このような課題も今後の成長や革新を生み出すチャンスになるということも加えておきたいと思います。これらの課題に正面から挑戦することにより、企業はデータフィードを最適に活用できるだけでなく、その意思決定にも役立てることができます。
Data Integration, IT Strategy
Read More from This Article: データ統合に伴う現代の5つの課題とCIOの対応策
Source: News