NASAがAI活用検索で科学を加速

米国航空宇宙局(NASA)のように多くのデータを生成・収集する場合、研究プロジェクトに適したデータセットを見つけることは問題になり得る。

7つのオペレーションセンター、9つの研究施設、18,000人以上のスタッフを擁するNASAは、常に圧倒的な量のデータを生成し、天体物理学、太陽物理学、生物科学、物理科学、地球科学、惑星科学という5つの専門分野にまたがる30以上の科学データリポジトリに保存している。全体では、128のデータソースにわたって、88,000以上のデータセットと715,000以上のドキュメントが保管されている。地球科学データだけでも、2025年までに250ペタバイトに達すると予想されている。このような複雑さを考慮すると、科学者はそのすべてをナビゲートするために、単なる専門知識以上のものを必要とする。

「研究者は、どのリポジトリに行けばいいのか、そのリポジトリには何があるのかを知る必要があります」と、アラバマ州ハンツビルにあるマーシャル宇宙飛行センターのNASAデータサイエンティスト、ケイリン・バグビーは言う。「科学リテラシーとデータリテラシーの両方が必要だ」。

2019年、NASAの科学ミッション本部(SMD)は、科学者との一連のインタビューに基づいた報告書を発表し、科学者たちが必要なデータを見つけるための一元的な検索機能を必要としていることを明らかにした。SMDの使命は、米国の科学コミュニティと協力し、科学研究を支援し、地球周回軌道、太陽系、そしてそれ以遠の調査のために航空機、気球、宇宙飛行プログラムを利用することである。SMDは、科学者や研究者がSMDのデータにアクセスできるようにすることがSMDの目的の基本であることを認識し、公的資金による科学研究の透明性、包括性、アクセス性、再現性を高めるため、報告書の結果としてオープンソース・サイエンス・イニシアティブ(OSSI)を開発した。OSSIの使命は、ソフトウェア、データ、知識(アルゴリズム、論文、文書、付随情報を含む)を科学的プロセスのできるだけ早い段階でオープンに共有することである。

「これは本当に科学者や科学コミュニティから生まれたもので、学際的な科学を可能にするというSMDの広範な優先事項とも一致しています」とバグビーは言う。「そこで新しい発見がなされるのです」とも言う。

その使命を促進するために、現在、科学者の手元に膨大な量のデータを置くために、ニューラルネットと生成AIの組み合わせに目を向けている。

秩序を取り戻す

OSSIの重要な要素は、サイエンス・ディスカバリー・エンジン(SDE)である。これは、NASAのすべてのオープン・サイエンス・データと情報を一元的に検索・発見する機能で、Sinequaのエンタープライズ検索プラットフォームによって提供される。

「SDEが作成されるまで、NASAのオープンデータやドキュメントを検索するために単一の場所に行くことはできなかった。今では、我々のオープン・サイエンス・データの単一の検索機能として機能している」とバグビーは言う。

ニューヨークを拠点とするSinequaは、20年以上前にセマンティック検索エンジンでスタートし、AIと大規模言語モデル(LLM)を活用して文脈に沿った検索情報を提供することに注力している。その後、マイクロソフトのAzure OpenAI Serviceと独自のニューラル検索機能を統合し、プラットフォームを強化している。

具体的には、Sinequaのニューラル検索機能は、キーワード検索とベクトル検索を組み合わせて情報を発見し、GPTは収集した情報を迅速に消化可能で再利用可能な形式に要約する。また、科学者が自然言語を使用して、より深い質問をしたり、検索や回答を洗練させたりすることもできる。SDEは約9,000種類の科学用語を理解し、その数はAIが学習するにつれて増えていくと予想される。

バグビーと彼女の学際的なチームは、データ・スチュワードシップと情報学の専門知識を持つ科学者、開発者、AIとMLの専門家を含み、利害関係者と緊密に協力して彼らのニーズを理解し、またNASAのCIO室とSinequaと協力して概念実証を構築した。

「彼らは私たちが必要とする環境を整える手助けをしてくれた」と彼女は説明する。「私たちはオープンな機能を持たなければならなかったので、いくつかの特別なアーキテクチャが必要だった。」

バグビーによると、すべてを立ち上げ、稼働させるにあたって彼女のチームが直面した最大の課題のひとつは、NASAのエコシステム全体でコンテンツがいかに分散しているかということだった。彼女のチームは、情報ランドスケープ、データ、メタデータスキーマを理解するのに約1年を費やした。

「コードやGitHubのようなもの、データがどのように開発されたかを説明するアルゴリズム文書など、データに豊かさをもたらす文脈的な情報はすべて、多くのウェブページに分散している。」

立ち上げに向けた準備

バグビーは、データ管理やデータ・スチュワードシップに精通している。彼女は、Data.govやオバマ大統領の気候データイニシアチブのメタデータの質を向上させるために、この分野で歯を食いしばってきた。しかし、SDEに携わることで、優れたキュレーションのワークフロー、つまり原則に基づいて管理されたデータの作成、維持、管理のプロセスの重要性が身にしみた。

「もし過去に戻れるなら、最初からもっと強固なキュレーションワークフローを構築していたでしょう」と彼女は言う。「しかし、本当に望む結果を得るためには、キュレーションのワークフローが必要だった。」

SDEはまだベータ版であるが、バグビーによれば、彼女のチームは今日までに科学者から多くの好意的なフィードバックを得ており、今年後半にはより完全に運用可能なシステムを提供する予定である。すでにチームは、ユーザーが検索を開始する前にトピックでフィルタリングできる新しいユーザーインターフェイスを実装している。

Artificial Intelligence
Read More from This Article: NASAがAI活用検索で科学を加速
Source: News

What executives should know about SOAR

Coined in 2015 and later updated in 2017 by Gartner, SOAR (security orchestration, automation, and response) describes a platform that is designed to orchestrate the response to incidents, leveraging automated processes designed in decision tree mapping, typically called playbooks. The value of a SOAR platform is focused on improving the accuracy, speed, and depth of…

The AI continuum

ChatGPT has turned everything we know about AI on its head. Or has it? AI encompasses many things. Generative AI and large language models (LLMs) like ChatGPT are only one aspect of AI. But it’s the well-known part of AI. In many ways, ChatGPT put AI in the spotlight, creating a widespread awareness of AI…

8 data strategy mistakes to avoid

Organizations can’t afford to mess up their data strategies, because too much is at stake in the digital economy. How enterprises gather, store, cleanse, access, and secure their data can be a major factor in their ability to meet corporate goals. Unfortunately, the road to data strategy success is fraught with challenges, so CIOs and…

データ統合に伴う現代の5つの課題とCIOの対応策

この投稿を読み終える頃には、Web上とデバイス上で人により2,730万テラバイトのデータが生成されます。企業が高度の統合テクノロジーを採用しない場合、これだけでも制御不可能な量のデータや課題が企業にもたらされているのが明確です。データのサイロ化(たこつぼ化)がもたらす脅威については、別の議論が必要になります。本投稿は、現行の統合的ソリューションに伴う様々な課題を厳選しています。

データ量の増大は懸念すべきことです。IDGのアンケートに回答した企業の20%は1000以上の情報源からデータを引き出し、自社の分析システムにフィードしています。第一歩を踏み出すことを躊躇している組織は、以下のような課題に直面することになる可能性が高いのです。データ統合は見直しが必要です。それは以下のギャップを考慮することによってのみ達成できます。では簡単に見てみましょう。

異種のデータソース

異なる複数のソースからのデータは、Excel、JSON、CSVなどの複数のフォーマットや、Oracle、MongoDB、MySQLなどのデータベースから提供されます。例えば、2つのデータソースは同じフィールドの異なるデータタイプや、同じパートナーデータの異なる定義を持っていることがあります。

異種ソースは異なるフォーマットやストラクチャのデータを生成します。多様なスキーマはデータ統合のスコープを複雑化し、データセットの統合にかなりのマッピングを必要とします。 

データ専門家は、1つのソースからのデータを他のソースに手動マッピングしたり、すべてのデータセットを1つのフォーマットに変換したり、データを抽出・変換して他のフォーマットと互換性を持たせることができます。これらはすべて、有意義でシームレスな統合の実現を困難にします。

データストリーミングの扱い 

データのストリーミングは継続的で終わりがありません。記録されたイベントの途切れることないシーケンスから構成されています。従来のバッチ処理技術は、始まりと終わりが明確に定義された静的データベース用に設計されており、途切れなく流れるデータストリーミングには適していません。これによって同期化とスケーラビリティ、異常検知、貴重なインサイトの取得、意思決定の強化が複雑になります。

これに取り組むためには、企業はリアルタイムの解析、集約、受信データのストリーム変換を可能にするシステムを必要とします。従来のアーキテクチャとダイナミックデータストリーム間のギャップを減らすことで、企業は、連続的情報の流れが持つパワーを利用することができます。 

非構造化データフォーマットの問題

増大するデータには大量の非構造化データを含まれているため、さらに問題となります。Web 2.0では、ソーシャルプラットフォーム上のユーザー生成データが、音声や映像、画像などで飛び交っていました。 

非構造化データには定義済みのフォーマットがなく、一貫性のあるスキーマや検索可能な属性を持っていないため、扱いが困難です。データベースに保管されている構造化データセットのような検索可能な属性を持っていません。そのため、分類や索引付け、関連情報の抽出が複雑となります。 

予測不可能な様々なデータタイプにはよく、無関係なコンテンツやノイズが含まれています。これらには、有意義な分析のために合成データの生成、自然言語処理、画像認識、およびMLテクニックが必要になります。複雑なのはこれだけではありません。データ量の大幅な増加を管理するためのストレージのスケーリングやインフラの処理が困難なのです。

しかしながら、この混乱から価値あるインサイトを引き出すための様々な優れたツールが存在します。例えばMonkeyLearnは、パターンを見つけるためにMLを導入しています。K2viewは、特許取得済みのエンティティベースの合成データ生成のアプローチを取っています。Cogitoもまた、自然言語処理を使って価値あるインサイトを提供しています。

データ統合の未来

データ統合は、従来のETL(Extract(抽出)-Transform(変換)-Load(格納)から、自動ELT、クラウドベースのインテグレーション、またMLを採用するその他のインテグレーションに迅速に移行します。 

ELTは変換フェーズをパイプラインの最後に移し、生データセットをウェアハウスやレイク、レイクハウスに直接格納します。これによってデータを変換・変更する前に、システムがデータをチェックすることができます。このアプローチは、分析やBIで大量のデータを処理する際に効率的です。 

Skyviaと呼ばれるクラウドベースのデータ統合ソリューションが人気を集めています。複数のソースからデータを統合し、クラウドベースのデータウェアハウスに送り込むことができます。リアルタイムでデータ処理をサポートするだけでなく、業務の効率性を大幅に向上することができるのです。

バッチインテグレーションソリューションは、レガシーシステムと新規システムの両方に採用でき、大量のデータ用に容易にスケーリングできます。ウェアハウスやCSVエキスポート/インポート、クラウド・ツー・クラウドのマイグレーションなどのデータ統合に完全にフィットします。 

データ手動業務の90%がクラウドベースのインテグレーションを採用する傾向があり、人気のある多くのデータ製品はすでに有利な立場にあります。 

さらにまた、企業は今後、自社のデータ統合のソリューションが、業務効率を損なうことなしにあらゆる種類のデータを処理することを期待することができます。これは近い将来データソリューションが、多数のテラバイト単位のデータを同時に処理する高度な弾性処理をサポートすることを意味しています。 

データサイエンティストは、クラウドインスタンスを維持するために必要な労力を軽減することを期待しているため、サーバーレスのデータ統合もまた今後人気が高まることでしょう。 

データ駆動の未来への足がかり 

本投稿では、異種のデータソースや分割駆動型のストリーミングデータ、非構造化フォーマットに伴う課題について検討してきました。企業はいま行動を起こし、シームレスな統合を実現するための慎重なプラニング、高度なツール、ベストプラクティスを採用するべきです。 

また、企業が期限内に取り組めば、このような課題も今後の成長や革新を生み出すチャンスになるということも加えておきたいと思います。これらの課題に正面から挑戦することにより、企業はデータフィードを最適に活用できるだけでなく、その意思決定にも役立てることができます。

Data Integration, IT Strategy
Read More from This Article: データ統合に伴う現代の5つの課題とCIOの対応策
Source: News