01/04/2025

【テクノロジー:Part 3】スノーフレーク(SNOW)では何ができるのか?ELTからETLへの流れと高度なRAG(検索拡張生成)との関係性に迫る!

a snowflake hanging from the side of a buildingコンヴェクィティ  コンヴェクィティ
  • 本編は、注目の米国テクノロジー企業であるスノーフレーク(SNOW)のテクノロジー上の競争優位性を分析した長編レポートとなり、4つの章で構成されています。
  • 本稿Part 3では、「スノーフレークでは何ができるのか?」という疑問に答えるべく、「ELTからETLへの流れ」と「高度なRAG(検索拡張生成)」との関係性に関して詳しく解説していきます。
  • スノーフレークは、非構造化データ処理においてDatavoloを活用し、生成AI向けの効率的なデータパイプライン構築を実現。これにより、データの整理・検索精度を向上させています。
  • ETLからELTへの移行がクラウドデータウェアハウスで進む中、Datavoloはメタデータ層を構築することで非構造化データの価値を最大化し、スノーフレークがDatabricksやコンフルエントに対抗する競争力を強化しています。
  • Datavoloのノーコードインターフェースと柔軟性により、スノーフレークは生成AIアプリケーションの開発を簡略化し、変化する市場や特化型モデルに迅速に対応できる体制を整えています。

※「【テクノロジー:Part 2】スノーフレーク(SNOW)の強み:Apache NiFiを活用して高いセキュリティと拡張性を提供!」の続き

前章では、スノーフレーク(SNOW)とApache NiFiの関係性に関して詳しく解説しております。

加えて、本稿では、スノーフレークのテクノロジーに関する専門用語が多く使用されますが、同社のテクノロジーに関しては、下記の3部作から成る長編レポート、並びに、過去のレポートにて詳細に解説しております。

本稿の内容への理解をより深めるために、是非、インベストリンゴのプラットフォーム上にて、前章も併せてご覧ください。

ELTから再びETLへの流れがスノーフレーク(SNOW)に与える影響とは?

(出所:Datavolo

ETL(Extract, Transform, Load)とは、データを抽出し、変換してから最終的な保存先にロードする方法であり、ELT(Extract, Load, Transform)は、データを抽出してから保存先にロードし、その後に変換を行う方法です。そして、主な違いは、ETLでは変換を先に行い、ELTではロード後に変換する点であり、ELTはクラウド環境で効率的に使われることが多いです。

そして、Datavoloが提供するコネクタとプロセッサを使えば、非構造化データを取り込み、文脈に合わせて整理・処理し、効率的に保存することが可能です。生成AIにとって、非構造化データやマルチモーダルデータは重要な「燃料」であり、これらのユースケースを実現するには、強力なデータパイプラインが欠かせません。非構造化データには、PowerPointやExcel、PDF、テキストファイル、画像、音声、動画などが含まれます。マルチモーダルデータとは、こうしたさまざまな形式のデータを組み合わせることで、概念やタスクの本質を正確に捉えることを指します。

生成AI向けのパイプライン構築にはいくつかの課題があります。まず、アクセスが難しいソースから非構造化データを収集することが第一のステップです。これには、イベントストリームやデータベーステーブルに収まらないような大規模なデータセットも含まれ、従来のETLシステムでは対応しきれない場合があります。データ収集を自動化した後は、データの分割や整理、構造化された情報の抽出、検索や取得に使う埋め込みの作成といったプロセスが続きます。これらのプロセスを支える技術やモデルの進化は、LLM(大規模言語モデル)の応答品質を向上させるうえで欠かせない要素です。

Datavoloのアプローチは、CDW(クラウドデータウェアハウス)環境で構造化データのワークフローがETLからELTへと移行する中で、非構造化データを扱う生成AIのユースケースではETLの手法に回帰する必要があるという考えに基づいています。従来、オンプレミスのデータウェアハウスでは計算能力の制約から、データが到着すると即座に変換を行う必要がありました。しかし、クラウドデータウェアハウスではほぼ無限の計算能力が利用できるため、データをまず抽出してロードし、必要なときにクエリで変換する方法が一般的になっています。ただし、生成AIにおいて非構造化データを有用なものにするには、ETLプロセス中に適切なメタデータ層を構築する必要があります。たとえば、1,000件のPDFファイルをメタデータなしで保存しても、文脈がわからず活用が難しくなります。逆に、タイトルやタイムスタンプ、トピック、所有者、編集者といった属性を要約して付加することで、必要なPDFを効率よく分類・管理・検索できるようになります。

DatavoloはNiFiと比較して、S3のようなオブジェクトストレージから大規模な非構造化データを簡単な操作で迅速に抽出できるネイティブコネクタを備えています。また、音声やテキスト、動画といった非構造化データを文脈化するためのネイティブおよびサードパーティ製のパーサーを統合しています。このネイティブな機能により、Datavoloは非構造化データ処理の分野で最前線に立つ存在となっています。

構造化データのエコシステムでは、Fivetran、Dbt、スノーフレーク(SNOW)の組み合わせが強力なスタックとして注目されています。Fivetranはデータを抽出してスノーフレークにロードし、Dbtがデータ変換を管理します。このELTスタックは従来のワークフローを大きく変革し、これらのベンダーを数十億ドル規模のユニコーン企業へと押し上げました。一方、非構造化データの分野はまだ発展途上にあります。この分野でスノーフレークがDatavoloに投資したのは、外部のイノベーションに依存しない自立的なエコシステムを構築するためです。Datavoloを通じて強力な市場戦略を展開し、普及を進めることで、スノーフレークは非構造化データパイプラインの主要な価値を自社で掌握し、FivetranやDbtのようなベンダーと価値を分け合う必要がなくなります。さらに、このアプローチにより、非構造化データ処理の分野でDatabricksと競争しやすくなり、SparkやDatabricksが得意とするデータエンジニアリングやデータサイエンスのワークロードの進化を加速させることができます。

しかし、現在の課題として、AIの採用がデータエンジニアやアナリストではなく、主にソフトウェアエンジニアによって進められている点が挙げられます。これはスノーフレークにとって一方では障害となり得ますが、同時に大きなチャンスでもあります。Datavoloの開発を進める中で、GUIを活用した直感的なデータパイプライン構築を可能にする使いやすさや、事前構築済みのコンポーネントを提供することで、スノーフレークは生成AI(GenAI)アプリケーションの開発をより簡単に進められるようにできます。こうしたAIアプリケーションの普及が進めば、スノーフレークはDatabricksのような高度な技術志向のスタックに対し競争優位性を強化することが可能になるでしょう。

この戦略的買収は、コンフルエント(CFLT)がデータ処理やエージェント分野への拡大を進めている状況を考えると、さらに重要な意味を持ちます。Immerokの買収を通じて、コンフルエントはリアルタイムデータストリーミングと処理機能を単一のプラットフォームに統合し、さらにガバナンス機能も備えることで、企業の「中枢神経」として機能する存在となりました。このプラットフォームはリアルタイムのデータウェアハウスとしても役立ち、データを生成されたその場で処理できるため、スノーフレークやDatabricksのような外部プラットフォームへのデータ保存を不要にしています。一方で、スノーフレークがDatavoloを買収し、非構造化データパイプラインの能力を強化すれば、コンフルエントがスノーフレークの主力製品であるCDWを侵食するリスクを軽減できるでしょう。

さらに、DatavoloはKafkaやコンフルエントにとって新たな戦略的課題をもたらします。コンフルエントは機械間通信の増加を需要の原動力として生成AI(GenAI)の可能性を強調していますが、その対応範囲は小規模なトランザクションデータに限られています。一方で、非構造化データははるかに大規模で、Kafkaの設計の範囲外にあります。このギャップを埋めるためには、コンフルエントが同様のスタートアップを買収するか、独自の技術を開発する必要があります。しかし、これらの取り組みはスノーフレークとの比較において、エージェントスタックにおけるコンフルエントの優位性を低下させる可能性があります。

スノーフレーク(SNOW)と高度なRAG(検索拡張生成)の関係とは?

Datavoloは、非構造化データのデータパイプライン構築にとどまらず、特に高度なRAG(検索拡張生成)やエージェント向けデータパイプラインといった特定のユースケースにおいても、さらなる深掘りを行っています。

前回のスノーフレーク(SNOW)レポートで解説したように、現在、99%の企業は技術的な複雑さを理由に、LLM(大規模言語モデル)をそのまま利用しており、独自に微調整することは行っていません。企業独自のデータを生成AI(GenAI)アプリケーションで有効活用するためには、RAG(検索拡張生成)が最も実用的なソリューションとして注目されています。

また、OpenAIやGoogle(GOOG)、Anthropicといった主要な基盤モデル開発企業は、すでにインターネット上のほとんどの公開データをトレーニングに使用しており、さらなるモデルのスケールアップに向けた課題に直面しています。この課題を解決するためには、新たなデータソースを確保するか、RAG機能を導入してユーザー独自のデータをモデルに組み込む必要があります。

このような状況の中、OpenAIが最新の資金調達ラウンド(企業評価額1570億ドル)で、一部のAI競合企業への投資を禁止するという戦略を取った理由が理解できます。この禁止措置は、Anthropicのような基盤モデル競合企業だけでなく、PerplexityやGleanといったAIアプリケーションベンダーにも適用されました。Perplexityは、オンラインで取得した関連ドキュメントを活用してLLMの応答を改善するコンシューマ向けRAGに特化しており、一方、Gleanはルーブリック(RBRK)の元創業者が設立した企業で、エンタープライズ向けRAGに注力しています。Gleanは、組織内のデータを文脈化し、インデックス化することで、LLMを活用したより高度な内部分析を可能にしています。

Datavoloの強みは、その柔軟性とノーコードインターフェースにあります。これにより、生成AI(GenAI)アプリケーションの開発において、ユーザーはコンポーネントを柔軟に試行、変更、実験できるようになります。例えば、複数のベンダーにわたるベクターデータベースなどのコンポーネントを簡単に入れ替えることが可能です。この柔軟性は、フロンティアモデルのリーダーやドメイン特化型モデルが頻繁に変化する現代の急速な進化の中で特に重要です。

たとえば、OpenAIのLLM、Pineconeのベクターデータベース、Llamaの解析ツールを組み合わせた密接に統合されたGenAIアプリを構築した場合、リーダーシップがOpenAIからAnthropic、さらにX.aiに移るといった変化が起きると、そのたびに大規模な対応が必要になる可能性があります。しかし、Datavoloを利用すれば、ベンダーの切り替えを迅速に行い、パフォーマンスを比較しながら新たなリーダーや特化型モデルに簡単に適応でき、大規模な再構築が不要になります。

この柔軟性は、特定のタスクに最適化された小型の言語モデルを利用する場合にも非常に有用です。たとえば、PDFからトピックの一覧を抽出するタスクでは、最初はLlama 8Bを使用していたとしても、より新しく特化された2Bモデルが優れたパフォーマンスを発揮する可能性があります。Datavoloを利用すれば、プロセッサ(ここでは基盤モデルやベクターデータベースなど、GenAIスタック内のモジュール型コンポーネントを指します)をシームレスに切り替えることができるため、特化型モデルが増え続け進化する現状において、非常に重要な機能となっています。

また、Datavoloはサードパーティとの統合だけでなく、数多くのカスタムプロセッサも提供しており、外部ツールに依存することなく効率的にデータ処理を行うことができます。たとえば、ネイティブのPII(個人情報)検出・除去機能や、非構造化ドキュメントを解析する文書インテリジェンス機能を提供しており、これらによりベクターデータベースの検索精度を向上させることが可能です。

次章では、スノーフレークのDatavoloの買収とRAG(検索拡張生成)、並びに、AI市場でのプレゼンスに関して詳しく解説していきます。

※続きは「【テクノロジー:Part 4】スノーフレーク(SNOW)のすごさとは?RAG(検索拡張生成)、並びに、生成AI市場での同社のプレゼンスに迫る!」をご覧ください。

その他のスノーフレーク(SNOWに関するレポートに関心がございましたら、是非、こちらのリンクより、スノーフレークのページにてご覧いただければと思います。

また、弊社のプロフィール上にて、弊社をフォローしていただくと、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることが出来ます

弊社のテクノロジー関連銘柄に関するレポートに関心がございましたら、是非、フォローしていただければと思います。


アナリスト紹介:コンヴェクィティ

📍テクノロジー担当

コンヴェクィティのその他のテクノロジー関連銘柄のレポートに関心がございましたら、是非、こちらのリンクより、コンヴェクィティのプロフィールページにアクセスしていただければと思います。


インベストリンゴでは、弊社のアナリストが、高配当関連銘柄からAIや半導体関連のテクノロジー銘柄まで、米国株個別企業に関する動向を日々日本語でアップデートしております。そして、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は250銘柄以上となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームよりレポートをご覧いただければと思います。

弊社がカバーしている企業・銘柄の一覧ページはこちら