01/05/2025

【テクノロジー:Part 4】スノーフレーク(SNOW)のすごさとは?RAG(検索拡張生成)、並びに、生成AI市場での同社のプレゼンスに迫る!

two hands touching each other in front of a pink backgroundコンヴェクィティ  コンヴェクィティ
  • 本編は、注目の米国テクノロジー企業であるスノーフレーク(SNOW)のテクノロジー上の競争優位性を分析した長編レポートとなり、4つの章で構成されています。
  • 本稿Part 4では、「スノーフレークのすごさとは?」という問いに答えるべく、Datavoloの買収とRAG(検索拡張生成)、並びに、AI市場でのプレゼンスに関して詳しく解説していきます。
  • スノーフレークは非構造化データを対象とした高度なRAGワークフローを導入し、Datavoloを通じてデータ処理や統合を効率化することでROI向上に貢献しています。
  • Datavoloは、直感的なGUIや高度なツールでRAGパイプラインの構築を簡素化し、多様なデータ形式に対応する柔軟なデータ管理機能を提供しています。
  • スノーフレークは生成AIとデータエンジニアリング分野での競争力を強化し、買収戦略やオープンコアビジネスモデルを通じて新興AIエコシステムでの地位を確立しています。

※「【テクノロジー:Part 3】スノーフレーク(SNOW)では何ができるのか?ELTからETLへの流れと高度なRAG(検索拡張生成)との関係性に迫る!」の続き

前章では、スノーフレークと「ELTからETLへの流れ」と「高度なRAG(検索拡張生成)」との関係性詳しく解説しております。

加えて、本稿では、スノーフレークのテクノロジーに関する専門用語が多く使用されますが、同社のテクノロジーに関しては、下記の3部作から成る長編レポート、並びに、過去のレポートにて詳細に解説しております。

本稿の内容への理解をより深めるために、是非、インベストリンゴのプラットフォーム上にて、前章も併せてご覧ください。

スノーフレーク(SNOW)のDatavoloの買収とRAG市場でのプレゼンスに関して

以前執筆したスノーフレーク(SNOW)に関する分析レポートで構造化データ向けのRAGについて説明しましたが、Datavoloはその概念をさらに発展させ、特に非構造化データを対象とした幅広いユースケースに対応しています。構造化データ向けのRAGは、最新の売上データの取得や整理されたデータセットの検索に役立ちますが、企業内の多くのデータは非構造化や半構造化のままです。

特に注目すべき生成AIのユースケースとして、営業、サポート、開発チームの生産性を向上させる「コパイロット」の活用が挙げられます。これらのツールは、企業の内部文書やマニュアルなどを解析し、文脈に応じた実用的な洞察を提供します。このような用途では、Datavoloが不可欠な役割を果たし、非構造化データのスムーズな処理や統合を可能にすることで、ROIの向上に大きく貢献します。

(出所:Datavolo

Datavoloは、多様なデータ形式に対応し、アプリケーションのニーズに応じてデータを適切な行き先へ振り分けることが可能です。例えば、データを直接LLM(大規模言語モデル)に送信したり、埋め込みモデルを使用してベクターインデックスを作成し、ベクターデータベースに保存したりすることができます。また、メタデータを生成してデータウェアハウスに保存する、あるいは生データをそのままオブジェクトストレージに保存することもできます。

Datavoloの重点課題の一つは、RAG(Retrieval-Augmented Generation)パイプラインの構築をより簡単にするため、コネクタやプロセッサをさらに充実させることです。GUIを通じて利用できる豊富な事前構築済みコンポーネントのライブラリを活用すれば、数回のクリックで、数分以内に完全機能を備えたRAGパイプラインを簡単に構築できます。

(原文)Basic RAG which can be implemented with an ETL workflow in four major steps:Extract: ListS3 and FetchS3Object work together to pull all data from an S3 bucket into our systemTransform: ParseDocument and ChunkDocument are new AI-powered processors as described above. They read documents in various formats and chunk them into manageable sizes.Embed: PutPinecone uses OpenAI’s Embeddings API to create vectors from the textLoad: PutPinecone then stores the generated embeddings in Pinecone. As discussed in the motivation section, these embeddings provide context to the LLM during synthesis to serve user queries

(日本語訳)

基本的なRAGは、ETLワークフローを用いて以下の4つの主要なステップで実装できます:

1. 抽出 (Extract): ListS3 FetchS3Object が連携して動作し、S3バケットからすべてのデータをシステムに取り込む役割を果たします。

2. 変換 (Transform): ParseDocument ChunkDocument は、上記で説明したような新しいAI搭載プロセッサーです。これらは、さまざまな形式のドキュメントを読み取り、扱いやすいサイズに分割します。

3. 埋め込み (Embed): PutPinecone は、OpenAIEmbeddings APIを使用してテキストからベクトルを生成します。

4. ロード (Load): PutPinecone は生成された埋め込みデータをPineconeに格納します。動機セクションで述べたように、これらの埋め込みデータは、LLMがユーザーの問い合わせに対応する際にコンテキストを提供するために使用されます。

さらに興味深い点として、Datavoloは「スモール・トゥ・ビッグ」アプローチと呼ばれる高度なRAGワークフローを、シンプルで直感的な手順でサポートしています。従来のシンプルなRAGでは、大きな文書や関連する複数の文書をそのままモデルに送信することが一般的ですが、高度なRAGでは、文書を複数の大きなチャンクに分割し、さらにそれらを小さなセグメントに細分化します。そして、それぞれの類似度スコアやセマンティックな関係性をベクトルストアに保存します。

このアプローチにより、クエリ時に必要なデータをより細かく正確に取得することが可能となります。小さなセグメントを取り出し、それらを組み合わせて回答を生成することで、より精度が高く文脈に適した情報を提供できるため、「スモール・トゥ・ビッグ」という表現が使われています。

(原文)Break up source documents into large chunksStore these parent chunks in Datavolo’s doc storeBreak up parent chunks into query-optimized small chunks. Each small chunk has an identifier pointing back to its parentGenerate child embeddings from the small chunks and store them on Pinecone

(日本語訳)ソースドキュメントを大きなチャンクに分割し、それらをDatavoloのドキュメントストアに保存します。次に、大きなチャンクをさらにクエリに最適化された小さなチャンクに分割します。各小さなチャンクには、それが属する親チャンクを指し示す識別子が付与されます。最後に、小さなチャンクから子埋め込みを生成し、それをPineconeに保存します。

(出所:DatavoloのHP

Datavoloは、データを細かく分割し、それらの関係性を詳細に記録するだけでなく、メタデータをベクトルウェイトと組み合わせて解析することで、検索とデータ取得の性能を向上させます。このハイブリッド検索では、メタデータに基づいたフィルタリングを活用し、データの再ランク付けや文脈に応じた階層構造の構築が可能となり、AIモデルに最も関連性が高く有用な情報を提供します。

また、Datavoloのデータパイプラインは、パーサー、チャンクプロセッサ、ベクトルストアなどのツールを簡単に入れ替えることができ、RAGアプリケーションの最終的な性能を比較・評価する柔軟性を提供します。この柔軟性は、進化が早く変化の激しいAI分野において不可欠であり、開発者が迅速にツールを適応させ、アプリケーションの性能を最適化するための重要な要素となります。

さらに、DatavoloはChange Data Capture(CDC)機能を備えており、ソースドキュメントの変更を検知して適応し、記録を迅速に更新します。この機能は、構造化データ分野においてAIエージェント向けにコンフルエント(CFLT)が展開している取り組みと類似しており、Datavoloが最先端の実践にしっかり対応していることを示しています。

総じて、Datavoloは分析コミュニティであまり注目されていないながらも、非常に優れた実力を持つスタートアップです。スノーフレーク(SNOW)と同社のCEOは、スノーフレークのプラットフォームや戦略目標に完全に合致する企業を見抜き、買収するという卓越した先見性を発揮しました。この買収は、スノーフレークの生成AIおよびデータエンジニアリング分野における地位を一段と強化し、ラマスワミ氏がCEOとして不適任であるという批判に対抗する材料にもなっています。彼のリーダーシップのもと、スノーフレークはオープンソースやオープンコアのビジネスモデルを迅速に採用し、以前の鈍重な文化から大きく脱却することに成功しています。

コンフルエントのエージェントとしての潜在力がやや不確実な側面を持つと考えるなら、Datavoloの買収はより具体的で、かつ大きな影響力を持つ可能性が高いと言えます。リアルタイムで非構造化データを処理するパイプラインは、現在の市場における大きな課題を解決するものであり、Datavoloは早期参入の優位性とオープンコア戦略を活用することで、急速にスケールアップできるポジションにあります。すでにNiFiがClouderaに対して1億ドル以上の収益をもたらしていることを考えると、RAGやエージェントAIの採用が進むことで、この事業が10億ドル規模のプロダクトへと成長する可能性があります。これにより、スノーフレークの競争優位性がさらに強化され、Snowflake CortexはAI開発者にとって強力で使いやすいPaaSへと進化するでしょう。

また、AI向けのデータストリーミングを制御し、上位レイヤーのスタックを確保するだけでなく、スノーフレークは非構造化データのETL分野でも足場を築く機会を得ています。この分野は、Databricksの主要なETL市場と重なる部分があり、競争が激化することが予想されます。しかし、スノーフレークが買収したオープンコアビジネス「Streamlit」を成功裏に拡大させた実績を考えると、スノーフレークのこの分野での成長については非常に楽観視できると見ています。

そして、投資家にとって注目すべき主要な指標には、NiFiやDatavoloの利用状況を示すメトリクスが含まれます。たとえば、NiFiのGitHubスター数が急増することは、買収後の進展が順調であることを示す有力なサインとなるでしょう。

さらに、非構造化データパイプライン市場では、非構造化データを構造化データに変換するツールを提供する新規参入企業の増加が見込まれています。この分野をリードするUnstructured.ioは、APIファーストのアプローチと豊富な事前構築済みコネクターを強みとしており、大きな注目を集めています。特に、コード不要の直感的なUI、使いやすさ、メンテナンスの簡便さ、迅速なROIが企業から高く評価されています。一方、競合のDatologyも一定の進展を遂げていますが、現時点ではUnstructuredのソリューションが市場をリードしています。

Unstructuredはスノーフレークにとって戦略的な買収候補となり得るものの、その高額な評価額や売却意思の不確定さが課題となっています。

AIスタックのこの分野は特に収益性が高いとされています。その理由は、データ変換が高価なGPUではなく、CPUや低コストの特化型モデル(SLM)に依存しているため、売上原価(COGS)が低く、粗利益率が非常に高い(場合によっては80%以上)点にあります。一方、GPUに大きく依存するLLM(大規模言語モデル)のトレーニングはコストが高く、IaaSプロバイダー間で激しい価格競争を引き起こしています。市場初期のシェア獲得を目指し、一部のプロバイダーはCOGS(売上原価)を下回る価格でサービスを提供するケースさえあります。

例えば、ステート・ストリート(STT)は7~8か月間で、非構造化データをオンプレミスからクラウド上のレイクハウスに構造化データとして移行するためにUnstructuredに150万ドルを費やし、LLMのトレーニングや微調整のためにDatabricksに250万ドルを支払いました。DatabricksはバッチETLで高い評価を得ているものの、この分野ではUnstructuredに遅れを取っており、コストパフォーマンスやユーザー体験の面で見劣りするとされています。

さらに、UnstructuredのCPU+SLMを活用したサービスは高い粗利益率を誇る一方で、DatabricksのGPUベースのサービスは粗利益率が低い、もしくは赤字になる可能性さえあると考えられています。

テキストのチャンク分割においてはLangChainが先頭を走っていますが、特に動画や音声など他の形式のチャンク分割に対応する新たなプレイヤーの登場が期待されています。この分野は開発の余地が大きく、スノーフレークはさらなる買収や製品改良を通じて、最小限の労力で生成AIアプリを構築できる、ノーコードのスムーズなユーザー体験を実現する可能性が高いでしょう。

同様に、DatabricksもMosaicAI PaaSを強化するために、AIアプリのツールチェーン企業を積極的に買収しています。一方で、マイクロソフト(MSFT)、アルファベット(GOOG)、アマゾン(AMZN)といったハイパースケーラーも、それぞれAzure AI Studio、Vertex AI、Bedrockを通じてAI PaaSを進化させています。しかし、これらのハイパースケーラーは明確な戦略が欠けているようで、Azureのような先行者でさえ、そのアドバンテージを十分に活かせていない状況です。

特筆すべきは、スノーフレークがマイクロソフトから多くの優秀なAI人材、特にDeepspeedチームのメンバーを積極的に引き入れている点です。

この分野は急速に進化を続けていますが、全体的な比較から見ると、スノーフレークは非常に優れた実行力を発揮しており、新CEOに対する従来の固定観念を覆しています。そして、生成AIや非構造化データ分野での戦略的な取り組みにより、スノーフレークは新たに台頭するAIエコシステムにおいて強力なプレイヤーとしての地位を確立しているように見えます。

本編はこちらで以上となります。

その他のスノーフレーク(SNOWに関するレポートに関心がございましたら、是非、こちらのリンクより、スノーフレークのページにてご覧いただければと思います。

テクノロジー銘柄に関するレポートを「毎月約10件、年間で約100件程度執筆しており、弊社のプロフィール上にてフォローをしていただくと、最新のレポートがリリースされる度にリアルタイムでメール経由でお知らせを受け取ることができます。

弊社のテクノロジー銘柄に関する最新レポートを見逃さないために、是非、フォローしていただければと思います!


アナリスト紹介:コンヴェクィティ

📍テクノロジー担当

コンヴェクィティのその他のテクノロジー銘柄のレポートに関心がございましたら、こちらのリンクより、コンヴェクィティのプロフィールページにてご覧いただければと思います。


インベストリンゴでは、弊社のアナリストが「高配当銘柄」から「AIや半導体関連のテクノロジー銘柄」まで、米国株個別企業に関する分析を日々日本語でアップデートしております。さらに、インベストリンゴのレポート上でカバーされている米国、及び、外国企業数は「250銘柄以上」(対象銘柄リストはこちら)となっております。米国株式市場に関心のある方は、是非、弊社プラットフォームより詳細な分析レポートをご覧いただければと思います。