本記事はTemma Abe氏による寄稿です。Abe氏は東京大学経済学部を卒業後に新卒で三菱商事に入社。2016年からのアクセンチュア勤務を経て、2019年からは米国西海岸に在住し、UC BerkeleyのMBAプログラムを経て、シリコンバレーで勤務しています。現地テック業界で流行のニュースレターやポッドキャストを数多く購読しており、そこから得られる情報やインサイトを日本語で発信する活動をされています。
今回はデータ分析プラットフォームのDatabricksについて書きます。個人的には、大学院で通っていたUC Berkeleyのコンピューターサイエンスの研究室から生まれたスタートアップとしてフォローしていましたが、世間一般における知名度は高くないと感じる企業です。実際、私の在籍時のビジネススクールの学生の間でも、就職候補として会話に上がることもありませんでした。なので、投資家やエンジニアバックグランドの起業家などを除けば、多くの方にとって初見である可能性が高いのではないかと思いますので、この記事が興味のきっかけとなれば幸いです。
[目次]
- Databricksは理解するのには時間がかかる
- データの時代にDatabricksを知らずにはいられない
- Databricksが提唱するデータレイクハウスは良いとこどり
- データウェアハウスの雄Snowflakeは爆発的に成長している
- Databricksは明確にSnowflakeの領域を攻めるべく舵を切った
- クラウドの巨人とも争いつつ絶妙なポジショニングを構築できるか
- DatabricksはいつIPOするのか
1. Databricksを理解するのには時間がかかる
Databricks日本法人のウェブサイトから引用します。
データブリックスは、学術界とオープンソースコミュニティに端を発し、Apache Spark™、Delta Lake、MLflow の開発者グループによって 2013 年に創業しました。クラウド上のレイクハウスプラットフォームとして世界初、世界唯一の、データウェアハウスとデータレイク両方の優れた特長を備えたデータと AI のためのオープンな統合プラットフォームを提供しています。
ぱっと読んでみて、データベースやデータ分析に詳しくない人にとっては、知らない固有名詞・用語が散りばめられてイメージがつきづらいのではないかと思います。私もこの分野に詳しいわけではなかったので、Databricksについてリサーチを始めてしばらくは、正直に言って理解がなかなか進みませんでした。ここで安心して頂きたいのは、皆が同じように思っているということです。
- ビジネスマン向けにテクニカルなことを解説してくれる、米国テック界隈で人気のTechnicallyがDatabricksについて解説した記事においても、「誰も理解していない3兆円企業(※)」というサブタイトルがついているくらいです。
- (Databricksがライバル視している)Snowflake社のCEOは「Databricksは、カリフォルニア大学バークレー校に入学できるほど頭がよく、複雑なことが好きな人たち向けのものだ」と皮肉った、とかしていないとか。(参照)
※記事執筆当時のバリュエーションは$28B(3兆8,080億円)だったが、その後のラウンドでは$38B(5兆1,680億円)に上昇している
2. データの時代にDatabricksを知らずにはいられない
という前置きをしつつも、なぜDatabricksを知る必要があるのか、について最初に書きます。
まず、下記の表が示す通り、Databricksは未上場スタートアップ時価総額ランキングで継続的にトップ10に入っています。ByteDance、SpaceX、SHEIN、Canva、Stripe、Instacart、(今話題の)FTXなどは、コンシューマー向けであることや経営者が著名人であることから、多くの人にとって馴染みのある名前なのではないかと推測しますが、こうした顔ぶれの中にDatabricksはランクインしています。
[CB Insights: The Complete List Of Unicorn Companies]
また、もう少し業界特化のリストで言えば、著名VCであるa16zが定期的に出しているData Management/Analysis関連のスタートアップのランキングでは1位になっています(注:a16zはDatabricksの投資家)。余談ですが、私が以前に別記事で紹介したScale AIも3位にランクインしています。
[Data50: The World’s Top 50 Data Startups]
さて、上記のランキングに見合うくらいに、事業は成長しているのでしょうか。下記のグラフで2022年は予測値ですが、今年8月時点でARR$1B(1,360億円)は達成したという事実は確認できており、ここ4年間で売上高を10倍以上に伸ばしていることが分かります。
加えて、マーケットシェアからその成長を見てみると、GartnerによればDatabricksはデータベースマネジメントシステムの市場において、2019年時点の31位から2021年には18位まで順位を伸ばしたとのことです。この急激な成長は、(後述するライバルの)SnowflakeとDatabricksのみが実現していることがチャートから分かります。なお、このチャートはオンプレミスも含めているため、Oracle、IBM、SAPなどが上位に名を連ねていますが、クラウドプレイヤーに限って言えば、AWS、Azure、GCPのビッグスリーに続き、SnowflakeとDatabricksが続いています。
さらに、2022年6月時点において、「2022年内に2,500人を採用して社員数を5,500人にする」という人材採用方針を公表しています。当時はテック企業のバリュエーションの低下、資金調達マーケットの変化が既に起こっていたので、とても強気だなと思ったことが印象に残っています。ただし、その後多数のテック企業によるレイオフが発生しており、景気後退懸念も更に高まったので、その後に計画の変更はあったかもしれません。
3. Databricksが提唱するデータレイクハウスは良いとこどり
Databricksやデータレイクハウスに入る前に、大前提の知識としてデータ分析に関連する2種類のデータベースである、データウェアハウスとデータレイクについて簡単に説明します。
一般的に、「データウェアハウス」がスキーマとテーブルによって事前に構造化された状態でデータを保存するのに対し、「データレイク」は主に非構造化データを事前処理せずに保存するものです。前者はBI(ビジネスインテリジェンス)と呼ばれるアナリストによるKPI分析などをサポートするものであり、後者はAI/MLモデルに取り込む大量のインプットデータとして保管するなどが主なユースケースです。
両者をざっくりと比較すると以下の表になります。この領域に詳しい方からすると、こんな単純な対比構造にならない、という意見もあるかもしれませんが、導入の理解としては有用だという考えのもと作成しております。
[Technicallyなどを参考に筆者作成]
Databricksは、上記で説明したデータウェアハウスとデータレイクの性質を組み合わせた「データレイクハウス」というコンセプト・手法を売りにしています。
レイクハウスは、分断・サイロ化されていた2つの世界を1つのプラットフォームで統合して、データ分析のスピード・フレキシビリティ・ガバナンス・セキュリティを向上させることができると、Databricksは謳っています。
技術的な詳細はこの記事の対象外なのでは深入りはしませんが、データレイクハウスが画期的なのは、Delta Lakeという技術を用いると、データレイク上に放り込まれた非構造化データであっても、データウェアハウスに整理して保管されている構造化データと同じように取り扱うことができる点です。これが成り立つとすれば、様々な形式のデータをデータレイク上に低コストで保管しつつ、後工程のデータ抽出・分析もスピーディーに実行できることになり、まさに両得と言えます。
[The Data Team’s Guide to the Data Lakehouse Platform Analytics]
4. データウェアハウスの雄Snowflakeは爆発的に成長している
上記のようにデータレイクハウスを紹介すると、データウェアハウスは古いテクノロジーのような印象を与えてしまうかもしれませんが、この市場は依然として大きく成長しています。Technavioによると、2022年から2026年にかけて年率23%で成長していくと推定されています。
[Cloud Data Warehouse Market to grow by USD 10.42 bn | Technavio]
その中で最も注目株と言ってよいのがSnowflakeです。下記の表から分かる通り、SaaS企業の中で最も高いマルチプル・売上高成長率となっています。2020年9月にSaaS市場最高額でIPOをしたあと、ピークにはマルチプル100倍を超えの時価総額$120B(約17兆円)まで到達しましたが、テック株の低迷に伴い2022年11月時点では$45B(約6兆円)となっています。
それでも、2022年度は100%超の売上高成長率を見せ、2023年度の四半期の数値も3大クラウドを含めた他のテック企業に比べれば、驚くべきパフォーマンスを見せています。
3大クラウドプレイヤーであるAWS、Azure、GCPも足元では20~30%台の成長率に低迷しつつあるので、Snowflakeはシェアを伸ばし続けているといえます。
[Grey Skies in Cloud Earnings by Tomasz Tunguz]
5. Databricksは明確にSnowflakeの領域を攻めるべく舵を切った
元々はAI/MLエンジニア・データサイエンティストなどの玄人向けのツールとして広まっていたDatabricksですが、最近になって顕著にデータウェアハウス領域でSnowflakeと戦う姿勢を明確にしており、宣戦布告のブログまで書いたりいています。さらに、公開資料の中でも明らかにSnowflakeに対する優位性を示す下記のようなスライドを作っています。
キャッチコピーは「The best data warehouse is a lakehouse(≒データレイクハウスは最高のデータウェアハウス)」で、以前Databricksは「Goodbye, Data Warehouse Hello, Data Lakehouse」というメッセージの広告を出していたことに鑑みれば、データウェアハウス側に歩み寄っているといえます。
この変化は主に以下の背景があるのではないかと、私は推測します。
- Snowflakeが牽引するデータウェアハウス市場のポテンシャルがあまりにも大きく、マルチプルの高いSnowflake社と直接比較されるポジショニングを取ることで、自社のバリュエーションにも有利に働く。
- テック業界の低迷・景気後退が懸念される中で、AI/MLエンジニアリングや高度なアナリティクスのプロジェクトに対する需要よりも、IT部門からのTCO(Total Cost of Ownership)を抑えたデータマネジメントへの需要が相対的に強くなりつつある(※)。
※この点についてはDatabricksのCEO Ali Ghodsi氏がMonte Carlo社主催のカンファレンスにおいて「コスト削減がDatabricks・データレイクハウスのミッションの本丸ではないが、足元での顧客からの需要が明確に大きいので対応せざるをえない」と語っていました。
一方で、DatabricksがSnowflakeの領域に進出するのに呼応する形なのか、SnowflakeもDatabricksの本丸だったデータサイエンスの領域に進出する姿勢を見せています。その象徴的な動きが、Streamit社の買収です。
Snowflake社は本日、データサイエンティストが好むプログラミング言語Pythonのサポートをデータクラウドに追加し、3月のStreamlit社買収で獲得したコラボレーションプラットフォームとの統合を強化することを発表しました。(引用記事)
このように、まだまだ伸び続けるであろうクラウド・データベース領域の中で、DatabricksとSnowflakeの戦いは激しくなっていくことが予想されます。
6. クラウドの巨人とも争いつつ絶妙なポジショニングを構築できるか
上記ではSnowflakeとのライバル関係を取り上げましたが、AWSのRedshift、AzureのSynapse、GCPのBigQueryなど3大クラウドプレイヤーが提供するデータ分析基盤ともDatabricksは競合関係にあります。複雑なのは、Databricksはマルチクラウドを謳っており、いずれのクラウドプレイヤーともパートナーシップを結んでおり、彼らのインフラやチャネルに依存する構造になっていることです。まさに英語で言う所のFrenemy(友達でもあり敵でもある関係性)です。
[The Databricks Lakehouse Platform]
例えば、つい先日のAWSの年次イベントで、Apache SparkとAWS Redshiftのインテグレーションが発表されました。Apache Sparkと言えば、この記事の冒頭で書いた通り、Databricksの創業者たちが開発したオープンソースプログラムで、Databricksのビジネスの起源であり土台です。Apache Sparkを上手くマネージできるパッケージサービスという点がDatabricksの強みの1つなので、AWSがDatabricks経由ではなくApache Sparkとの直接の結びつきを強めることは、Databricksのビジネスにとって影響がありそうです。一方で、同じイベント内のパートナーシップに関するプレゼンテーションの中では、AWSとDatabricksの強固な関係性が語られていました。
また、会社/組織間でデータやモデルを共有するマーケットプレイス(AWS、Snowflake、Databricks)やクリーンルーム(AWS、Snowflake、Databricks)などのプロダクトに、各社が昨今こぞって力を入れているようです。その際に、圧倒的な顧客基盤を抱えるプラットフォームであるクラウドの巨人が勝つのか、Databricksのマルチクラウド・オープンソースであることの強みが発揮されるのか、という点にも注目です。
このように、今後もクラウドデータマネジメント市場の競争環境が変化していく中で、Databricksは自社のイノベーションを継続しつつ、ポジショニングを更新し続ける必要がありそうです。
7. DatabricksはいつIPOするのか
Databricksは数年前からIPOがずっと噂されている会社ですが、そのARR(Annual Recurring Revenue)とバリュエーションの推移は以下の通りです。
- Q3 2019: $200 million run rate, $6.2 billion valuation — 31x run-rate multiple.
- End of 2020: $425 million ARR, $28 billion valuation — 66x ARR multiple.
- August 2021: $600 million ARR, $38 billion valuation — 63x ARR multiple.
- End of 2021: $800 million+ ARR, $38 billion valuation — 47.5x ARR multiple.
[Rerethinking Databricks’ valuation in a more conservative startup market]
さて、2022年は上場テック企業、特にグロース企業の株価が低迷していることは周知の通りですが、2022年10月にはDatabricksも社内の株式報酬などに用いるバリュエーションを調整し、直近のラウンドから7%低い$31B(4兆2,160億円)に引き下げた、という報道がありました。ただし、他のテック株の大幅下落に比べれば、かなり小さい下げ幅であると言えます。2022年8月時点でDatabricksが発表した$1B(1,360億円)のARRを用いれば、$31Bのバリュエーションのマルチプルは31倍となります。
Snowflakeも、一時期は100倍超のマルチプルをつけていたものの、2022年11月時点では17.2倍となっています。Databricksが公にSnowflakeをライバル視していることから、必ず株式市場においても両社は比較されることになります。そこで、Databricksは31倍というマルチプルを正当化するためには、Snowflakeよりも高い成長率を示さなければなりません。SnowflakeのNTM(Next Twelve Months)の成長率は53%ですが、これを大きく上回るハードルは高いそうです。
とすると、投資家や従業員から上場へのプレッシャーはあるかもしれませんが、現在の低迷した株式市場を鑑みると、テック株のマルチプルが回復するタイミングを待つのが得策と考えているかもしれません。2021年の巨額調達に加えて、もしもオペレーティングキャッシュフローを生む構造になっていれば、短期的にはIPOによる資金調達の必要性は薄いのかもしれません。これらは推測の域を出ないので、今後のDatabricksからの発表に注目したいです。
[米国スタートアップ冬の時代の注目企業の過去記事]
第1回:Scale AI
第2回:Airbnb
第3回:DoorDash
第4回:SaaSコスト削減SaaS
Contributing Writer @ Coral Capital