メルマガ登録
本日もSnowflake Summit Day2の様子を現地からレポートしていきたいと思います。
本日のKeynoteはサービスアップデート情報が中心で、データ処理部分の強化だけでなく、AI技術がいたるところに組み込まれ、聞いている側も興奮するアツいKeynoteでした。
本日のKeynoteでは最初にSnowflakeの共同創業者であるBenoit Dageville氏が登場し、Snowflakeのプロダクトがどのような価値観に基づいて設計されているのか、その根底にある思想が紹介されました。
昨日のKeynoteでも語られていた複雑な物事をシンプルにする「Simplicity」だけでなく、Snowflakeには「Easy」・「Connected」・「Trusted」という3つのコアな価値があると強調。それぞれの価値において次のように説明しています。
またこれら3つの価値観はAIをビジネスに活用する面でも同じことが言えると表現し、Snowflakeは顧客のニーズに答えるべく、日々アップデートを続けています。続くセッションでは、その進化の中身である具体的なサービスアップデートが発表されました。
Snowflakeのサービスアップデートが7つ発表され、今までのデータ処理部分の強化に加え、データ統合や生成AIの組み込みなど、データ活用に対する簡易化と高度化がどんどん進んできている印象でした。
アップデート内容は、プライベートプレビューを中心とした複数企業の活用事例とともに、8名ほど入れ替わりで登場して紹介されていました(Marriott International、ASAP、Canva、他Snowflake5名)。
発表されたサービスアップデート情報はこちらです。
特に、生成AI部分はSQLへの組み込みにより、通常であればPythonで複数ステップで処理する必要のある部分がSQLライクに一気に処理できる部分は、データサイエンティストとしても特に注目している点です。
データマネジメントの重要性はもちろんですが、今回の発表により、データ活用へのハードルが大幅に下がってきていると感じています。単なるデータの可視化に留まらず、ビジネスにおける本質的なデータ活用を目指す上で、我々としてもデータ活用支援の幅がさらに広がってきていることを実感しています。
では、今回のサービスアップデートの詳細について、さらに掘り下げて紹介していきます。
こちらは、既存のCortex関数を発展させたものとなっていて、SQLクエリ内で自然言語を使用できるようにしています。
主な機能は以下です。
テキストだけでなく、画像や音声ファイルといったマルチモーダルデータを直接SQL内で処理が可能。FILEデータ型に非構造化データを直接入れることができ、扱えるようになっています。
非構造化データは以下のような格納ができ(INPUT_FILEカラム)、非常に柔軟性の高い活用が期待できます。
事前定義されたキーではなく、自然言語のプロンプトに基づいてふたつのテーブルを結合する機能です。
AIが自然言語を理解し、例えば、苦情とその解決策のような、構造化されていない関係性を持つデータを効率的に結合できます。
こちらは便利そうですが、やはり正確性が気になります。ぜひ動作を試してみたいです。
以下のように、JOIN処理におけるON句にプロンプト処理後の一致具合を判断して結合ができるようです。
こちらは、我々の中でも話題になりました。
生成AIを活用してインサイトを要約・集計できるもので、通常のSQLの「GROUP BY」時のSELECT処理として、プロンプト処理ができるようです。
以下の例では、月ごとにサポートチケットレビューを分析し、issueを生成AIで0ショット分類してその分類ごとに割合を%表示するものとなっています。
通常であればPythonでGROUP単位でissueサマリを0ショット分類し、それごとに集計しなおす必要があるなど、複数ステップで処理する必要のある部分かと思いますが、この機能のおかげでSQLライクに一気に処理できる部分が、SQLの処理と生成AIの融合として価値を感じている部分になります。
1点気になるのは、2枚目の画像において、おそらく結果の1行目を抽出していると考えられます。つまり、1セル内にテキストとして格納されているため、例えば月ごとに分類ごとの変化を見るなどの処理がもう1処理必要になりそうです。
ただ、使い方によっては強力なSQL処理になるので、こちらも様々なユースケースで試してみたいと思っています。
新しくアナウンスされたSnowflake OpenFlowはSnowflakeが提供する新しいマネージドサービスであり、データの取り込みと処理を支援します。その文脈で発表されたのが、OpenFlowで取り込んだデータを変換する際に必要となるdbt Labsとの連携です。
ワークスペース内でdbt projectを作成またはインポートし、簡単に編集、テスト、デプロイすることが可能になりました。yamlでの設定ファイル、データソース、データモデル、ログなどを確認でき、変更を比較することもできます。またこれらはgit統合により、Snowflakeのワークスペース上でバージョン管理をすることができることになります。
今までSnowflakeでdbtを使うためには外部ツールを使う、設定を自分でする必要があるなど、多少面倒な部分があったかと思いますが、これにより格段に使いやすいものになったのではないでしょうか。
パートナーからの要望があったようで、「プライベートオファー」の概念が導入されました。これにより、個別のビジネスや商取引の関係性に応じたカスタム条件やカスタム価格設定が可能になります。マーケットプレイスの契約利用には価格がネックになることが多いため、こういった形でより利用が促進されると良いなと思います。
AI-Readyのデータセットとして、「セマンティックビュー」をマーケットプレイス上で共有できるようになりました。こちらはメトリクスや単語の定義など、データに関するコンテキストを含んだビューで、Cortex AnalystによるText-to-SQLが可能になります。外部データに関しても自分でセマンティックモデルを作ることなくSQL生成ができるようになるため、嬉しい機能です。
ニュースデータなどの非構造データをベクトル化したデータが公開され、マーケットプレイスにある外部データに対してCortex Searchでクエリでき、RAG検索のソースとすることができます。日本のプロバイダはまだないようですが、USA Today、Associated Press、Washington Postといったプロバイダがすでにマーケットプレイスにこちらの機能で公開を進めているようです。気軽に外部ソースを検索対象とできることは大きな意味があります。
同じくKeynoteで発表されたSnowflake IntelligenceというチャットUIは、自身のデータを分析・解釈できるエージェントです。このエージェントの機能を使うと、たとえば分析結果について深く掘り下げて質問した際に、LLM(大規模言語モデル)が外部の影響トレンドを考慮した回答を簡単に行えるようになります。
Snowflake Summitでは、昼食は会場のMoscone Centerに隣接しているYerba Nuena Gardensにてランチボックス・ドリンクが毎日配布されています。
天候も良く、Gardens内で昼食を摂りました。
またSnowflakeは各種グッズがとてもかっこよくて、ストアで購入してしまいました。
THE NORTH FACEのベストと、今回発表のあったロサンゼルス五輪のOfficial Provider記念のTシャツを購入して、大満足です。
本日で全4日間のSummitも折り返し。明日はSummitの中で最後のBuilders Keynoteがあります。
引き続き、メンバー一同頑張っていきます!
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説