生成型推薦(Generative Recommendation)の進化と代表手法の紹介

執筆者
公開日
2026.06.11
更新日
2026.06.11

レコメンデーション技術は、顧客体験の向上や売上拡大に直結する重要な分野ですが、近年は大規模言語モデル(LLM)の台頭により、従来の「IDによるマッチング」という常識を覆し、アイテムの「意味(セマンティック)」を理解して提案を行う「生成型推薦(Generative Recommendation)」という全く新しいパラダイムへのシフトが起きています。

そこで今回は、この凄まじいスピードで進化するレコメンデーション領域の知見を深め、より高度なご提案に繋げることを目指し、3つの最新の生成型推薦の事例をご紹介 します。言語モデルと同様に、次の単語(トークン)を当てるという意味での大規模深層学習を用いた推薦モデルが 2例、GPTを用いたAIエージェントシステムが 1例になります。レコメンド技術の現在地とさらなる可能性を掴む一助となれば幸いです。

本記事の執筆者
  • データサイエンティスト
    木下 喬史
    Takafumi Kinoshita
    会社
    株式会社ブレインパッド
    所属
    アナリティクスコンサルティングユニット
    2026年にブレインパッドに中途入社。前職では、大規模な購買行動データを活用したクーポン配信レコメンドエンジンの設計をリード。そのほか、デジタル広告の配信セグメント最適化や社内AutoMLツールの開発など、データサイエンスの研究から実装までを幅広く担当。ブレインパッド入社後は、機械学習モデルを用いたユーザー行動分析や分析環境の構築など、クライアントのデータ分析プロジェクトの実行支援に従事。

はじめに:レコメンド技術の分類と変遷

レコメンド技術はこれまで、その目的やデータの性質、扱うコンテキストに応じて多角的に発展してきました。RecBole※1によるレコメンドモデルの分類は下記のとおりです。

※1:中国の研究機関によって、複数のレコメンド手法をまとめて性能比較できるように作られた、レコメンドモデルのオープンソースが集まっているプロジェクトのことです。リンクはこちらです。

  • General Recommendation: ユーザー×アイテムの行列をもとに、協調フィルタリングベースでスコアリングするモデルです。
    代表的なモデル:MF / BPR / NCF / RecVAE
  • Sequential Recommendation: 行動ログの時系列的な遷移を重視し、次に何を買うかを予測するNext Item Predictionと相性がいいモデルです。自然言語処理の技術をユーザーごとのトランザクション履歴に適用させています。
    代表的なモデル:GRU4Rec / SASRec / BERT4Rec
  • Context-aware Recommendation: 時間、場所、デバイスなどの補助情報も入力することができるモデルです。CTR予測などと相性が良いです。
    代表的なモデル:FM / Wide & Deep / DCN
  • Knowledge-based Recommendation: アイテム間の関係性を体系化したナレッジグラフをレコメンドに応用したモデルです。
    代表的なモデル:CKE / KGCN

一部のアルゴリズムの詳しい内容は深層学習が変えたレコメンデーション技術:主要モデルの潮流とは | DOORS DX  でも解説しています。


これらのアルゴリズムの変遷は、モデルの表現能力の進化と同期しており、大きく二つの世代に分けることができます。

  • 第1世代:統計的協調フィルタリングと行列分解
    ユーザーとアイテムの相互作用行列における潜在的なパターンを低次元空間へ投影し、ドット積で相関を捉えることに焦点を当てていました。本質的には「過去の類似性」を統計的に補完する手法でした。
  • 第2世代:深層学習による複雑な関係性のモデル化
    多層パーセプトロン(MLP)やアテンションメカニズム(Transformer等)を導入し、複雑な非線形関係や長期的な依存関係をモデル化可能にしました。BERT4Recに代表されるように、自然言語処理のアーキテクチャを推薦ドメインへ転用できるようになりました。

しかし、これら第1・第2世代の手法は、推薦を識別的なスコアリングとして扱っているため、意味的な知識の活用に限界がありました。また、データスパースネスに起因するコールドスタート問題や、人気アイテムへの過度な偏り(ポピュラリティ・バイアス)といった、推薦の本質的な課題を抜本的に解決するまでには至っていませんでした。


Generative Recommendationによるパラダイムシフト

近年、大規模言語モデル(LLM)の台頭は、これらの問題を「ID依存からの脱却」という形で解決しつつあります。これが「生成型推薦(Generative Recommendation)」と呼ばれる新たなパラダイムです。このパラダイムによって引き起こされた進化をデータレベル・モデルレベル・タスクレベルで分けてまとめました。

データレベルでの進化

データ側面では、従来の推薦システムが依存していた「ID」によるマッチングから脱却し、LLMが持つ膨大な知識を基盤とした「セマンティック(意味的)な理解」が可能になりました。これにより、履歴データが全く存在しない新規ユーザーや新アイテムに対しても、そのテキスト情報や文脈から直接好みを推論できる「コールドスタート問題の克服」が実現しています。具体的には、LLMを用いてユーザーの潜在的な意図を推論したり、不足しているインタラクションを擬似的に合成したりすることで、データの希薄さを能動的に補完できるようになりました。

モデルレベルでの進化

モデル側面では、推薦という課題を「単語を生成するプロセス」として再定義したことで、従来の識別型モデルでは到達できなかった高度な柔軟性が備わりました。アイテムを単なる記号ではなく、意味的な情報を保持したトークンとして扱うことで、LLMの推論能力を推薦エンジンとして直接活用できるようになっています。このアプローチにより、アイテム間の表層的な関連性だけでなく、より深いセマンティックな依存関係を捉えた高精度な予測が可能です。また、モデル規模を拡大させる「スケーリング則」によって、より大規模で複雑なユーザー行動パターンを正確にモデル化する道が開かれました。

タスクレベルでの進化

タスク側面においては、推薦の結果を単なるリストとして提示するのではなく、高度な「説明可能性」と「対話能力」を兼ね備えた体験を提供できるようになりました。LLMの推論能力を活かし、なぜそのアイテムが最適なのかという論理的な理由を、ユーザーが納得できる自然な言葉で解説することが可能です。加えて、リアルタイムで多段階のやり取りを行う「対話型推薦」が実現したことで、ユーザーは曖昧な要望を言葉で伝え、システムとの対話を通じて自身のニーズを洗練させたり、結果を即座に修正したりできるようになりました。これにより、推薦システムは受動的なツールから、ユーザーの意図を汲み取る知的な対話型アシスタントへと進化を遂げています。

【参考】
A Survey on Generative Recommendation: Data, Model, and Tasks


次世代レコメンドを牽引する3つの代表的アプローチ

ここからは、Generative Recommendationに分類される手法の中から代表的な 3つのモデルを紹介 します。社会実装への容易性を考えて、企業が開発に関与していて、なおかつオープンソースとしてモデルを提供している手法に限定して選出 しました。また、gitのスターがなるべく多いものから選出 しています。

ActionPiece

DeepMindが2025年に発表したモデルになります。論文はこちら

これは、アイテムをIDからセマンティック・トークンへ昇華させるアプローチを採用しており、前章の「モデルレベルでの進化」に該当します。従来の推薦システムは、アイテムを「ID」という無機質な記号として扱ってきました。しかし、同じアイテムでも「何と一緒に検討されているか」でその意味は変わります。このActionPieceでは、アイテムを周囲の行動履歴(文脈)に応じて形を変える「可変なトークン」として定義し直すことで、推薦における言語的アプローチを提案しました。

技術的特筆点は、NLPのサブワード化技術(BPE)を推薦ドメインへ拡張した点にあります。単一アイテム内の特徴量だけでなく、隣接するアイテム間での共起頻度に基づき、文脈そのものを一つの新しい「セマンティック・トークン」として結合します。これにより、モデルはデータ表現レベルで深い文脈を読み取ることが可能になりました。

技術的メソッド

  • セットシーケンス: アイテムはそれに紐づく特徴を{カテゴリ、ブランド、価格、タイトル}のように順序のないセットとみなし、ユーザーの購買行動ログはセットの時間的順序があるシーケンスとして扱います。これにより、アイテム内の特徴の組み合わせと前後の文脈の両方を正しく計算することができます。
  • 重み付きBPE: セット内および隣接セット間での属性ペアの共起確率に基づき、頻出パターンを新規トークンとしてマージしています。
  • 集合順序の正規化(SPR): 学習時に属性の順序をランダムに入れ替えることで、多様なセグメンテーションパターンを学習。これにより、アイテムの属性(ブランド、色、価格など)などの順序が関係ない「集合」に対して順序のバイアスを排徐しています。

実験と結果

  • 使用データ: Amazon Reviews※2(Sports, Beauty, CDs)
  • 比較手法: SASRec,TIGER
  • 評価指標: Recall@10, NDCG@10
  • 結果:すべてのデータセットで最高精度を記録し、NDCG@10で最大12.82%の改善を達成しました。

※2 Amazon上に実際に投稿された、カスタマーレビューや商品メタデータをまとめたデータセットのこと。

こちらにソースコードが公開されています。

LLMをバックボーンに据えつつ、AmazonデータセットでFineTuningしてモデルを作成しています。手元の環境で動かすにはGPUが必要です。

HSTU

Metaが2024年に発表したモデルになります。(論文はこちら推薦専用のLLMであるLRM(Large Recommendation Models)を作成する手法であり、前章の「モデルレベルでの進化」に該当します。LLMがモデルサイズの拡大に伴い性能を向上させたように、推薦でも「スケーリング則」は成立するのかという疑問から生まれたのがHSTUです。汎用Transformerの流用ではなく、超大規模・非定常・長尺という推薦データ特有の性質に特化した専用アーキテクチャを構築することで、数兆パラメータ規模への道筋を付けました。

技術的特筆点は、Softmaxベースのアテンションを廃止し、「Pointwise Aggregated Attention」を採用したことです。これにより、ユーザーのアクション頻度や滞在時間の重みを効率的にアテンションへ反映できるようになりました。ユーザーの「行動の密度」を直接モデルが扱えるようになり、予測精度と学習の安定性を両立し、さらに標準的なモデルに対し驚異的な高速化を実現しました。

技術的メソッド

  • Pointwise Aggregated Attention: 点単位の集計により、ターゲットに対するユーザーの選好の強さを正確に捕捉できるようになりました。(例えば、100回購入していればそのまま100回という数字がモデルに反映されます。)
  • Stochastic Length (SL): 学習中に長い履歴を確率的にサンプリングする手法で、精度を維持しつつ計算量を削減し、8,192という長尺シーケンスの学習を実現しました。

実験と結果

  • 使用データ: AmazonReviewMovieLens※3、1,000億規模のMeta産業用データセット
  • 比較手法: SASRec、標準的なTransformer(FlashAttention-2)
  • 評価指標: Normalized Entropy (NE)、NDCG, HR等
  • 結果:従来手法と比較してHR@10などの主要指標において最大で約65.8%の向上を達成しました。また、標準のTransformerと比較して学習速度で最大15.2倍の高速化を達成しました。

※3 ユーザーによる映画の5段階評価データセットのこと。

ソースコードはこちらに公開されています。

こちらは1からスクラッチでモデルを学習させる必要があり、24GB以上のGPUが必要です。

InteRecAgent

こちらは、2023年にMicrosoftが開発したモデルになります。(論文はこちら)

LLMを推薦エンジンそのものではなく、既存の推薦エンジンや検索ツールを自在に操る「脳」として活用するエージェント指向のフレームワークで、前章の「タスクレベルでの進化」に該当します。ActionPieceやHSTUのように新しくモデルを学習させているわけではなく、既存のLLM(GPT-4など)をレコメンドタスクに応用したフレームワークです。既存のLLMの対話・論理力を活かしつつ、レコメンドの正確性は専用ツールに任せて役割分担をすることにより、次世代の対話型推薦を実現します。専用ツールはSQLの作成(発売日や価格などを調べる機能)、アイテムの検索(調べた結果を条件にしてアイテムを絞り込む機能)、ランキングの計算(絞り込まれたアイテムをユーザーの好みに合わせて順位をつける機能)に分かれています。

技術的特筆点は、「Shared Candidate Bus」というメモリ機構です。アイテムの膨大なリストをテキストとしてLLMに流し込むのではなく、ツール間で共有される「バス」に候補を保持させることで、トークン制限を回避し、対話を止めずに数千件規模の候補を絞り込めるようになりました。

技術的メソッド

  • Shared Candidate Bus: SQL検索、ItemCF、Rankerなどのツール間でのアイテム候補受け渡しを仲介します。
  • Plan-first Execution: 最初にツール呼び出しの全体計画を立ててから実行し、応答遅延を最小化します。
  • Actor-Critic Reflection: 生成された計画の妥当性を別のLLMが評価し、自己修正する仕組みです。

実験と結果

  • 使用データ: Steam、MovieLens、Amazon Beauty
  • 比較手法: GPT-4単体、ChatGPT、Chat-Rec等。
  • 評価指標: Hit@K(対話成功率)、平均対話ターン数。
  • 結果: すべての指標でLLM単体を凌駕しました。特に専門知識が必要な化粧品のドメインで、ハルシネーションを抑えつつ正確な推薦を維持することも確かめられました。

ソースコードはこちらに公開されています。

こちらはGPT4(またはGPT4o-mini)をAPIで呼び出して使用することができるので、動かす環境はCPUのみでも可能です。実際にこちらをローカルのPCで動かしてみました(日本語で出力するように元コードのシステムプロンプトを修正しております)。

これらは入力しているデータがMovieLensですので、その中からレコメンドするようにしてくれています。このように、実際にあるアイテムリストを参照しながら対話型レコメンドを行えることもこのシステムの特徴です。

まとめ:生成的推薦の可能性と実装への課題

「生成的推薦」へのパラダイムシフトにより、推薦システムは単なるスコアリングとリスト提示の道具から、アイテムの持つ意味やユーザーの文脈を深く解釈できる推薦エンジンへと進化しました。これにより、ActionPieceが提唱する「属性の集合」としてのアイテム理解や、HSTUが実証した「スケーリング則」による高精度な予測、そしてInteRecAgentのような会話型のレコメンドシステムが実現しました。これらにより、膨大な新商品が投入されるプラットフォームでのコールドスタート問題の解決や、ユーザーの曖昧な言語的要求に応えるなど、より広範なシーンでの社会実装が期待されます。

一方で、実運用に向けては生成AI特有のコストや計算リソースが課題となります。今回紹介したHSTUのような大規模モデルのスクラッチ学習には膨大なGPUパワーが必要ですし、InteRecAgentのようなエージェント型ではAPIの推論コストやレスポンスの遅延(レイテンシ)を考慮しなければなりません。精度の向上と運用コストのトレードオフをどう見極めるかが、次世代レコメンドをビジネスに組み込む際の鍵となるでしょう。


このページをシェアする

あなたにオススメの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine