ビジネスを取り巻くAI・DXの現状と未来~第8回 生成AIの応用研究

公開日
2026.02.02
更新日
2026.02.02

第7回(前回)で生成AIのひとつである拡散モデルの概要と適用事例を紹介しました。今回の記事では、既存の応用研究を再現しつつ、実際のビジネス面での活用を想定して議論・考察します。生成AIは画像生成や動画生成に関してはメディアで取り上げられることが多く、広く知られていると思われますが、それ以外の用途が一般的に取り上げられることは少ないのが実情です。本連載では、弊社での応用研究に携わった社員を交えて、より具体的な将来の課題についても考えていきたいと思います。

本記事の執筆者
  • 経営
    山崎 清仁
    Yamazaki Kiyohito
    会社
    株式会社ブレインパッド
    所属
    ソリューションユニット付
    役職
    エグゼクティブフェロー
    名古屋大学理学部卒業。SI会社、ベンチャー企業を経て、OSSを活用したSaaS事業で創業を経験。2019年よりブレインパッドに参画。2023年7月より同社上席執行役員としてプロダクト事業運営を担う。IPA未踏ターゲット事業の2018年度量子アニーリング部門、2019・2020年度量子ゲート部門の採択と3年連続の採択経験を有する。2025年7月より現職。
  • データサイエンティスト
    角谷 督
    Kadoya Susumu
    会社
    株式会社ブレインパッド
    所属
    事業・管理ユニット
    役職
    フェロー
    東京理科大学理工学部情報科学卒、同工学研究科経営工学専攻博士課程修了、博士(工学)。金融機関向けコンサルティング会社でのコンサルタント(信用リスクやマーケットリスク分析、ALM構築等)、ラッセルインベストメント、ブラックロックジャパン等でのクォンツ(ヘッジファンドストラテジー、マルチアセット分析等)を経て、2012年にブレインパッドに参画。卓越したデータマイニング、機械学習、モデリング技術を有し、人数・スキルレベルともに国内有数の当社データサイエンティスト組織を統括した経験があり、現在はプロジェクト等の品質管理やリサーチに従事。論文に"Contrarian investment strategy with data envelopment analysis concept" (European Journal of Operations Research,Vol189(1))等がある。 2023年7月より現職。
  • データサイエンティスト
    平田 直樹
    Hirata Naoki
    会社
    株式会社ブレインパッド
    所属
    アナリティクスコンサルティングユニット
    大学院修士課程修了後、2024年にデータサイエンティストとしてブレインパッドに入社。これまでに、マーケティング領域にて商品購入・満足度を予測する機械学習モデルの構築を通じた分析支援や、拡散モデルをデータサイエンス領域に応用することを目的とした応用研究などに従事。

ブレインパッドでの応用研究

株式会社ブレインパッド・角谷 督(以下、角谷) 今回は、拡散モデルの応用研究に携わった弊社の若手社員を交えて、応用研究の結果やそこから示唆される活用方法や将来の課題について議論していきたいと思います。まずは、今回の研究では、ふたつのテーマを扱っています。ひとつがテーブルデータの生成精度の検証であり、ふたつ目が因果推論に関する適用事例の実証研究です。ここで、ひとつ目の研究に携わった弊社の若手データサイエンティストを紹介します。平田さん、簡単に自己紹介をお願いします。

株式会社ブレインパッド・平田 直樹(以下、平田)はい。2024年にデータサイエンティストとして入社した平田 直樹です。 大学・大学院では素粒子理論物理学を専攻しており、その延長としてデータや数理を扱う仕事に関心を持ち、入社しました。 入社後はマーケティング分野にて、機械学習モデルの構築を通じ、ユーザーの購入促進や満足度向上につながる施策を検討する分析業務に従事してきました。現在は、拡散モデルなどの深層学習技術をデータサイエンスの現場で活用していくことに関心を持っています。本日はどうぞよろしくお願いいたします。

株式会社ブレインパッド・山崎 清仁(以下、山崎)平田さん、よろしくお願いします。早速ですが、実際にはどのようなテーマで研究をされたのでしょうか?

平田 はい。私が取り組んだテーマは表形式データの生成に関するものです。拡散モデルは汎用的なデータ生成技術ですので、この記事を通して、様々な応用分野への広がりを感じてもらいたいと思っています。

山崎 データ生成というと、単純なデータのコピーとは違いますよね。コピーとは、何が異なるのかを簡単に説明してもらえますか。

平田 そうですね。コピーとの違いは、オリジナルデータに共通する特徴を備えながら、元データとは異なる新しいデータを生成するということです。例えば、人の顔であるなら、目や口、鼻の配置はおおよそ共通ですが、それぞれの形には個々人の固有の特徴があります。生成AIでは共通の特徴は保持しながら、固有の要素を新たに生成して、オリジナルとは異なるデータを生成するということになります。

山崎 今回は表形式データを使った実証研究ということですが、表形式を扱った理由について教えてください。

平田 表形式におけるデータ生成では、古典的なやり方としては、モンテカルロシミュレーションなどがあります。様々な分野で使われている手法ですが、古典的な方法と拡散モデルではどのような違いがあり、その有用性は何かというところを明確にしたいという意図がありました。

角谷 モンテカルロシミュレーションは、金融分野でも多用されてますよね。古典的な方法では、過去データを用いて相関構造を保ったまま、シナリオとなる資産収益率データを大量に生成して、VaR(99%タイル点などのテールリスク)を推定したりします。さきほど説明していただいたデータの共通の特徴としては、資産の期待値や資産間の共分散などの1次、2次モーメントとなりますので、それを保ったまま様々な資産の収益率シナリオを新たなデータとして生成することになります。拡散モデルで扱うデータの共通の特徴とは、どのようなものになりますか。

平田 拡散モデルでも統計的な性質は結果的に忠実に再現されていると思いますが、明示的にモーメントマッチング(新たに生成されるデータの期待値や分散などをオリジナルデータに一致させること)するわけではありません。データ構造全体を学習するので、尖度や歪度などのより高次の統計的性質も保たれる可能性があり、より正確なモンテカルロシミュレーションが実現できると思われます。

角谷 なるほど。高次のモーメントまで一致させた複数の乱数を生成するのは大変ですが、AIでデータ構造を学習してしまえば、結果として統計的な性質は満たされたデータが生成されているであろうと推測できるということですね。

平田 はい。ですから、テールリスク管理を目的としてシミュレーションするなら、拡散モデルで生成されたデータのほうが有用である可能性は高いと思います。


TABSYNを用いた検証と評価

山崎 問題意識は理解しました。それでは、今回の具体的な検証内容について教えてください。

平田 今回は、拡散モデルを使って表形式データを生成するTABSYN※1を用いて検証しました。実証研究の詳細は拡散モデルのデータサイエンスへの応用事例で公開しているので、そちらを参照してほしいのですが、簡単に研究デザインについて説明します。まず、元データとして表形式のデータを用意します。そして、TABSYNを用いて、当該データの構造を学習し、その学習モデルから新たなデータを生成することになります。その評価は、

  1. 生成データが元データの統計的性質を忠実に再現できていること
  2. 生成データが元データに含まれるレコードと類似したレコードを含んでいないこと
  3. 生成データを使って学習した機械学習モデルの性能が、元データで学習した場合と比べて劣化していないこと

としました。

※1 参考文献:H. Zhang et al., Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space. In Proc. ICLR, 2024; arXiv:2310.09656

角谷 評価項目ですが、1と2以外に3も必要となるのでしょうか。

平田 そうですね。1で統計的性質を調査していますが、統計的性質を表す指標を選択・定義すると、それ自体が恣意的になってしまうという批判が考えられます。そのため、様々な機械学習モデルを用いて、元データと新たに生成したデータ間で学習モデルの性能が低下していないことを示すことも重要と考えたからです。

山崎 検証結果からどのような知見が得られたのでしょうか。

平田 統計的性質が近いことを示すために、オリジナルデータと生成データ間で、分布の比較をしています。また、複数のデータ項目間で相関係数も比較しました。結果、分布の裾野の広がりも再現できており、生成データは元データの平均や分散だけでなく、より高次のモーメントまで表現できていると思います。

山崎 2つの分布を比較して、近似していることを示すためにQ-Qプロット(Quantile-Quantile Plot)を使ってますね。簡単に説明してもらえますでしょうか。

平田 はい。Q-Qプロットは、2つの確率分布の分位点を比較するための手法です。一方の分布の分位数をx軸に、もう一方の分布の分位数をy軸にプロットし、散布図として表示します。2つの分布の分位点が一致していれば、斜め45度の直線状にプロットされます。例えば、ある分布が正規分布に従っているかどうかを調べたい場合、X軸に標準正規分布の理論値を取り、Y軸にサンプルデータを標準化した値を取ることになります。(下図参照)

図1.X軸=標準正規分布の理論値、Y軸=サンプルデータを標準化した値

図では、両端で45度線から大きく外れているので、分布の裾野の広がりが正規分布とは異なっていることがわかります。経験分布同士を比較するときは、理論値はわかりませんので、分位数同士を比較することになります。

山崎 なるほど。特定の分位数を選択して比較するのではなく、全体を視覚的に確認できるのですね。

平田 はい。今回の実験で得られたQ-Qプロットの例を以下に示します。

図2. Adultデータを使ったTABSYNによる生成データと元データのQ-Qプロット
〈左図:age(年齢)、右図:education_num(教育レベル)〉

図は、年齢と教育年数の変数分布の例です。X軸にオリジナルデータ、Y軸に生成データの分位の値を取っています。値が一致すれば、45度線上に完全に一致することになります。当該図のプロットが概ね対角線上にあり、再現性が高いことがわかると思います。

角谷 うまく生成できていそうですね。では、次に機械学習モデルによる精度劣化の評価の具体的な検証方法と評価結果を教えてもらえますか。

平田 機械学習モデルによる検証は、オリジナルデータを学習データとテストデータに分離し、学習データだけを使って生成AIモデルで新規の学習データを作りました。オリジナルの学習データで学習したモデルと生成した新規の学習データで学習したモデルを、同一のテストデータに適用して精度を比較することで、精度の劣化が生じていないかどうかを確認しました。同時に、拡散モデル以外の複数の生成AIモデルに関しても同様の検証をしました。

結果としては、オリジナルのテストデータの結果が最も精度が高く、その次が拡散モデルでした。当該実験の結果だけから判断すると、生成AIとしては、拡散モデルがオリジナルデータをよく再現することができていたといえると思います。(下図参照)

図3.Realがオリジナルのテストデータを適用した場合の予測項目ごとの精度(AUCとRMSEで評価)、最終列のTABSYNが拡散モデルによる生成テストデータを用いた精度。

※H.Zhang et al., Mixed-Type Tabular Data Synthesis with Score-based Diffusion in Latent Space, 2024 から引用

角谷 生成AIモデルの中で、拡散モデルの精度が優れているのは理解できましたが、オリジナルのデータと比較すると少し劣化しているようですね。この劣化度合いが、推定誤差の範囲内といえるかどうかという点に関しては如何でしょうか。

平田 おっしゃられた件に関しては、オリジナルデータのテストデータを複数用意して、拡散モデルで生成したテストデータも加えて、それぞれに対して機械学習モデルの精度を比較することが必要ですね。今回は、そこまで詳細な実験は実施しておりませんが、今後その観点でも実験してみたいと思います。


現場での活用シーンと今後の展望

山崎 今回の実験は、既存の論文を再現したものと聞いていますが、研究における苦労や工夫に関しても教えてもらえますか。

平田 はい。工夫した点としては、生成データの統計的な評価だけでなく、データサイエンスの現場での活用を想定した評価項目を設定したことです。具体的には、1.クライアントの秘匿性が高いデータを生成データ(ダミーデータ)に置き換えてPoCを行うこと、2.不均衡データ予測におけるオーバーサンプリング手法として利用すること、の2つの活用シーンを想定していました。 そのうえで、1.については、先ほどご説明したような機械学習モデルによる精度劣化評価を実施し、2.については、実務で広く使われているオーバーサンプリング手法であるSMOTEと比較しながら、生成データの品質検証を行いました。

角谷 前述した金融機関におけるVaRの推定などの応用事例が考えられると思うのですが、その点に関しては、どのように考えていますか。

平田 そうですね。例えば、リーマンショックが生じたときに、VaRの推定がどの程度の予測精度を保ち得るのかを調べたいと思ったときに、学習データとテストデータに分離するとデータ量が不足するような事態も考えられます。その際、生成AIのような技術があれば精度の高いデータを人工的に作り出すことができます。もうひとつの研究テーマである因果推論の研究と組み合わせれば、ストレステスト(市場に不測の事態が発生した場合を想定して、ポジション損失の度合いをシミュレーションして確認する検証方法)にも応用できると思います。今後、金利が急騰すれば、株価がどれほど影響を受けたりするかなど、仮想現実をシミュレーションすることができます。金融分野だけに関わらず、マーケティング分野においてもレコメンド施策を提示した場合、顧客の購買行動がどのように変化するかをシミュレーションするなどの適用も面白いと思いますね。

山崎 今回は、平田さんを招いて、生成AIのモデルのひとつである拡散モデルを用いて、研究結果を説明させていただきました。研究テーマとしては、もうひとつ、前述した因果推論もあります。次回はそちらのテーマに関しても、実証分析結果をご紹介し、今後の実社会への適用可能性を議論していきたいと思います。次回も実際に研究を推進した若手データサイエンティストを交えて、議論を展開したいと思います。平田さん、今後も面白い研究成果が出れば、ぜひお話ください。

平田 はい。ぜひお願いします。

山崎 今回はご参加いただき、ありがとうございました。


このページをシェアする

あなたにオススメの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine