メルマガ登録
第5回(前々回)で生成AIについてビジネス的な観点から、その活用と注意点に関して論じましたが、そもそも生成AIとは、どのような仕組みとなっており、それを活用して何が実現できるのでしょうか。今回の記事では、ブレインパッドのフェローの2名が、生成AIの仕組み、生成AIモデルの中でも生成品質や学習安定性の面で優れているといわれる拡散モデルの概要と適用事例を紹介するとともに、今後の発展についても考察していきます。
株式会社ブレインパッド・角谷 督(以下、角谷) 最近、生成AIを使ったサービスが散見されるようになりましたが、生成AIがどのように画像などを生成しているのかがわかりづらいというお話を耳にします。そこで、本記事では、まず簡単にその仕組みを説明したいと思います。
株式会社ブレインパッド・山崎 清仁(以下、山崎)できるだけ数式なしで、簡潔にお願いします。
角谷 はい。まずは生成AIの仕組みの概略を例を挙げてみてみましょう。たとえば、画像生成について考えます。ある画像があったとして、その画像の各点の点データに関する確率分布がわかっているとします。そうすると、その確率分布を使ってデータをサンプリングすることで当該画像に似通った新たな画像を生成することができます。これは、画像を生成する仕組みを非常に単純化して表しています。そして、この確率分布をAIによる学習であらかじめ得ておくことで、文脈などの指示から画像生成ができるというのが生成AIのざっくりとした仕組みとなります。
山崎 なるほど、単純化すると分かりやすいですね。では、その確率分布を得るにはどうしたらよいのでしょうか。
角谷 分布にはパラメータがあるわけですが、これが不明ということになります。想定するパラメータがある値をとる場合に観測している事柄や事象が起こりうる確率を尤度(ゆうど)といいますが、実際のサンプルデータがあれば当該データを用いて尤度を最大にするようなパラメータを逆に求めることができます。データが多く集中している領域は、当該領域で確率密度が高くなるはず、ということです。
山崎 画像データには複雑な構造や非線形な特徴が多く含まれていて、そのパラメータを推定すること自体が単純ではないですよね。
角谷 はい。この推定するためのモデルには、様々なAIのモデルがあります。モデル化する際には、この複雑な特徴を表現できることが必要になります。今回は、その中で拡散モデルを取り上げたいと思います。
山崎 この記事のシリーズの第一回で当社でリサーチしている領域のひとつとして「拡散モデル」を挙げられていましたが、その内容を詳しく解説していただけますでしょうか。
角谷 拡散モデルは、元の画像データに少しずつノイズを加えるという順拡散プロセスと、ノイズを除去してデータを復元するという逆拡散プロセスによって学習する生成モデルです。順拡散プロセスの目的は、画像や音声サンプルなどのサンプルデータをノイズに変換することです。データ分布全体がノイズになるまで、ガウス・ノイズを繰り返し加えていきます。データ分布全体がノイズになるということは、データが意味のないものになっていくことを示しています。この“意味がないデータ”から元の画像が復元できるということは、画像の特徴や構造を理解したということを意味します。
山崎 データが持っている「本来の意味」や「抽象的な概念」を理解していれば、詳細な情報が不足していても元のデータに近い形への修復が可能という理屈ですね。
角谷 そうです。順拡散プロセスにおいて、ノイズを追加していくのですが、この段階的なプロセスはマルコフ連鎖として定式化されます。簡単に言うと、画像データはノイズを付与する直前の画像データにしか影響を受けません。データには逐次ノイズが追加されていくわけですが、再スケーリングしてサイズを一定にしています。十分にガウス・ノイズが付与されると、データ分布全体はガウス・ノイズに収束します。これを復元する過程を学習するのが逆拡散プロセスです。ですから、順拡散プロセスにおいては、ガウス・ノイズを付与するだけなので、学習は行われません。

山崎 つまり(1)順拡散プロセスで全体がガウス・ノイズとなるまでノイズを付加していく、(2)ノイズとなったデータから逆拡散プロセスでノイズを予測・除去することで、元のデータの構造を学習する、ということですね。VAE(Variational Auto-Encoder)※1やGAN(Generative Adversarial Networks)※2と比較したときの特色は何でしょうか?
※1 VAE:Variational Auto-Encoderの略。入力データはエンコーダと呼ばれるニューラルネットワークによって、データの抽象的な特徴を表現する低次元の空間に圧縮する。圧縮された確率分布からデータをランダムにサンプリングすることで新しいデータを生成する。
※2 GAN:Generative Adversarial Networksの略。互いに競合するふたつのニューラルネットワークのシステムによって実装される生成モデル。
角谷 学習プロセスではノイズベクトルの予測問題を解くということになりますので、対数尤度の最大化という最適化問題が、その学習内容になります。結果として、学習が安定していることが主張されています。
VAEやGANとの比較に関して、もう少し詳しく解説させてください。VAEは、エンコーダによる潜在空間への圧縮とデコーダによる再構成をする仕組みを持ちます。この潜在空間へのマッピングによって画像の詳細な情報が失われることがあり、画像品質の劣化が生じます。その一方、GANは高品質な画像が生成できるといわれていますが、課題もあります。GANは敵対的学習を採用しています。GANの敵対的学習は、実際のデータと似たデータを作る「生成器」と、そのデータが本物か偽物かを見分ける「識別器」のふたつの部分で構成されています。学習が失敗すると識別機に本物と判断されるように類似した画像ばかりが作成されるという「モード崩壊」という現象が生じることが知られています。このような現象が生じると、生成画像の多様性が失われることになってしまいます。
つまり、VAEと比較すると拡散モデルは逐次的なノイズ除去(denoising)により、ディテール面で品質の高い画像が得られることが知られています。また、GANとの比較では、拡散モデルはモード崩壊が生じないため、生成画像に多様性のある学習が安定的に可能です。そのため、応用範囲も広く、当社でも注目しているモデルになります。
山崎 逆拡散におけるノイズ予測において最適化学習(ノイズ予測のための尤度最大化)が行われるということですね。実際に、新たな画像を生成するには、どうするのでしょうか。
角谷 学習モデルは、画像の特徴や構造を理解していると捉えることができるので、ガウス・ノイズから学習モデルによって新たな画像を作ることができます。様々なガウス・ノイズに学習済みモデルを適用すれば、異なった類似画像を生成することが可能となります。
山崎 なるほど、様々なノイズを用意すれば、大量の類似画像を瞬時に作成できるということですね。我々の分析プロジェクトでは、テーブルデータを扱うことも多いと思いますが、画像データだけではなく、テーブルデータにも拡散モデルへの応用は考えられるのでしょうか?
角谷 良い視点です。画像データだけではなく、テーブルデータでも多様性のある新たなデータを生成できるので、様々なシナリオをシミュレートすることが考えられます。具体的には、金融分野ではストレステストなどに応用できると考えています。ストレステストとは、株価の暴落や金利の高騰など、金融市場における不測の事態を想定し、ポートフォリオの損失を見積もるためのシミュレーションを指します。金融機関が保有する様々なアセットの価値変動を学習させ、もし、金利が急騰したらその他の資産価値がどのように変化するかを学習結果から生成することができます。
山崎 それは既存のやり方とどのような点が異なるのでしょうか?
角谷 資産間の価値変動の関係を過去データから学習するという点では、旧来の古典的な方法と同じです。ただ、旧来は低次のモーメント(平均や分散など)間の関係を学習してシミュレーションするという方法が主流であったので、テールリスク※3を捉えようとすると、突発的で不連続な変化(Jump Diffusion※4) を明示的に仮定する必要がありました。拡散モデルでは、過去データにテールリスクが生じた事象なども含めてモデルの学習対象となるため、明示的にJump Diffusionを組み込むことなく、シナリオを生成出来ることが期待されます。他の生成モデルでもテーブルデータの生成は可能ですが、拡散モデルは上述したように多様性のあるデータが安定的に生成できるという点で、扱いやすいモデルと言えると思います。
※3 テールリスク:発生確率は非常に低いものの、実際に発生すると甚大な影響を及ぼすリスクのこと。
※4 Jump Diffusion:ここでのDiffusionは拡散過程を表現する確率過程という意味では拡散モデルのDiffusionと同義であるが、モデルの目的が異なっていることには注意。前者は株価変動を拡散過程で扱うが、後者はノイズを加えてデータを破壊する過程を拡散過程で扱う。
山崎 そうすると、事実とは反対の仮定をするような「反実仮想状態」もシミュレーションができると思われますので、応用分野は広がりますね。
角谷 そうなんです。マーケティング分野では、ABテストをシミュレーション上で実行することができます。交絡因子※5によるバイアスに関しても、傾向スコアで損失関数を重み付けすることで調整できるので、因果推論の効果推定にも正確性が期待できます。
※5 交絡因子については「ビジネスを取り巻くAI・DXの現状と未来~第4回 データ分析の進め方(データサイエンティストの視点)」に解説されています。
山崎 実際に、データを用いた実証研究をしているということですが、どのような結果になっていますか。
角谷 実証研究では、私はアドバイザーとして関わっています。メインでは、同僚の社員が研究成果をまとめておりますので、ぜひ、次回はその内容を報告したいと思います。
山崎 ぜひ、お願いします。どのような成果が出ているのかを見るのが楽しみです。
【関連記事】
ビジネスを取り巻くAI・DXの現状と未来~第1回 現状と課題
あなたにオススメの記事
2023.12.01
生成AI(ジェネレーティブAI)とは?ChatGPTとの違いや仕組み・種類・活用事例
2023.09.21
DX(デジタルトランスフォーメーション)とは?今さら聞けない意味・定義を分かりやすく解説【2024年最新】
2023.11.24
【現役社員が解説】データサイエンティストとは?仕事内容やAI・DX時代に必要なスキル
2023.09.08
DX事例26選:6つの業界別に紹介~有名企業はどんなDXをやっている?~【2024年最新版】
2023.08.23
LLM(大規模言語モデル)とは?生成AIとの違いや活用事例・課題
2024.03.22
生成AIの評価指標・ベンチマークとそれらに関連する問題点や限界を解説