連載

生成AIをビジネス活用するための鍵とは？

生成AI/LLM

執筆者

小澤昂

久津見祥太

公開日

2024.03.13

更新日

2024.04.03

こんにちは、株式会社ブレインパッドアナリティクスコンサルティングユニットの小澤、久津見です。

生成AI (Generative AI) は、テキスト、画像、音声、音楽など様々なコンテンツ生成が可能で、世界中から注目を集めています。特に、ChatGPTなどで利用されている大規模言語モデル (Large Language Models, LLM) は、まるで人間のような言語理解能力と自然な言語生成能力で知られ、ビジネスシーンでの活用も積極的に検討されています。

カスタマーチャットボットや法律文書自動生成など専門領域での応用においては、特定の業界や分野（以下、ドメイン）に特化した生成AI（特にLLM）の開発が不可欠です。また、ドメインに特化したLLMの運用に先立って信頼性の評価が極めて重要です。そのためには専門用語理解、タスク遂行能力、倫理的観点などを正確に測定できる独自の評価フレームワークの構築が求められます。

ところが、昨今の生成AI技術の進化の速さもあり、評価フレームワーク構築について議論が追い付けていないのが現状です。正確な評価の欠如は、AIによる提案や意思決定補助が人間のニーズや倫理基準と乖離し、重大なインシデントを引き起こすリスクとなります。

本連載では数回にわたって、

ビジネス活用を視野に入れたLLMのドメイン特化の必要性や役割
LLMの評価において必要な観点や評価プロセス
従来手法と比較した最新のLLMの評価技術

などについて、ビジネスリスクや現在直面している課題・最新の研究と併せて詳しくご紹介します。

本連載の一本目である本記事では、LLMのドメイン特化の必要性と課題、そして評価アプローチの概要について詳しく解説します。

本記事の執筆者

データサイエンティスト

小澤昂

Takashi Ozawa

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

金融業界でのクオンツ・データサイエンティスト職を経て2022年からブレインパッドに参画。入社後はWeb広告業界の営業向けにデータ分析を実施し、営業の最適化システムを開発。その後は金融業界育成伴走支援やLLMの研究・開発プロジェクトに従事。現在はLLMの評価方法に関する調査・研究および開発を担当。
データサイエンティスト

久津見祥太

Kutsumi Shota

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

数理統計学を専門に修士課程修了後、2023年にデータサイエンティストとしてブレインパッドに新卒入社。ID-POSデータを用いたマーケティングDX支援や、LLMの評価方法に関する調査・研究プロジェクトに従事。

本連載の記事一覧

ビジネスにおける生成AIのドメイン特化

ChatGPTのように一般ユーザーが利用できるLLMサービスの基盤モデルは、法律や医療などのドメインに特化していないため、専門知識を要するタスクには対応できません。そのためビジネス活用においては、特定ドメインに特化したLLMが必要となります。

ドメイン特化型LLMの具体的な活用例としては以下のようなものがあります。

■人材業界に特化：ChatGPTを利用し360万件以上の転職口コミ情報を要約するシステムを開発
転職口コミサイト『転職会議』、ChatGPTのAIを活用した企業口コミの要約情報を提供開始

■旅行業界に特化：ChatGPTを利用した外国人観光客向けの多言語AIチャットボット開発
訪日外国人や越境EC事業者をサポート！Chat-GPT (GPT-3) をインバウンド施設、越境EC向けにAI学習させた「多言語チャットコマース」のサービス提供を開始

■自動車業界に特化：会話による音楽再生・訪問先の情報提供可能なChatGPT搭載自動車の開発
メルセデス・ベンツ、アメリカでChatGPTを車に試験搭載

これらのドメイン特化型LLMの活用は、業務効率化だけでなく、顧客満足度の向上、新たなビジネス機会の創出、そして競争上の優位性確保にも大きく貢献します。

また、ドメイン特化を達成する手法としては様々な方法が研究および提案されています。

ドメイン特化の手法	概要	参考URL
Fine-Tuning	追加学習によりドメイン知識を学習させる	社内文書に特化したChatGPT　ファインチューニング実践編
Instruction Tuning	追加学習によりタスクの解き方を学習させる	GPT-4登場以降に出てきたChatGPT/LLMに関する論文や技術の振り返り
Prompt Engineering	プロンプトに指示の詳細を与えながら出力の最適化を行う	プロンプトエンジニアリングの基本と応用 OpenAIのHPより – Prompt engineering
Retrieval Augmented Generation (RAG)	ユーザーからの質問に対して外部データを基に回答を生成する	プロンプトエンジニアリング手法外部データ接続・RAG編
Reinforcement Learning from Human Feedback (RLHF)	人間からのフィードバックを用いた強化学習を行う	ざっくりわかるRLHF（人間からのフィードバックを用いた強化学習）

ビジネス活用を成功させるための課題

KPIに基づく評価基準の設定の難しさ

ドメインに特化したLLMを成功させるためには、複数のKPIを基にした多面的な評価が欠かせません。QAチャットボットを例にとると、回答の精度や速度だけでなく、ユーザー満足度や倫理面、バイアスへの考慮なども必要です。

多方面への考慮が必要となってくるため、専門家、エンドユーザー、ビジネスリーダーなど各ステークホルダーの認識や意見のすり合わせも必要となります。Sun et al. (2024) では、LLMの信頼性を評価する観点を8つに分類し、それをさらに細分化しながら評価方法について考察しています（詳しくは次回の記事で）。このように、様々な観点による評価の必要性がLLMのビジネス活用における大きな課題となっています。

評価用データセットの作成コスト

ドメインに応じたLLMの学習や評価には、高品質なデータセットが不可欠です。まず、ドメイン固有の言語パターン、専門用語、文脈やニュアンスを含んだ文章を収集する必要があります。データを収集した後、評価用データセットとして用いるには、正解データの作成が必要になります。LLMの場合、翻訳や要約タスクなど、唯一無二の正解データを作成するのが難しいタスクがほとんどです。高品質な正解データを用意するには、そのドメインに特化した専門家や複数人による正解データの作成が必要なため、工数の掛かる作業となります。

反復テストと調整

一般的な機械学習モデルの活用や分析モデルの活用と同様に、ドメイン特化したLLMの活用においても性能改善のための反復的なテストや評価、及びその結果を受けたモデル改善が必要となります。

一方で、自然言語の性質上LLMの入出力に対する定量的な評価は難しく、機械学習の一般的な定量的評価指標（Precision, Recall, F1スコアなど）だけでは評価しきれないことがあります。Liu et al. (2008) によれば、定量的評価指標の結果と人間の好みの相関関係は低いことが指摘されています。またLLMの評価用ベンチマークが多数公開されているものの、汎用的なデータセットが多く、実際のビジネスではより特定タスクに絞られたデータセットが必要になります。そのため、最終的には専門家による人力評価が必要になることが多く、性能改善のために高品質な反復テストを行うには多大なコストや工数が掛かることが大きな課題となっています。

ビジネス水準で使うために必要な評価アプローチ

ここまで述べてきたように、ドメイン特化型LLMの活用はビジネスにおける競争上の優位性確保の大きなチャンスとなり得る一方で、多くの課題も残されており、特に評価部分において莫大なコストが掛かりがちです。

シンプルなLLMの評価方法としてROUGEやBLEUといった古典的なマッチングベースの評価などがあります。ところが、どの手法も単語レベルでのPrecisionやRecallといった正解との差分に焦点を当てた評価しかできないため、ビジネス上の判断で用いるのは難しいでしょう。Chang et al. (2023) でも紹介がある通り、近年はLLM評価用ベンチマークも数多く提案されています。しかし、Rakuda ベンチマークでも指摘がある通り日本語専用のベンチマークが少ない問題に加え、実際のビジネスで使うデータと近い分布のデータセットでの評価ではないため、ベンチマークによる評価結果をビジネス上で過度に信用するのは危険です。

最近では、コストを掛けずに出来るだけ高品質な評価を得る方法として、LLMによる出力の自動評価機能の構築が多く提案されています。

評価指標、ベンチマーク、LLMによる自動評価など具体的な評価方法は次回以降の記事でご紹介します。

図１：LLMによる自動評価のイメージ。被評価LLMの出力を評価LLMが評価している。

Kocmi and Federmann (2023) や Zheng et al. (2023)など複数の研究によれば、専門家による評価とLLMによる自動評価の間には高い相関性があることが明らかとなっています。とはいえ、そのほとんどは特定のベンチマークによる検証のみが行われていることが多いため、ビジネスで活用する際のデータセットでも同様に高品質の結果が得られるとは限りません。実際にビジネスでLLMを活用する場面では業種・業務ごとの細かいレベルで工夫が必要になるでしょう。

LLMによる自動評価技術がドメイン特化に強いとはいえ、業種、企業、業務レベルの細かい粒度まで対応しているとは言えません。実際には各業界・業種・企業ごとに評価するタスクや評価観点の重要性は異なります。単純にLLMに自動評価させるだけではなく、提案手法を参考にしながらも業務環境にあったプロンプトへの書き換えや評価観点の優先順位付けなど、より実用的な視点でLLMを評価する姿勢が重要になるでしょう。

まとめ

LLMのビジネス活用においては、特定ドメインへの特化が必要でした。社内チャットボット、カスタマーサポート、文章自動生成ツールなどへの適用により、業務効率化や顧客満足度の向上が期待できます。しかし、これらの成功はLLMの信頼性が担保されていることが前提です。LLMの各タスクにおける評価指標やベンチマークが数多く提案されているものの、どのような評価方法もこれまで紹介した信頼性のごく一部しかカバーすることができません。また新たな評価方法としてLLMによる自動評価なども提案されており、LLMの出力を改めてLLMに問いただすことで様々な観点を考慮することができます。一方で、実際のビジネスでLLMによる自動評価を適用するにはKPI（評価観点）の設定やそれに応じたLLMプロンプトの調整、結果の解釈やそれに応じたモデルの改善などが必要であり、多くの工数が必要です。

LLMの信頼性の評価は非常に複雑で難しく、KPIに基づいた評価指標の設定と、様々な観点からの評価サイクルの確立が不可欠です。LLMのビジネス活用に向けて抑えておくべきポイントに注意を払いながら、安全に利用していく必要があります。次回のブログでは、LLMの信頼性を担保するために必要な様々な評価観点についてご紹介します。

本連載の記事一覧

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内