生成AI/LLM技術最新トレンド｜①ついに公開！新たな「GPT」「Gemini」の進化 ②話題のアーキテクチャ「KAN」のご紹介 ③AlphaFold3公開

生成AI/LLM

執筆者

崎山栞里

公開日

2024.06.06

更新日

2024.09.04

ビジネスパーソンが押さえておきたい「生成AI/LLM技術最新トレンド解説」vol.3

みなさんこんにちは。アナリティクスコンサルティングユニットの崎山です。

2022年にChatGPTが登場して以来、LLM（LargeLanguageModels、大規模言語モデル）、およびGenerativeAI（生成AI）に関する技術革新が日々進み、それを取り巻く社会情勢もめまぐるしく変化しています。

これらの技術の社会実装に向けた取り組みや企業への支援を強化するため、ブレインパッドでもLLM/生成AIに関する技術調査プロジェクトが進行しており、最新トレンドの継続的なキャッチアップと情報共有を実施しています。

本連載では、毎週の勉強会で出てくるトピックのうち個人的に面白いなと思った事例・技術・ニュースをピックアップしてご紹介していきます。
※本記事は2024/5/20時点の情報をもとに記載しています

本記事の執筆者

コンサルタント

崎山栞里

SHIORI SAKIYAMA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

2021年新卒入社。コンサルタントとして、商社のBPR支援や金融業界の新規事業構想策定を実施。現在は生成AIの活用に向けた研究・開発プロジェクトに従事。

1. 最近公開された新たな生成AIモデルのご紹介

各社の研鑽により高性能なモデルやコストを抑えて開発されたモデルが多く発表されています。今回はその中で2社の取り組みをご紹介します。

GPT-4o（OpenAI）

多くの方が既に試されているかもしれませんが、5月13日に発表されたGPT-4oについてご紹介します。今回のアップデートでは、既存のGPT-4 Turboよりも英語以外の言語のテキスト出力能力が大幅に改善し、処理スピードが従来の2倍になったとのことで、しかも運用コストを従来の半分にまで抑えました。

また、OpenAIは同モデルの視覚と音声の理解能力の向上を強調しています。同日のデモでは音声会話の反応速度がほぼ人間同士の会話と同じレベルまで上がったことが発表されました。実際にGPT上で使えるようになるのは数週間先になるとのことで、試すのが今から楽しみです。

会話量は限られてしまいますが、現在は課金ユーザーでなくともGPT-4oに触ることができるようです。ぜひこの機会にモデルに触れて、その差を実感してみてください。特に無料公開されているGPT-3.5しか使ったことがなければ、より大きな進化を感じられるはずです。

【参考】ChatGPT

出典：https://openai.com/index/hello-gpt-4o/

Gemini 1.5 Flash（Google）

5月15日、Googleの生成AI「Gemini」の最新版であるGemini 1.5 Flashを発表しました。200万トークンもの情報を一度に扱えるため、例えば6万行のコードや2時間の動画を要約することができます。

トークン数で比較すると、4月に発表されたGPT-4 Turboの15倍の量を扱える計算になります。初期から画像や音声などを同時に扱えるマルチモーダルな生成AIとしてリリースされていたGeminiですが、より画像や音声の処理を素早く行うための土壌が整ったかたちになります。

生成AIモデルのトークン数比較 — 図出典：https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/#gemini-model-updatesより引用

また、Google社は開発者向け会議「Google I/O」にてAIアシスタント「 Project Astra 」を発表しており、披露された動画ではこのAIアシスタントがスマートフォン上のアプリやスマートグラスなど、一人一人が手元に専用のアシスタントを置くことができる未来を示唆しています。なおProject AstraにはGemini 1.5が搭載されているようです。

出典：https://blog.google/technology/ai/google-gemini-update-flash-ai-assistant-io-2024/#gemini-model-updates

さて、2社のモデルを踏まえ、生成AIは高性能であることはもちろんのこと、レスポンスの速さを含む「使いやすさ」が指標のひとつになってきたように思います。
ChatGPT、Gemini、Claude等文字/画像/音声等を一度に処理できるマルチモーダルな生成AIが標準になってきており、生成AIがスマートフォンに搭載される動きもあります。AIが人間と一緒に働く社会がすぐ間近に来ているのを感じます。

2. 話題のアーキテクチャ「KAN」のご紹介

改めて生成AIの定義を振り返ると、生成AIとは「膨大なテキストデータから言語のパターンを学習し、テキスト生成や要約などのテキストに関わるタスクを高い精度で行うことができる深層学習モデル」です。

この生成AI技術を支える深層学習においては、長らくMLPというアーキテクチャが用いられてきました。このMLPの代替になる新たな手法として、KANというアーキテクチャが提案され、話題になりました。

そもそも深層学習とは？

まず、深層学習とは機械学習のうち「ニューラルネットワーク」を用いて学習を行う手法です。ここで、ニューラルネットワークとは、人間の神経細胞「ニューロン」を模した機械学習アルゴリズムで、これらを何層も何層も重ねることで精度が向上すると言われています。

深層学習の最も基本的な手法であるMLP（ Multilayer perceptron、多層パーセプトロン）は、あるニューロンから次のニューロンへの出力の過程において、入力された値を活性化関数という関数を用いて変換・出力するような技術です。入力層と出力層の間に何層も「隠れ層」を持っており、この層をいかに多く持つかが精度向上のカギとなるわけです。

【関連記事】強化学習とは？これから学びたい人のための基礎知識や活用事例を紹介

「KAN」の特徴

論文ではMLPと比較したKANの特徴を以下のように図解しています。

Figure 0.1:Multi-Layer Perceptrons (MLPs) vs. Kolmogorov-Arnold Networks (KANs) — 表出典：同論文p1より引用

今回ご紹介するKANは、MLPと同じプロセスで入出力を行うのですが、違いは活性化関数がどこに配置されているかです。活性化関数がノード上（つまり隠れ層にあるひとつひとつのニューロン）に置かれているMLPとは異なり、KANはエッジ（つまりニューロンとニューロンを繋ぐもの）上に活性化関数を置くことで活性化関数自体を学習対象にし、結果として精度と解釈可能性に優れるようになりました。非常に難しい論文ですが、できるだけ平易にご説明します。

「KAN」の特徴は大きく3つあります。

1.数学的な論理に基づき設計された作られたニューラルネットワーク構造

KANはコルモゴロフ-アルノルド表現定理に着想を得て設計されています。非常にざっくりとした説明をすると、この定理は「任意の多変数関数は有限個の単一変数の関数の合成で表現できる」という定理です。この定理を応用し、複雑なニューラルネットワークを複数の活性化関数で表現しようとしたものがこのKANということでしょうか。

Figure 2.1:Our proposed Kolmogorov-Arnold networks are in honor of two great late mathematicians, Andrey Kolmogorov and Vladimir Arnold. KANs are mathematically sound, accurate and interpretable. — 図出典：同論文p3より引用

2.パラメータ効率がよい

KANはMLPよりも少ないパラメータで同等かそれ以上の精度を出すことができたそうです。深層学習においてはニューラルネットワークの層の深さが精度の良さに直結しますが、KANは活性化関数ひとつひとつをB-スプライン曲線として近似させていくことでニューロン数を増やしたり層を深くしたりせずとも精度向上させることに成功しています。

Figure 2.2:Left: Notations of activations that flow through the network. Right: an activation function is parameterized as a B-spline, which allows switching between coarse-grained and fine-grained grids. — 図出典：同論文p4 より引用

上記のFigure2.2の右側の図を見ていただくと、値を小さく区切って関数を表現することでΦという関数をより実際の曲線に近づけることを試みていることが分かるかと思います。

3.人間の目で見て解釈しやすい

KANでは、学習が終わった後に重要でないノードを削除し、さらに人間が既に知っている形に関数を近似させることで、人間が見て理解しやすい形に加工されます。

Figure 2.4:An example of how to do symbolic regression with KAN. — 図出典：同論文p12より引用

留意点

トレーニング速度の遅さが最大のボトルネックであると挙げられており、現在は同じパラメーターの場合KANはMLPの10倍遅いと言われています。ただしこの課題は将来的に改善されるとも論文では述べており、速度よりも解釈可能性や精度を重視するならKANが選択肢に入るかもしれません。

まとめ

実は既にKANを用いて学習されたモデルが発表されているなど、今後KANを用いて学習した生成AIが主流になっていく可能性はあります。ただし、技術的にも数学的にも未解決の部分が残ることや、生成AIの学習には膨大な時間がかかることからも、今すぐ代替されるものでもないことには留意が必要です。

【参考】KANを用いて学習したモデル

出典：https://arxiv.org/abs/2404.19756

3. AlphaFold3公開

生成AIと米Alphabet社傘下のDeepMind社から、タンパク質の構造の予測に長けたモデル「AlphaFold」のバージョン3が発表されました。アップデートにより、分子の構造や分子間の相互作用の予測などがより高度にできるようになります。

完全なオープンソースではないものの、Google DeepMindのAlphaFold Serverというプラットフォーム上で無料で公開されています。興味がある方は覗いてみてください。

【参考】AlphaFold Server

そもそもAlphaFoldの何がすごい？

そもそもAlphaFoldとは何ぞや、という方もいるかと思いますので、ごく簡単にそのすごさをご説明します。

皆さんもご存じの通り、人間の体は水分と脂質を除くとほとんどがタンパク質でできています。タンパク質は数十種類のアミノ酸から構成され、その配列によってさまざまな性質に変化をします。このタンパク質の構造が分かれば、医学や薬学、生物学の分野に大きな進歩を生むことは疑いの余地がありません。

ところがこのタンパク質の構造は非常に複雑です。タンパク質はアミノ酸の配列が折りたたまれて立体構造を形成することで特定の機能を発現するのですが、タンパク質の構造が完成するまでにどのように折りたたまれるか？という過程はブラックボックスになっていました。1つの解析に数ヶ月～数年かかることから、この問題は「タンパク質折りたたみ構造」と呼ばれる生物学の大きな課題とされてきました。

このタンパク質の構造を機械学習を用いて推定できれば、人間が数ヶ月もかけて試行錯誤する必要はなくなります。アミノ酸配列からタンパク質の構造を特定するCASP実験（The Critical Assessment of protein Structure Prediction）というコンペが行われており、その中で頭角を現したのがAlphaFoldです。2021年にv2.0が出た時点で「6年間解けなかった結晶構造があっさり解けました」と研究者の発言があったほどの精度で、AlphaFold 2を使用して、マラリアワクチン、癌治療、酵素のなどの分野で数々の発見がなされてきました。

出典：https://www.itmedia.co.jp/news/articles/2107/20/news136.html

アップデート内容とそのビジネスインパクト

今回のアップデートによってタンパク質の分子の構造と分子間の相互作用をより正確に予測できるようになりました。特にタンパク質と他の分子タイプとの相互作用において、既存の予測方法と比較して少なくとも50％の改善が見られ、重要な相互作用のカテゴリーでは予測精度が2倍になったとのことです。

主に創薬の分野において、医薬品開発には膨大な時間と金銭的コストがかかります。仮説の検証を机上で精度高く実行できることにより、大幅に開発をスピードアップさせられるのは大きなインパクトではないでしょうか。また創薬に留まらず、タンパク質を研究に利用する全ての分野において大きなイノベーションを生む可能性が非常に高いです。

ただし、当然ながら医療の分野に大きな影響を与えるアップデートですので、50以上の分野の専門家と協力してフォーラムやディスカッションを行っている旨がニュースリリースには併記されています。

出典：https://blog.google/technology/ai/google-deepmind-isomorphic-alphafold-3-ai-model/#life-molecules

まとめ

最後まで読んでいただきありがとうございます。

本日は最近公開された新たなモデルのご紹介・話題のアーキテクチャ「KAN」のご紹介・AlphaFold3公開の3つのトピックをご紹介しました。

ブレインパッドは、LLM/Generative AIに関する研究プロジェクトの活動を通じて、企業のDXパートナーとして新たな技術の検証を進め企業のDXの推進を支援してまいります。

次回の連載でも最新情報を紹介いたします。お楽しみに！

ビジネスパーソンが押さえておきたい生成AI/LLM技術最新トレンド

【Vol1】OpenAIの日本法人開設…他
【Vol2】Llama3公開、 RAGモデルの信頼性…他
【Vol3】GPT,Gemini,KAN,AlphaFold3など
【Vol4】Grounding DINO 1.5 Pro/Edge公開…他
【Vol5】言語モデル評価のベストプラクティス…他
【Vol6】Googleの AI Overview ハルシネーション防止策…他
【Vol7】RAG手法 MRAG…他
【Vol8】松尾研の構想…他
【Vol9】Claude 3.5 Sonnet リリース,EAGLE-2…他
【Vol10】LLMの長文理解を評価するベンチマーク,LLM-CriticGPT…他
【Vol11】モデルから知識を”忘却”する技術…他
- モデルから知識を”忘却”する技術Unlearningとその限界
- 敵対的攻撃を劇的に減少させるシンプルなアプローチ
【Vol12】GPT-4o mini 登場,スプレッドシートの構造の読み取り…他
【Vol13】OpenAI o1、OpenAI o1-mini発表…他
【Vol14】ストレスレベルがLLMのパフォーマンスへ影響…他
【Vol15】AIが映像を「見て学び」、ロボットに「実行させる」…他
【vol.16】スマホ利用可の高性能AIが登場…他
【vol.17】複数のAIエージェントが協力し合って複雑な作業に挑む…他

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

この記事に関連する
おすすめの記事

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内