「データは少ないが予測はしたい」マテリアルズインフォマティクス(MI)の実践ポイント

執筆者

岡田直樹

公開日

2022.02.01

更新日

2024.04.12

材料開発にAIを活用したい方、こんな矛盾にお困りではありませんか？

AIは、データを集めるほど、強力に作用する。
新しいものを発見したいので、データのない領域を予測してくれないと困る。

先進的なチャレンジであるほど、実験やデータの蓄積がないことは当然です。しかし、ビジネスで最大の価値を生み出せる場所は、データの少ない領域に他なりません。その領域でAIに力を発揮させるためには、データが少ないとはどういう状況か、その状況でAIにどこまでのことができるのか、を正しく理解する必要があります。知らず識らずのうちにAIへ無理難題をぶつけてしまっては、成果につながりません。

材料開発にAIを活用するマテリアルズ・インフォマティクスの取り組みは、この典型です。蓄積した実験データには偏りがあり、新たな実験をするにも手間とコストがかかります。そのような状況で、まだ見ぬ新材料をAIで見つけ出すことが、マテリアルズ・インフォマティクス最大のテーマです。

この記事では、「データは少ないけれど、なんとか予測をしていきたい」という一見無茶なリクエストに対して、理解しておくべきことと、どのように立ち向かうかについて、その道しるべを綴ります。

本記事の執筆者

データサイエンティスト

岡田直樹

NAOKI OKADA

会社

株式会社ブレインパッド

所属

アナリティクスコンサルティングユニット

役職

マネジャー

戦略策定や組織組成のコンサルティングを兼務するデータサイエンティスト。学術研究の経験を背景にITベンチャー企業では、プロダクト開発と並行してAI系サービスの立ち上げを統括。ブレインパッドでは、材料インフォマティクスやマーケティング領域での分析支援、エネルギー関連企業のDX推進部門の戦略策定やデータマネジメントをリード。コンサルティング・アナリティクス・エンジニアリングの横断的な経験で、データドリブンな意思決定に向けた組織変革を支援。

マテリアルズ・インフォマティクスとは？

マテリアルズ・インフォマティクス（Materials Informatics）は、2つの要素からなる取り組みです。

原料の組み合わせや加工プロセスから、合成材料の性能を予測する。
目標性能を達成するために必要な原料や加工プロセスを発見する。

広義には、化学とデータ科学の融合を意味するケモインフォマティクス（Chemoinformatics）や、製造プロセスとデータ科学の融合に焦点を当てたプロセス・インフォマティクス（Process Informatics）といった言葉が使われる場合もあります。身近な例では、成分やレシピから低コストで高品質な食品を生み出すイングリディエント・インフォマティクス（Ingredient Informatics）にまで広がりをみせています。

マテリアルズ・インフォマティクスは、AIが未知のパターンを見つけ出すことにより、材料開発のプロセスにブレークスルーを起こし得る魅力的な技術です。しかし、実用にあたり一筋縄ではない課題も抱えています。

何が難しいのか？

マテリアルズ・インフォマティクスの難しさは、実験データの収集過程とAIの性質に起因します。マテリアルズ・インフォマティクスへの第一歩として、それらを認識するところからはじめましょう。

知らず知らずのうちに局所化する実験データ

みなさんは新しいものを開発するとき、どのように実験を進めるでしょうか。多くの場合、次のようなアプローチを行うのではないでしょうか。

（1）経験的に見込みがありそうなパターンを複数回実験する。
（2）性能の高いパターン周辺を集中的に実験する。
（3）性能の高いパターン同士を組み合わせて実験する。
（4）性能をチューニングする。

実は、この当然とも思える手順に落とし穴があります。実験手順をデータの観点で考えてみましょう。

（1）は人の経験に基づくため、未知のパターンが得られずデータに偏りが生じます。
（2）は局所解を探求するがゆえ、データも局所化します。
（3）は局所解の掛け合わせであり、得られる多様性が限定的です。
（4）はチューニング過程で類似データを量産するため、局所データを増強します。

つまり、これら実験過程を経た場合、データは下図のように局所化します。特に実験パラメータが高次元であるほど、実験同士は人の感覚よりも遥かにかけ離れた関係になります。

では、マテリアルズ・インフォマティクスで見つけたい高性能な新材料はどこに存在するのでしょうか。新材料には、2つの需要があります。

既知の材料の性能をチューニングして、高性能な類似材料をつくりたい。
既知の材料とは異なる未知の材料を発見したい。

前者は、すでにAIが活用されている領域です。既存データの周辺を探索できればよく、局所化したデータ群でも成果が得られやすいテーマです。ただ、類似の材料であれば、AIに頼らずにある程度の予測ができてしまうことも事実です。マテリアルズ・インフォマティクスにブレークスルーを求めるのであれば、後者の取り組みが欠かせません。しかし、局所化したデータ群に対する未知の材料探索は、AIの天敵です。なぜならば、AIは「推論」が苦手だからです。

AIの得意分野と苦手分野

AIは、既知のデータに基づいて予測を行います。その原理からAIの得意分野は、既知のデータ周辺における「局所的な予測」です。つまり、下図のように既知の実験群に近い範囲であれば、それらデータから少しだけ変化した実験結果を精度よく予測できます。

一方、既知のデータから離れた領域の予測は「推論」です。これは、外挿予測と呼ばれることもあります。推論は、明示的な教師データなしに経験を抽象化して予測範囲を広げる能力です。これは人が得意とする能力であり、AIがアルゴリズムを問わず苦手とする能力です。

このAIの苦手を克服することが、マテリアルズ・インフォマティクスとビジネス成果を結びつける上での最大の障壁です。この難題に対して、我々はどういった姿勢で臨めばよいのでしょうか。ここからは、その処方箋に言及します。

局所化したデータに対抗する２つの戦略

データが不十分なとき、データを増やすか、今あるデータで戦うか、が選択肢になります。ここでは、それぞれの取り組みについて紹介します。

新たな実験で空白地帯を埋める

もっとも基本的なアプローチは、AIに無理をさせないことです。つまり、データの手薄な領域があるならば、新たな実験を行ってAIの予測範囲を広げるという考え方です。では、AIの予測範囲を広げるにあたり、どのように実験を行うことが効果的でしょうか。これは実験計画法として知られるテーマです。

技術的な話は割愛し、実験をしながらAIの予測性を改善する流れが下図です。

(1)と(2)は、実験の計画と実施です。ゼロから実験をスタートするのであれば、直交表やラテン方格法がよく使われます。(3)と(4)では、得られた実験データに基づいてAIを構築し、その予測性を評価した上で実験データの手薄な領域を特定します。ここでは、ベイズ推定が有効な手段です。そして、得られた情報から新たな実験計画を練るという流れを繰り返します。

実験とAIの構築を交互に繰り返すことは、双方の品質を向上させる強力なアプローチです。しかし、現実に追加実験を行うことは、そう簡単な話ではありません。一口に実験といっても、設備や人員を確保する必要があり、相応の費用と時間がかかります。そのため、AIを強化するための実験にコストを割けない場合も少なくありません。社内から「AIを構築するための実験をするくらいなら、新材料を見つけるための実験をする方がよいのでは？」という疑問が挙がることもあるかもしれません。

では、追加実験が難しい場合、我々には何ができるのでしょうか。それは、現状のデータで戦うことです。当然、データが十分でないために予測信頼度の高いAIを構築することは難しくなります。そこで、既存データの傾向を捉えて活用することに焦点を当てます。

現状のデータでできる限りの傾向を捉える

局所化したデータ群に対する未知の材料探索では、もっとも有効な手段が「見える化」です。

なぜならば、データが少なく予測の不確かな領域では、信頼度の成否を明確な基準で判定することが難しいためです。見える化と人の推論によってAIの不完全さを補い、未知の領域に踏み込みます。つまり、既知のデータ群に対してどの程度離れた領域にアプローチしているかを俯瞰しながら、予測傾向の是非を判断することが人の役割です。

また、見える化には副次的な効果もあり、既存材料と新材料の違いについて関係者の理解を深める際に役立ちます。新材料の有効性を一目で把握できれば、その先の施策も円滑に進めることができるでしょう。

ここで重要な点は、AIの限界を受け入れることです。AIにとって不都合なデータを使って傾向を捉える以上、高い予測精度を達成することは原理的に不可能です。どちらへ向かえば、性能が上がるのか、下がるのか、その手がかりを既知のデータ群から見いだすことが骨子となります。実際には「追加実験は難しいけれど、精度は保証したい」という欲求に駆られることが往々にしてあります。しかし、AIに無理難題を押し付けないことこそが、マテリアルズ・インフォマティクスの成功に欠かせない要素です。

最後に、もう少しだけ踏み込んでみましょう。実験データと材料性能を予測するAIが揃ったとき、マテリアルズ・インフォマティクスの活用に向けて何をすればよいのでしょうか。その答えは、最適化です。

AIと最適化の二人三脚

材料の性能指標が単純であれば、AIの予測に基づいて目標の材料を見つけることは簡単です。しかし、一般には性能指標が複数存在し、さらに製造上の制約が課されます。そのような状況では、多様な要求に折り合いをつけ、ときに相反する要求の妥協点を見出す必要があります。これに応える技術が最適化です。

たとえば、下図のように原料費と性能を天秤にかけてみましょう。素材から原料費と性能を予測できるAIを使い、より安くより高い性能を示す素材を見つけます。ここで目指すべきは、一方の指標を改善しようとするともう一方の指標が悪化するような状態です（パレート最適解）。現実には、製造上の制約等を考慮して、次点の準最適解を採用する場合もあります。いずれにしても性能指標が増えるほど、AIに何を見つけさせるべきかは難しい課題となり、最適化が欠かせない要素になります。

マテリアルズ・インフォマティクスでインパクトのある成果を生み出すにあたり、限られたデータの傾向を捉えるAIを構築し、最適化によって実現可能な材料を探し出すことが１つの指針です。これまでに述べたとおり、マテリアルズ・インフォマティクスには一般的なデータ分析と比べて高いハードルがあります。しかし、同時に研究開発とDXの懸け橋になる取り組みであり、今後より多くの製品や事業で一翼を担うテーマになるでしょう。

以上が、データのない領域を予測するための道しるべです。この記事が、マテリアルズ・インフォマティクスに興味をもつ方々の一助になりましたら幸いです。

▼DXの定義や意味をより深く知りたい方はこちらもご覧ください

「DX=IT活用」ではない！正しく理解したいDX(デジタル・トランスフォーメーション)とは？意義と推進のポイント

このページをシェアする

コピー
しました

この記事に関する
お問い合わせはこちら

あなたにオススメの記事

人気タグから探す

人気記事ランキング

あなたにおすすめの記事

株式会社ブレインパッドについて

2004年の創業以来、「データ活用の促進を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

株式会社ブレインパッド
についてはこちら

メールマガジン

Mail Magazine

データ活用の厳選記事や、会員限定のDXのお得情報などをお届けいたします。

1分で簡単登録！

メールマガジンのご案内