DOORS DX

ベストなDXへの入り口が
見つかるメディア

【シリーズ】シチズンデータサイエンティストが扱う機械学習ツール~AutoMLを始めとした機械学習ツールの現状、および課題点~

公開日
2021.05.18
更新日
2024.02.17

こんにちは。データサイエンティストの鬼頭です。

昨今のDX熱の高まりに伴い、データサイエンティストだけでなく、所謂シチズンデータサイエンティストの活躍の場も広がりそれに合わせてツールも発展の一途を辿っています。

本稿では、シチズンデータサイエンティストが扱うツールの内、特に機械学習ツールに着目し、最近のトレンドや課題点についてご説明します。特に、今後分析組織の立ち上げを検討している企業様や、データを利活用にお悩みをお持ちの方のご参考になれば幸いです。

シチズンデータサイエンティストとは

データサイエンティストの不足が叫ばれていますが、決してデータ利活用に関するすべての業務をデータサイエンティストが行う必要はありません。

  • 自社ではデータサイエンティストを確保できない/確保するほどではない
  • 今後DXを推進していく中で、都度データ分析や活用方法をベンダーに依頼するのではなく、
  • 将来的には社内でデータ分析が行えるようノウハウを蓄積したい

というニーズから、「シチズンデータサイエンティスト」という、数学や社会科学などを専攻し、ある程度のデータ分析スキルを有するものの、データサイエンティストほど専門特化した能力・業務範囲ではない人々の活躍の場が広がっています。


シティズンデータサイエンティストが使用するツール

シチズンデータサイエンティストが分析業務を担うには、適切な教育とツールを提供することが特に重要です。ここでは主にツールについて議論します。

データ分析を行うにあたり使用するツールは、

  1. 可視化・集計を行うBIツール(ビジネスインテリジェンス)
    Excelを始めとしたGUIツールにより、シティズンデータサイエンティストにとっても有益なもの。
  2. 高度な統計解析や機械学習まで可能なBA(ビジネスアナリティクス)
    R、Pythonなどの言語が使われています。プログラミングが必要なことに加え、統計解析の知識が必要で、シティズンデータサイエンティストにとってはやや敷居の高いもの。

に大きく分けられます。

1、2の間に位置するツールとして、最近では「拡張分析」(Augmented Analytics)と呼ばれるジャンルのツールが登場したり、また2をGUI操作でクイックに実行できるAutoML(Automated Machine Learning)を始めとしたツールも登場しています。

これらのツールの普及、進化により、シチズンデータサイエンティストにとっても機械学習がより身近なものになりつつありますが、一方でまだまだ十分に活用しきれていないのが現状と感じています。

機械学習ツールの現状

対応領域

下図は、機械学習を行う際の一般的なプロセスになります。 AutoMLを始めとした各種ツールでは、このうち、特徴量エンジニアリング、モデル選択、ハイパーパラメータチューニングを実行してくれます。

ツールにはそれぞれ特徴があり、手法や操作方法に差はあるものの、精度面については実務での利用に耐えうる一定の精度が出せるほどになっていて、様々なビジネスシーンに適用可能な状態となっています。

課題点

「データ分析は前処理が8割」と一般的に言われる通り、実際の分析業務で多くの時間を割かれるのが「データ準備」(データマート作成)の部分になります。

ツールにより、モデル構築部分に関しては身近なものになりつつありますが、このような前処理部分は依然として多くの時間を費やし、またSQL等のプログラミングスキルも必要で、シチズンデータサイエンティストによっては障壁になっているケースも多く見受けられます。

また、実際の業務で構築されたモデルを使用する際には、実地検証を行ったり、あるいはシステム実装する必要があり、結果的に実務で使用できるまでに、半年から1年程度の時間を要しています。

機械学習ツールそのものの利便性は高まっているものの、まだまだ分析業務の一部しか対応できていないのが現状です。

トレンド

こうした課題を解決するため、新たな機能が提供されています。
データ準備(データマート作成)にかかる手間を解決する手段として、「AutoML 2.0」という概念が登場しています。これは未加工のテーブルに対して、テーブル間の紐付けを定義すれば、あとは自動でデータマート作成からモデル構築までを行ってくれるというものです。

弊社では以前、同様の思想を持つ海外企業製のソフトウェアの販売を検討したことがあり、生産性の向上およびノンプログラミングで実行できる操作の簡便性を実感しました。
(モデルの精度面では特に気になる点はありませんでしたが、説明変数がすべて自動で生成されるため、採用変数に納得感がなかったり、あるいは経験則に基づく変数が投入できない等の理由により、活用できるケースが限定的であることから弊社では販売を見送りました)
単に精度だけを求めるのか、あるいは完成したモデルに対して説明責任が求められるのかなど、利用状況によりツールを選定すべきかと思います。

また最近では構築したモデルをいかに素早くシステム実装するか、いわゆる「MLOps」の概念・手法に注目が集まっています。
モデルを開発してパッケージ化、デプロイ、パフォーマンス監視、再学習といった一連のプロセスを意識した製品が増えていますが、中でも各クラウドベンダーから提供されるサービスは使い勝手がよく、今後利用が拡大することが見込まれます。

まとめ

シチズンデータサイエンティストが活躍するためには教育とツールが必要であり、そのうち特に機械学習ツールについてご紹介しました。
ツールを活用することで、モデル構築に関しては高度な統計に関する知識がなくても、一定の精度のモデルが構築できます。
ただし現状は、データ加工部分といった前処理部分で自動化やGUIで操作できるツールが提供されていないので、シチズンデータサイエンティストにとって有益なツールは、まだまだ発展途上と思われます。

また、本記事では触れていませんが、分析プロセスの分析設計の部分で課題を抱えている企業様も多く見受けられます。
分析設計とは、ビジネス課題を理解し、モデルで実現する問題設定を行う、分析を行う上での入り口となる部分です。
この部分がぶれてしまうと後にどんなに精度の高いモデルが構築できても、実務では利用できないという結果に至ってしまいます。この部分に関しては書籍等も多く出版されていますが、経験を積むことが重要であり、それを指導できる人の存在が必要となります。

また、各クラウドベンダーから提供されるサービスは使い勝手がよく、今後利用が拡大することが見込まれると前述しましたが、弊社西村による「Microsoft Azure」の紹介記事もあわせてご確認いただけると幸いです。

(参考)



このページをシェアする

あなたにおすすめの記事

Recommended Articles

株式会社ブレインパッドについて

2004年の創業以来、「データ活用を通じて持続可能な未来をつくる」をミッションに掲げ、データの可能性をまっすぐに信じてきたブレインパッドは、データ活用を核としたDX実践経験により、あらゆる社会課題や業界、企業の課題解決に貢献してきました。 そのため、「DXの核心はデータ活用」にあり、日々蓄積されるデータをうまく活用し、データドリブン経営に舵を切ることであると私達は考えています。

メールマガジン

Mail Magazine