【シリーズ】シチズンデータサイエンティストが扱う機械学習ツール
~AutoMLを始めとした機械学習ツールの現状、および課題点~

[執筆者]
鬼頭 拓郎

こんにちは。データサイエンティストの鬼頭です。

昨今のDX熱の高まりに伴い、データサイエンティストだけでなく、所謂シチズンデータサイエンティストの活躍の場も広がりそれに合わせてツールも発展の一途を辿っています。

本稿では、シチズンデータサイエンティストが扱うツールの内、特に機械学習ツールに着目し、最近のトレンドや課題点についてご説明します。特に、今後分析組織の立ち上げを検討している企業様や、データを利活用にお悩みをお持ちの方のご参考になれば幸いです。

シチズンデータサイエンティストとは

データサイエンティストの不足が叫ばれていますが、決してデータ利活用に関するすべての業務をデータサイエンティストが行う必要はありません。

  • 自社ではデータサイエンティストを確保できない/確保するほどではない
  • 今後DXを推進していく中で、都度データ分析や活用方法をベンダーに依頼するのではなく、
  • 将来的には社内でデータ分析が行えるようノウハウを蓄積したい

というニーズから、「シチズンデータサイエンティスト」という、数学や社会科学などを専攻し、ある程度のデータ分析スキルを有するものの、データサイエンティストほど専門特化した能力・業務範囲ではない人々の活躍の場が広がっています。

シティズンデータサイエンティストが使用するツール

シチズンデータサイエンティストが分析業務を担うには、適切な教育とツールを提供することが特に重要です。ここでは主にツールについて議論します。

データ分析を行うにあたり使用するツールは、

  1. 可視化・集計を行うBIツール(ビジネスインテリジェンス)
    Excelを始めとしたGUIツールにより、シティズンデータサイエンティストにとっても有益なもの。
  2. 高度な統計解析や機械学習まで可能なBA(ビジネスアナリティクス)
    R、Pythonなどの言語が使われています。プログラミングが必要なことに加え、統計解析の知識が必要で、シティズンデータサイエンティストにとってはやや敷居の高いもの。

に大きく分けられます。

1、2の間に位置するツールとして、最近では「拡張分析」(Augmented Analytics)と呼ばれるジャンルのツールが登場したり、また2をGUI操作でクイックに実行できるAutoML(Automated Machine Learning)を始めとしたツールも登場しています。

これらのツールの普及、進化により、シチズンデータサイエンティストにとっても機械学習がより身近なものになりつつありますが、一方でまだまだ十分に活用しきれていないのが現状と感じています。

機械学習ツールの現状

対応領域

下図は、機械学習を行う際の一般的なプロセスになります。 AutoMLを始めとした各種ツールでは、このうち、特徴量エンジニアリング、モデル選択、ハイパーパラメータチューニングを実行してくれます。

ツールにはそれぞれ特徴があり、手法や操作方法に差はあるものの、精度面については実務での利用に耐えうる一定の精度が出せるほどになっていて、様々なビジネスシーンに適用可能な状態となっています。

課題点

「データ分析は前処理が8割」と一般的に言われる通り、実際の分析業務で多くの時間を割かれるのが「データ準備」(データマート作成)の部分になります。

ツールにより、モデル構築部分に関しては身近なものになりつつありますが、このような前処理部分は依然として多くの時間を費やし、またSQL等のプログラミングスキルも必要で、シチズンデータサイエンティストによっては障壁になっているケースも多く見受けられます。

また、実際の業務で構築されたモデルを使用する際には、実地検証を行ったり、あるいはシステム実装する必要があり、結果的に実務で使用できるまでに、半年から1年程度の時間を要しています。

機械学習ツールそのものの利便性は高まっているものの、まだまだ分析業務の一部しか対応できていないのが現状です。

トレンド

こうした課題を解決するため、新たな機能が提供されています。
データ準備(データマート作成)にかかる手間を解決する手段として、「AutoML 2.0」という概念が登場しています。これは未加工のテーブルに対して、テーブル間の紐付けを定義すれば、あとは自動でデータマート作成からモデル構築までを行ってくれるというものです。

弊社では以前、同様の思想を持つ海外企業製のソフトウェアの販売を検討したことがあり、生産性の向上およびノンプログラミングで実行できる操作の簡便性を実感しました。
(モデルの精度面では特に気になる点はありませんでしたが、説明変数がすべて自動で生成されるため、採用変数に納得感がなかったり、あるいは経験則に基づく変数が投入できない等の理由により、活用できるケースが限定的であることから弊社では販売を見送りました)
単に精度だけを求めるのか、あるいは完成したモデルに対して説明責任が求められるのかなど、利用状況によりツールを選定すべきかと思います。

また最近では構築したモデルをいかに素早くシステム実装するか、いわゆる「MLOps」の概念・手法に注目が集まっています。
モデルを開発してパッケージ化、デプロイ、パフォーマンス監視、再学習といった一連のプロセスを意識した製品が増えていますが、中でも各クラウドベンダーから提供されるサービスは使い勝手がよく、今後利用が拡大することが見込まれます。

まとめ

シチズンデータサイエンティストが活躍するためには教育とツールが必要であり、そのうち特に機械学習ツールについてご紹介しました。
ツールを活用することで、モデル構築に関しては高度な統計に関する知識がなくても、一定の精度のモデルが構築できます。
ただし現状は、データ加工部分といった前処理部分で自動化やGUIで操作できるツールが提供されていないので、シチズンデータサイエンティストにとって有益なツールは、まだまだ発展途上と思われます。

また、本記事では触れていませんが、分析プロセスの分析設計の部分で課題を抱えている企業様も多く見受けられます。
分析設計とは、ビジネス課題を理解し、モデルで実現する問題設定を行う、分析を行う上での入り口となる部分です。
この部分がぶれてしまうと後にどんなに精度の高いモデルが構築できても、実務では利用できないという結果に至ってしまいます。この部分に関しては書籍等も多く出版されていますが、経験を積むことが重要であり、それを指導できる人の存在が必要となります。

また、各クラウドベンダーから提供されるサービスは使い勝手がよく、今後利用が拡大することが見込まれると前述しましたが、弊社西村による「Microsoft Azure」の紹介記事もあわせてご確認いただけると幸いです。

(参考)
https://research.aimultiple.com/citizen-data-scientist/
https://qiita.com/Hironsan/items/30fe09c85da8a28ebd63

WRITER執筆者プロフィール

株式会社ブレインパッド

アナリティクス本部
デジタルソリューションサービス部
鬼頭 拓郎

大学院修士課程にて数学を研究した経験を活かし、外資系のアナリティクスツール会社にてBI、BAのセールスサポート、プロフェッショナルサービスを担当。
その後信用調査会社にて与信管理のコンサルティング業務を行う。
ブレインパッド入社後は機械学習ツールを用いたプリセールス、トレーニング、コンサルティングを行い現在に至る。

MAIL MAGAZINEメールマガジン

イベントやセミナーの開催予定、
最新特集記事の情報をお届けいたします。

TREND人気ワード・タグ

BEST PRACTICEベストプラクティス

業態・業種から探す

テーマから探す

データ活用のプロが考える、エンジニアリング視点の記事や、新規ビジネスの創出に関する記事まで幅広い特集を配信!

業界の最先端をいく、100名を超える当社に在籍のAIおよびデータ活用スペシャリストが原稿を執筆!

ベストなDXへの入り口が見つかるメディア

DOORS

BrainPad

MAIL MAGAZINEメールマガジン

登録が完了しました。

メールマガジンのご登録ありがとうございます。
最新特集記事の情報をお届けしますので、
お楽しみにお待ちください。

MAIL MAGAZINEメールマガジン

登録エラーです。