2019.8.8技術ブログ

OpML:機械学習がシステムの中に当たり前に存在する世界を目指して

アメリカにて開催されたシステムへの機械学習の組み込みに関する国際会議USENIX OpML'19に弊社のメンバが登壇した。
今回はOpMLの概要や発表セッションの傾向と、登壇内容について紹介する。

USENIX OpMLとは

そもそもUSENIX協会とは、コンピューターサイエンスで約45年の歴史と権威がある団体で、当初の目的はUNIXとUNIX関連のシステムの研究・開発であり、最高峰学会の一つです。USENIXは幾つかの研究会から構成され、OpMLは今回初開催の研究会であり、研究と産業界の両方をターゲットとしていることが特徴です。産業界を含む広いエリアのシステムに機械学習の技術を活用していく際の課題にアプローチすること、機械学習の本番活用を推し進め、より広く使われるようにするにあたっての課題、先端技術、取り組みを扱うことが期待されています。

国際会議USENIX OpML'19で扱われていたテーマ

実際に参加してUSENIX OpML'19の各セッションを俯瞰してみると、「機械学習」と「運用」を共通のキーワードとしつつもバラエティに富んでいた、という印象を受けました。その中でNTTデータも
A Distributed Machine Learning For Giant Hogweed Eradication
Naoto Umemori and Masaru Dobashi, NTT DATA

というタイトル(※1)で、ユースケースに基づきながら大規模データを取り廻す機械学習における課題や考察を伝えるセッションが採択され、講演しました。

各セッションの中では、具体的な事例紹介もあれば、新手法の学術的な提案、さらには新たなオープンソースソフトウェアの紹介などもありました。また事例紹介の中でも、ステークホルダの役割に着目した議論や、監視/可視化といった周辺システムに着目したもの、またはサイバーセキュリティや検索エンジンなどの適用領域に着目したものなど、観点の違いが表れていました。

このようにセッションが多様であり、体系が確立していない様は、「機械学習をどうやってシステムに組み込むのか」という課題にはチャレンジすべき領域が多数存在し、多くの研究者、開発者がそれぞれのアプローチを模索していっている段階である、ということを示しているように思います。機械学習がより当たり前に使われるような世界観を目指す黎明期にあると言えるでしょう。

なお、各講演の資料は公式ウェブサイト(※2)に公開されています。ご興味のある方は是非ご参照ください。

NTTデータ講演内容のポイント

昨今、機械学習のライブラリやフレームワークが数多く生まれましたが、いわゆるビッグデータと呼ばれる大規模データの取り廻しまで踏み込み、システム全体の視点から統合的に考えた際のベストプラクティスは存在していないように伺えます。当講演では、先行研究(※3)から着想を得て、企業が大規模データを取り廻して機械学習をシステムに組み込む上での難しさと今後解くべき課題を考察し、その一例を示しました。

登壇時の様子

登壇時の様子

考察を与えるにあたり、デンマークの地方自治体様向けの分散機械学習のPoCを通じて得た知見を述べるとともに、基盤の視点から汎用的な分散処理基盤と機械学習の組み合わせ時のポイントについても紹介しました。分散処理基盤の代表例のひとつであるApache HadoopおよびApache Spark、ドローン、TensorFlowをインテグレーションし、いかにして下記の課題を解いたのかをアーキテクチャと処理方式に言及しながら紹介しました。

代表的な課題

  • 危険外来種の判定を担う専門家(非ITエンジニア)にも扱いやすい学習データ生成の仕組みが必要になること。
  • 空撮対象となる土地が広大であり、扱う空撮画像のデータ量が約200TB超に及ぶ。そのため、効率良く処理するためのデータ活用分散処理基盤、機械学習基盤が必要になること。
  • 処理毎に専用のクラスタを構築して運用すると、運用方法が煩雑になる。そのため、汎用的な分散処理基盤上に可能な限り機械学習基盤を集約しつつも、データサイエンティストにとって使い勝手を損なわない方式が必要になること。

おわりに

本稿では、システムへの機械学習の組み込み(OpML)に関する研究動向とNTTデータにおける取組内容について紹介しました。OpMLは、機械学習の実用化を運用の視点から課題を捉え、解決していくことがポイントになります。USENIXにおいても研究会が立ち上がり、議論が開始されたばかりではありますが、産学各々異なる立場から議論し、盛り上がっていた様子からも注目度の高い領域であることが伺えました。

なお、この国際会議の雰囲気やセッション内容を日本国内でも共有するため、「USENIX OpML'19 登壇・参加報告会」(※4)というコミュニティイベントが2019年6月6日に開催されました。

このイベントではNTTデータも登壇し、NTTデータが講演した内容や他のセッションで聴講した内容を紹介いたしました。来場者には日ごろからデータサイエンスに携わっている方々も含まれており、各講演後には質疑応答が生まれるなど盛り上がりました。日本国内においても、先進的な企業を中心にこの領域の研究開発に注目が集まりつつあることが分かります。まだ登場したばかりの領域ではありますが、今後の成熟に期待が持たれます。

著:土橋、梅森、萩原、山崎

イベント告知

NTTデータ テクノロジーカンファレンス 2019
~ 未来を創る NTT DATA の確かな技術力 ~

本イベントでは、コネクティッドカーをはじめとした先進的な事例や、Hadoop / Spark / Kafka を利用したビッグデータ活用やブロックチェーン、機械学習などNTTデータならではの先鋭的な技術トピックを、一緒に取り組んだお客様やNTTデータの高度な技術者などからご紹介いたします。
参加申し込み受付中!

お問い合わせ