データ数の不足を補う鍵は「スパース性」
スパースモデリング参考1の「スパース」とは、まばら・わずかというような意味です。スパースモデリングは、物事に潜むスパース性を利用した情報抽出技術であり、その重要な側面の一つが、得たい情報を少数のデータから抽出できる点です。
具体的にどういうことか、MRI(Magnetic Resonance Imaging)への適用例参考2を題材に説明します。MRIでは巨大な磁石を用いて患者の体内のデータを集め、そのデータから体の断面の画像を作成します。鮮明な画像を作成するには長い時間をかけて多くのデータを集める必要がありますが、一方で患者は検査中に姿勢を変えることができないため、長時間の検査は患者にとって負担となります。検査時間を短縮しつつ鮮明な画像を作りたい、スパースモデリングでは、この要望に応えるために画像のスパース性を利用します。画像のスパース性とは、体内の画像は同一の物質内ではおおよそのっぺりとしていて、隣り合う画素間で画素値が大きく変化する箇所はわずか(物質と物質との境界のみ)しかないといった性質を指します。注目すべきポイントがわずかであれば、必要なデータ数は少なくてすみます。データ数の不足を、画像がスパース性を持つという人間の知識で補うことにより、鮮明な画像の作成が可能となります(図1)。
スパース性はさまざまな現象に普遍的に現れるといわれており、例に挙げたMRI以外にも、IoT(Internet of Things)の構成要素であるセンサーネットワークでの情報収集、通信ネットワークの劣化箇所の検出、天体観測など多くの分野への応用が研究されています参考1、参考3。
図1:スパースモデリングによるMRI画像の作成法と従来法との比較
機械学習×スパースモデリング
データを扱う技術といえば機械学習が流行しています。機械学習手法の中には大量のデータがあることを前提としたものも多いですが、実際のビジネス現場では十分に多くのデータ数が確保できない場合も少なくありません。こうした場合には機械学習とスパースモデリングとを組み合わせることが効果的です。
機械学習において、スパース性は、高次元で複雑に見えるデータも実はシンプルであるという信念を表すのによく使われます。例えば、新店舗の売上を立地・面積・品揃えなど多様な要因から予測することを考えます。このとき、全ての要因が売上と密に絡んでいるのでなく、より単純な予測式をあえて選ぶのがスパースモデリングによるやり方です。具体的には、多くの要因については売上との関連度をゼロと推定します(図2)。このように、非常に多くの要因が考えられるなか、スパースモデリングを用いることで売上と関連する要因を自動で選別してくれるため、精度良く予測できるだけでなく、機械学習の結果を人間が理解しやすい形で求めることができます。
図2:スパースモデリングを利用した機械学習のイメージ