NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2019年9月9日技術ブログ

ランキング学習によるナレッジシェアの効率化

「働き方改革」に向けてAI技術の活用が大きな注目を集めている。現状では比較的単純な「定型業務」がAI技術の大きな恩恵を受けているが、さらなる業務改革のためには「非定型業務」の効率化が課題である。そのために私たちは「ランキング学習」と称するAI技術による高度なナレッジシェアの仕組みを開発し、PoCにて有効性を検証した。本稿は、「ランキング学習」とは何者か、そしてどのように業務に適用したかについて説明する。

1.AI技術による業務効率化

働き方改革が求められる昨今、AI技術を活用した業務効率化が大きな注目を集めています。チャットボットやRPAといった言葉を目にする機会も多いのではないでしょうか。

しかしながら、効率化の対象となるほとんどは「定型業務」であることが知られています。「定型業務」とは、作業内容に一定のパターンが存在するような業務です。対して「非定型業務」は、業務遂行のためにクリエイティブさを要し、作業者のノウハウに依存するケースもあるため、AI技術の恩恵を十分に受けることができていません。

「非定型業務」の実例として、ドキュメント執筆業務を説明します。

某金融機関さまでは、審査業務のために年間およそ数万規模の融資稟議書を扱っています。このような高度なビジネス文書を、ゼロから執筆することには大きな手間を要します。現行の業務では、過去の稟議書を手本として新たな稟議書を執筆しています。従って、膨大な過去の案件から、今回の案件の参考となる稟議書を探し出すことが現業務の課題となっています。

参考となる稟議書を調達するためには、テキスト検索のシステムを用いることが一般的です。しかしながら、従来の検索システムは検索クエリにマッチする単語の出現頻度等で検索処理を実行するため、「参考にすべき稟議書」といった観点で検索することは困難です。

そこで私たちは、AI技術の一種である「ランキング学習」という仕組みを用いることで、「参考にすべき稟議書」の効率的な検索に取り組みました。

2.「ランキング学習」とリアルデータでの検証について

ランキング学習とは、その名の通り「ランキング」を最適化するための機械学習技術(AI技術)です。この技術は、テキスト検索システムや、画像検索システムとしばしば連携します。具体的なランキング学習の方法として、ペアワイズ法やリストワイズ法(※1)が主流です。

さらに、このランキング学習の仕組みは、一般的なAI技術と融合することができます。例えば、爆発的な流行を示すディープラーニングとランキング学習を組み合わせる、といったことも可能です。

ただし、このランキング学習はAI技術の一種であるため、事前に「学習」というプロセスを経る必要があります。「学習」を行うためには「学習データ」を要します。一般的には、人の手によって「学習データ」を作成することが多く、多大な人的コストが発生します。

そこで私たちは、検索エンジンから収集したクリックログデータを用いることで、学習データを効率的に収集しました。具体的には、既存の検索システムにクリックログを蓄積する仕組みを導入し、明示的なフィードバックボタンから得られるログや、ファイル閲覧時のログを収集しました。ここで得られたデータを、ランキング学習時の学習データとして用いることで、学習データ構築時に発生するコストを回避しています。

私たちは、このランキング学習の仕組みを、弊社の『地銀共同開発担当』と、『金融事業推進部 技術戦略推進部』と連携し、実際の融資稟議書データを用いた精度検証を行いました。ランキング学習のエンジンとしては、私たち『技術開発本部』にて1から構築したディープラーニング型エンジンを用いています。

数カ月分のクリックログデータを用いて検証したところ、nDCG@20(※2)という評価指標で、従来技術16ポイントから、22ポイントへと改善しました。この結果は、参考になる文書が検索結果のより上位に出現するようになったことを意味しており、従来技術と比べて効率的に稟議書検索が可能となったといえます。

「参考にすべき稟議書」の効率的な検索が可能となったことで、ドキュメント執筆の時間的コストの削減が期待できます。結果的に、「同時間で多くの仕事をこなせる」・「その他の重要な仕事に集中できる」といった効果があると考えています。

クリックログデータを用いたランキング学習システムの利用イメージ

図:クリックログデータを用いたランキング学習システムの利用イメージ。

3.実用化に向けて

前節ではランキング学習と、リアルデータによる検証結果について説明しました。精度について、わずかな改善だと感じた方もいらっしゃるかもしれません。しかし、私たちが利用したクリックログデータは日々蓄積していくものです。学習するデータ量を増やすことで、さらなる精度改善につなげることも期待できます。また、学習時に、有識者のクリックログデータを重視して学習するといったアプローチも、1つの指針と考えています。

しかしながら、ランキング学習の仕組みは検索やナレッジシェアのための銀の弾丸ではありません。例えば、ランキング学習を用いた検索システムは、従来技術と比べて一般的に低速です。検索システムは検索速度といった性能面も重視されます。従って、レスポンス性を重視するような場面では、従来型の検索システムを活用すべきでしょう。

また、ランキング学習を用いる場合は一定量の学習データが必要となります。恩恵を受けるためには、ノイズや誤りの少ない良質な学習データをどれだけ収集できるか、といった点も考慮しなければなりません。その他、業務効率化のためにはユーザインターフェースとの連携も重要となるかもしれません。洗練されたサービスのためには、システムを様々な観点から評価することが重要になります。

4.おわりに

AI技術の活用による働き方改革が期待される中、私たちが取り組んだ「ランキング学習」によるドキュメント執筆業務の効率化について説明しました。

しかし、ナレッジシェアの効率化のみではドキュメント執筆業務を十分に効率化できるとは考えていません。例えば「ドキュメント自動生成」や「記述項目の観点チェック」といった、異なるアプロ―チも重要となると考えています。いずれのアプローチを取るにせよ、お客様のペインポイントの解決に向け、今後もリサーチとビジネスを結びつけるような技術開発に取組んでまいります。

※1 Learning to Rank for Information Retrieval and Natural Language Processing

http://www.iro.umontreal.ca/~nie/IFT6255/Books/Learning-to-rank.pdf

※2 An Introduction to Information Retrieval

https://nlp.stanford.edu/IR-book/pdf/irbookonlinereading.pdf

お問い合わせ