NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2020年1月17日技術ブログ

人に代わって多様なデータを自動収集し、意味解釈する“クローリング”

多種多様な情報の業務への活用がキーとされる時代で、社内や社外に散在する情報をいかに効率良く収集するのかは重要な要素である。

1.背景:Data Deluge(データの大洪水)時代の情報収集

日々、様々なデータが生まれているData Deluge時代では、様々な情報の活用が企業の発展には欠かせないと言われています。しかし、日々発生している情報を業務へ活用出来ている企業はまだ多くはないのではないでしょうか。多くの企業では、活用したい情報や活用すべき情報は、決まった形式に統一化されず、様々な形で社内に散在していることが多いためです。
更に、社内情報に加え、インターネット上の情報も活用したいという声も伺います。時々刻々と最新情報が公開されるインターネット上の情報を業務へ取り入れたいというのは当然の流れでしょう。
しかし、それらを上手く取り入れて業務へ活用するとなると、まずは社内外に散在している情報を目的に応じて効率よく集めてくる必要がありますが、ほとんどの企業がマンパワーに頼って対応しているのが現状です。

2.マンパワーの限界

人は、情報を集める際には読み取った情報をきちんと理解して、必要なものだけを抽出します。例えば、「今期NTTデータの業績が上がった」という文章を読めばすぐに「NTTデータ」は企業名を指しているのが分かります。また、以下のようなWEB上の記載の場合も「企業名:NTTデータ」であれば、NTTデータが企業名を指していることは人が見れば分かります。

企業名NTTデータ
名前出田 太郎
電話番号03-XXXX-XXXX

人であれば柔軟に情報収集出来るのは確かですが、膨大な情報収集を人で実施するには限界があります。企業にとって情報収集コストも当然大きなコストとなり、データの業務への活用面を増やす度に新しく人を雇うことはできません。仮に雇った場合も育成に手間と時間もかかりますし、人が無意識的に感覚で実施していると、対応者の精度にバラツキも出てしまいます。

3.私達のアプローチ

私達は自然言語解析やAIといった最新技術を活用することにより、ただ情報を闇雲に収集するのではなく、意味解釈をした上で目的に合った情報を収集する自動的なクローリングを実現しました。(※1)ルールベースの解析だけでなく、人が文脈や文字列を見て内容を理解するように、機械にも人間と同じ様に自然言語の内容を理解させるのです。この自動クローリングにより、社内にある情報だけでなくインターネット上の大量の情報を適切に抽出できるようになるため効率的な情報収集を実現し、情報収集の精度を平準化できるようになります。

図1:多様な情報の自動収集

図1:多様な情報の自動収集

4.業務への活用

このようにして意味解釈され自動収集された情報は様々な業務へ活用できます。

例えば、

  • 法人審査:形式チェックや不芳情報の検知、複数データの整合性チェック等の審査判定へ活用
  • 営業支援:顧客の公式WEBサイトや関連するニュースをクローリングし、営業活動や顧客管理へ活用

人が実施していた情報収集を、機械が同じように実施することで、多様なデータ活用と収集精度の平準化を実現します。

NTTデータでは、お客様のデータ活用に関する課題に対し、NoSQLDB(※2)やSemantic(※3)、AI等の最新の技術を活用し、試行利用から本格導入まで一気通貫でのサービスを提供しております。(※4)

※1

自動クローリングに関しては、情報を解析することが目的であり、著作権をはじめとした法律およびそのサイトの利用規約に則り実施しています。

※2

Not only SQLの略で、形式の異なる多種多様なデータの扱いを得意とするデータベース

※3

実データにメタデータの関係(主語・述語・目的語)を紐づけ、意味を持つデータとしたもので、モノとモノとの関連を表現するのに適したデータの持ち方

※4

「NTT DATA REAL INTELLIGENCE with Agility」サイト:https://abler.nttdata.com/

お問い合わせ