NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2020年6月8日技術ブログ

ヒトの思考ロジックをなぞらえる「ナレッジグラフ技術」

ナレッジグラフ技術の源流である「知識獲得」技術は1970年代から研究されはじめ、セマンティック・ウェブなどの「知識を蓄える」技術開発にとどまっていた。近年の自然言語処理技術の劇的な革新により、再びビジネス活用への期待が高まっている。

ナレッジグラフ技術のユースケース例:契約書リスクチェック

まずは、ナレッジグラフ技術の活用方法について、当社が取り組んでいる契約書リスクチェックを例にご紹介します。
契約書を他社と取り交わす場合、契約内容についてリスクチェックを行います。通常は、知財室や弁護士がチェックを行いますが、チェックと修正の往復により、契約締結までの時間がかかってしまうケースがあります。当社が開発中の契約書リスクチェックツールでは、担当者自身の一次チェックを可能とし、チェックと修正の往復を削減することで、契約締結までの時間を短くすることを目指しています。
本ツールでは、契約書の文書構造を解析し、解析した契約書の内容とリスクチェックの観点を紐づけることで、リスク該当箇所を特定します。当社がこれまでに培ってきた自然言語処理技術を活かし、複雑な文からの文書構造解析技術と、単語間の関係性も考慮した概念とのマッピング技術により、リスクチェックを実現しています。構築されたナレッジグラフにより、どの記述箇所がなぜリスクとなるかも併せて確認することができ、スムーズな修正を支援します。(図1)

図1:契約書リスクチェック

図1:契約書リスクチェック

ナレッジグラフとは

契約書リスクチェックツールの基盤となっている技術が「ナレッジグラフ技術」です。では、「ナレッジグラフ」とはなんでしょうか。我々が自動構築を目指しているナレッジグラフとは、業務文書内の単語間の関係性に加えて、各単語に業務上の概念を意味づけして結び付けたものをさします。
図2では、契約書のリスクチェック業務におけるナレッジグラフの一部を提示しています。
人間は、契約書に記述された単語「遅延損害」と「500万円」が「金額」という関係にあることを理解し、「遅延損害」という単語が「損害賠償」について書かれていると解釈して、契約書を読解します。ナレッジグラフはこの読解プロセスを模倣しており、人が契約書リスクを理解する「ナレッジ」を表現しています。
業務文書から抽出した単語をインスタンス、業務上の概念を表現したものをオントロジ―と呼び、このインスタンスとオントロジ―を紐づけたものがナレッジグラフとなります。

図2:ナレッジグラフとは

図2:ナレッジグラフとは

このナレッジグラフを活用することで、「期間」など条件に基づく細やかなチェックや検索を行うことができます。たとえば、図3のように、「10日以上の遅れに関して遅延損害金を支払う」場合、「20日」ならば500万円を支払い、「5日」ならば支払う必要なしとなります。
このように、ナレッジグラフ技術では、条件などを伴う情報を明示的に解析することが可能です。契約書リスクチェック以外にも整合性チェックやマニュアル検索など、細やかな観点のチェックや、文書ごとに表現の異なる情報の検索を行うユースケースに活用できます。(図4)
当社では、ナレッジグラフ技術を活用して、より柔軟で高度なデータ管理をサポートとするブランド「Abler™」を創設し、サービスをご提供しています。Ablerにより、従来のデータの蓄積・可視化だけでなく、「理解」までサポートしたデータ管理を実現します。

(データ管理参考記事:「知識は水となりえるか。ナレッジグラフの効用と活用」,
Abler™: https://abler.nttdata.com/

図3:ナレッジグラフを活用した検索例

図3:ナレッジグラフを活用した検索例

図4:ナレッジグラフ活用ユースケース例

図4:ナレッジグラフ活用ユースケース例

ナレッジグラフ技術

では、どのようにナレッジグラフを構築すればよいのでしょうか。ナレッジグラフ技術には、単語を抽出し業務上の概念と紐づける構築技術と、業務上の概念を表現するオントロジ―を構築する体系化技術があります。
構築技術は2種類のアプローチに分かれており、(1)情報間の関係をあまねく抽出して意味と対応づける手法と、(2)概念に応じて情報を抽出し情報間の関係を抽出する手法があります。(図5)
(1)の手法は、入力文章から、「太郎が東京都に住む」という関係を抽出し、「東京都が都市」であり、「太郎は日本人」、「住むのが在住」という概念であることを紐づけます。
(2)の手法は、入力文章に対して、「都市」に相当する「東京都」、「日本人」に相当する「太郎」を 抽出し、「都市」と「日本人」の関係から「東京都」と「太郎」の関係を判定します。
(1)は、契約書リスクチェックなどの文脈によって情報の意味づけが変化するユースケース、(2)は自動車のマニュアル検索など、文脈によらずに一意に情報の意味が確定するユースケースに有効です。
それぞれのアプローチの技術には、自然言語処理分野の要素技術が活用されています。

図5:ナレッジグラフ構築アプローチ

図5:ナレッジグラフ構築アプローチ

また、体系化技術では、ドメインデータから業務に必要な情報やドメイン固有の情報を自動的に抽出し、人手で評価してフィードバックを行います。将来的には、この技術により、チェックを行う観点や業務知識の体系化を半自動で行うことを目指しています。この体系化技術は4つのステップからなり、各ステップで様々な研究が行われています。(図6)

図6:体系化知識構築のステップ(ontology learning layer cake: A survey of ontology learning techniques[Muhammad Nabeel et al, 2018])

図6:体系化知識構築のステップ
(ontology learning layer cake: A survey of ontology learning techniques[Muhammad Nabeel et al, 2018])

当社では、独自のナレッジグラフの構築技術とオントロジ―体系化技術を開発しており、様々なアセット開発に取り組んでいます。冒頭でご紹介した契約書リスクチェックツールは、リスク解析対象の範囲拡大や性能の向上を実施しており、今年度には社内PoCでその有効性を確認する予定です。さらに、帳票などの整合チェックやマニュアル横断検索などの様々な業務課題にナレッジグラフ技術を適用し、ユースケースを拡大していきます。
世界的にも注目を集め始めているナレッジグラフ技術は、これまで実現できていなかった「人間のような判断」を可能とする領域に、新たな変革を起こしていく技術となるでしょう。

お問い合わせ