2021.3.22技術ブログ

業務領域に最適化された言語モデルの構築:ドメイン特化BERT

自然言語処理をビジネス適用する際に、業界特有の専門性用語や言い回しを解析できないことが要因となって十分な精度が得られないことが課題となる。
NTTデータでは、BERTに追加学習することで、業務領域に特化した言語モデルを自動構築する体制を確立した。

1.自然言語処理のビジネス適用における課題

深層学習をはじめとしたAI技術が目覚ましい進歩を遂げており、自然言語処理技術のビジネス適用も進んでいます。近年の自然言語処理技術においては、汎用言語モデルであるBERT(※1)を中心とした技術が脚光を浴びています。しかし、実ビジネスで取り扱う文書の中には業界特有の専門性の高い用語や言い回しが多く、これらの要因により十分な精度を得られないことが課題となっていました。

業務領域(ドメイン)特有な用語や言い回しを含む文書に対して、類似表現を含む文書を大量に用意して汎用BERTに追加学習を施す、という方策が一定の成果を上げています。しかしこの方策が行えるのは、処理対象の業務文書と類似の文書が大量に蓄積されている場合や業務有識者が人手で類似文書を収集できる場合に限定されていることが課題となっています。

(※1)BERTとは

BERT(Bidirectional Encoder Representations from Transformers)とは2018年10月にGoogleが発表した言語モデルです。顔認識や文字認識などでAIのビジネス導入が進んでいる“画像認識“分野では大規模なデータセットで学習させたモデルを元に、目的のデータセットで追加学習をさせる“転移学習“という技術が大きな成果をあげています。この転移学習を自然言語処理に適用し大きな成果を達成したのがBERTです。
BERTは文書の文脈を理解でき、少ない学習データで既存の方式を上回る精度を実現する事例が多く報告されており自然言語処理のブレイクスルーとなりうる技術です。
Google公式レポジトリ
https://github.com/google-research/bert

2.ドメイン特化BERTフレームワーク

このような課題に対して、NTTデータでは自動収集したドメイン文書を用いてBERTに追加学習を行い、お客さまの業務文書に合わせて最適な言語モデルを自動で構築する仕組み(ドメイン特化BERTフレームワーク(FW))を開発しました。このFWは図1のような手順で処理対象の業務文書を解析して、追加学習に必要なドメイン文書を自動で収集します。

図1:ドメイン特化BERT-FWの処理概要

ドメイン特化BERT-FWの有効性を確認するため、金融知識を求められる課題として、教材制作会社作成の一種外務員資格試験(※2)の模擬試験に回答する試験回答AIを開発し、各モデルによる得点を比較しました。

ドメイン特化BERT-FWでは自動収集したドメイン文書を学習させることで、汎用BERTや人手で選定した文書を追加学習したモデル(金融版BERT(※3))に比べて、高い得点を得ることができました。(表1)

表1:金融外務員試験解答による性能検証結果

言語モデル 金融系資格試験の得点※
NTT版BERTモデル 280点
金融版BERTモデル 308点
ドメイン特化BERT-FWによるモデル 328点

※440点満点で合格相当点数は308点(7割)

(※2)一種外務員資格試験

金融商品取引法上の登録外務員として、金融商品を取り扱う者の資質確認のため日本証券業協会が実施する資格試験。金融商品取引業に関する法令・諸規則の知識等が問われます。

(※3)金融業界向け自然言語処理技術の検証開始

~金融版BERTモデルの開発~
https://www.nttdata.com/jp/ja/news/release/2020/071000/

3.ドメイン特化BERT-FWの想定業務例

ドメイン特化BERT-FWの適用先の例として下記のような業務を想定しています。

  • 電子カルテの記載内容チェック
  • 論文・症例報告を活用した創薬支援
  • 安全データシート(SDS)記載の危険度チェック
  • 試薬の法規制確認・リスク評価
  • 稟議書の記載内容チェック
  • 日報からのプロジェクトリスク抽出
  • FAQの回答自動引き当て
  • 社内文書(マニュアル・技術文書 等)検索

その他にもドメイン特化BERT-FWは、さまざまな言語処理の課題に適用できます。もし、ビジネス文書に自然言語処理を適用したい課題がありましたらぜひドメイン特化BERT-FWの活用を検討いただければと思います。

共同検証のご相談・お申し込みはこちらから
https://www.nttdata.com/jp/ja/news/release/2021/031600/

- NTTデータは、「これから」を描き、その実現に向け進み続けます -
お問い合わせ