NTT DATA

DATA INSIGHT

NTTデータの「知見」と「先見」を社会へ届けるメディア

絞り込み検索
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
キーワードで探す
カテゴリで探す
サービスで探す
業種で探す
トピックで探す
2020年10月12日技術ブログ

最先端の言語処理モデルBERTを金融分野向けに特化

BERTはGoogleの開発した言語モデルで、近年の自然言語処理のデファクトスタンダートとなっており、大量のテキストを学習させることで文の意味も理解できるようになるとされている。
NTTデータでは、金融分野において行われる様々なテキスト解析へのBERT適用を目指している。

~「NTT DATA Technology Week 2020」連動企画~

※本記事は、「NTTデータ テクノロジーカンファレンス 2020」の講演内容に関連する記事です。
講演聴講については本記事の最下部をご覧ください。

1.BERTとは

BERT(※1)(Bidirectional Encoder Representations from Transformers)とは2018年10月にGoogleが発表した言語モデルです。
顔認識や文字認識などでAIのビジネス導入が進んでいる"画像認識"分野では大規模なデータセットで学習させたモデルを元に、他のデータセットで追加学習をさせる"転移学習"という技術が大きな成果をあげています。
この転移学習を自然言語処理に適用し大きな成果を達成したのがBERTです。
BERTは文書の文脈を理解でき、少ない学習データで既存の方式を上回る精度を実現する事例が多く報告されており自然言語処理のブレイクスルーとなりうる技術です。
私たちは、今後自然言語処理を活用したAIの導入が進むとしたらこのBERT技術ベースと考え、BERTを金融文書に特化させた金融版BERTを開発しました。

※1Google公式レポジトリ

https://github.com/google-research/bert

2.金融版BERT

BERTの技術ですが、実ビジネスデータには専門用語や特有の言い回しが多く含まれていることもあり、十分な効果を発揮できない場合もあります。
そこで出てくるのが、特定ドメインに特化させたドメインBERTという考え方です。
私たちはドメインBERTを構築する基盤を開発中であり、その技術を用いて日本語の金融文書に特化させたモデルが金融版BERTです。
金融版BERTはNTT研究所が開発したNTT版BERTを元にNTTデータで収集した金融関連文書を学習させたBERTモデルになります。(図1)

NTT版BERTの特徴は日本語BERTで最大のコーパスサイズ(※2)です。大規模なコーパスで学習をさせることで様々なドメイン、言い回しを学習できていると考えられます。 私たちは、金融関連文書をさらに追加し金融版BERTを構築しました。金融BERTは、金融関連文書を処理する際に高い単語予測精度を実現しているとともに、金融版BERTを用いて金融関連の資格試験を処理させた結果、高得点を取得することができたなど、その有効性は確認済です。(図2)

本結果のように、金融文書に対しては既存のBERTモデルより良い結果が出ています。
現在は、検証データでの効果確認段階であり、実ビジネスデータへは適用検証を進めている段階です。
今後以下のような業務に金融版BERTを適用していきたいと考えています。

  • チャットボットによる問い合わせ対応等
  • FAQの回答自動引き当て
  • 財務情報からのリスク抽出
  • 稟議書の記載内容チェック
  • 日報からの情報抽出

他にもBERTは、様々な言語処理の課題に適用が可能です。もし、金融関連で自然言語処理を適用したい課題がありましたらぜひ金融版BERTの活用を検討いただければと思います。

※2一般的な日本語BERTは3GB程度のデータで学習しているのに対し、NTT版BERTは12.7GBのデータで学習している。

3.今後の展望

今回は、金融版のBERTを開発しましたが私たちの目標は各タスクに最適なドメインBERTを容易に構築するドメインBERT構築基盤を開発することです。
皆様が自然言語処理に関するシステム導入を行いたいと思ったときに、最適なモデルをすぐに作れるようになることを目指しています。

イベントのお知らせ
NTTデータ主催 オンラインイベント

コロナ禍の状況で世の中が大きく変化する中、いち早く新たな未来を創っていくために、先進的な知見と確かな技術力の重要性がより高まっています。
本イベントでは、AIをエンタープライズで活用するための取り組みや、組織改革とクラウド活用の事例、COVID-19に立ち向かうNTTデータの最先端技術、OSSを中心とした最新技術動向など、NTTデータならではの先鋭的な技術トピックを、一緒に取り組んだお客様と共にNTTデータの高度な技術者がご紹介いたします。

本記事に関する講演情報
2020年10月14日 15:32~
※講演開始時間は変更になる可能性がございます。
「自然言語処理のビジネス適用を加速させるドメイン特化BERT」
NTTデータ 技術開発本部 野村 雄司

イベント詳細、お申込みはこちら
https://oss.nttdata.com/techconf2020/

NTT DATA Technology Week 2020

NTTデータ テクノロジーカンファレンス 2020と並行して、2020/10/12(月)~23(金)に「NTT DATA Technology Week 2020」を開催します。
日経BP社主催「日経xTECH EXPO 2020」と当社主催「NTTデータ テクノロジーカンファレンス 2020」の2つのオンラインイベントを中心に、よりよい社会の創造に向けてNTTデータが注目する技術情報を多数発信していきます。
このDATA INSIGHTでも、「#TechnologyWeek2020」とタグをつけ、関連する記事の紹介や新規記事の発信を行っていきます。
With/Afterコロナで新しい社会の姿が求められる中、今後の社会変化をリードするデジタルテクノロジーについて皆様と一緒に考える2週間にできればと思います。
ぜひご参加ください。

NTT DATA Technology Week 2020

お問い合わせ