ドメイン特化BERTを活用したライフサイエンス文献の検索性向上技術の開発 ~ライフサイエンス文献データへのドメイン特化BERT構築フレームワークの適用で有用性を確認~

サービスインフォメーション

2022年7月15日

株式会社NTTデータ

株式会社NTTデータ(本社:東京都江東区、代表取締役社長:本間 洋、以下:NTTデータ)は、国立研究開発法人科学技術振興機構(本部:埼玉県川口市、理事長:橋本 和仁、以下:JST)からの協力を受けて、ライフサイエンス文献データへのドメイン特化BERT構築フレームワーク(以下:ドメイン特化BERT-FW)注1を適用する研究を行いました。汎用言語モデルBERT注2を特定の領域(ドメイン)に適した言語モデルへと自動でチューニングするもので、ライフサイエンス領域文書の索引語自動付与を対象としています。
本研究の結果、ライフサイエンス領域文書の大規模データ注3により事前学習したBERTと、小規模データを入力にドメイン特化BERT-FWを用いて自動構築したBERT注4がライフサイエンス領域文書への索引語付与において同等の精度(平均72%の正解率)を記録し、ドメイン特化BERT-FWの有用性が確認できました。
本研究により、各企業内の専門用語や特有の文脈への対応が必要な分野での自然言語処理技術活用の幅が大きく広がることを見込んでいます。今後NTTデータは、ドメイン特化BERT-FWを活用することでさまざまな領域への自然言語処理技術適用を加速させていきます。

背景

近年、製造業の研究開発領域における目覚ましい勢いでの技術進化に伴い、論文や特許・実験データなどの専門領域における文献データの利活用の重要性が増しています。

研究開発領域の文書に対しては、業界特有の専門性の高い用語や言い回しなどの業界特有の知識を学習したドメイン特化BERTの活用が注目されていますが、単一の企業内でのドメイン特化BERTの構築には以下の課題がありました。

  • 大規模の学習データを要することから、学習データを十分にそろえることができない
  • AIの専門家によるチューニングが必要で、構築に期間を要する

本研究の概要

本研究では、製造業の研究開発領域におけるこれら課題に対して、ライフサイエンス領域文献のデータセットをインプットに、ライフサイエンス領域文書に対する索引語を以下の2種類のBERTで自動付与し、ドメイン特化BERT-FWの有用性を検証しました。

  • (1)ライフサイエンス領域文書の大規模データ(88万行:133MB)により事前学習したBERT
  • (2)小規模データ(単語3万語:2MB)を入力にドメイン特化BERT-FWを用いて自動構築したBERT
研究期間 2021年12月~2022年3月
研究目的
  • ライフサイエンス領域文書に対してJSTが保有する辞書等の語彙(ごい)に基づく分野特有の索引語を自動付与する手法の検討
  • ドメイン特化BERT-FWにより構築したモデルの精度確認
研究成果

ドメイン特化BERT-FWにより自動構築したBERTがライフサイエンス領域文書の大規模データにより事前学習したBERTと同水準の正解率(平均72%)を記録しました。
この結果から、ドメイン特化BERT-FWを活用することで、AIの専門家を要することなく、小規模の学習データでも業務文書ごとに最適化された高精度な言語モデルを提供できることを確認しました。

さらに、本検証では索引語付与における手法をBERTのみで実施しましたが、その他のアプローチ(グラフニューラルネットワークやシソラースの活用など)を組み合わせることでさらなる精度の向上が見込まれると考えています。

今後について

本研究により、大規模の学習データや専門スキルを要することなく、高精度な言語モデルを短期間で得られることを確認できました。これにより各企業内の専門用語や特有の文脈への対応が必要な分野での自然言語処理技術活用の幅が大きく広がることを見込んでいます。今後、NTTデータの持つ自然言語処理に関する独自ノウハウや技術を活用し、ドメイン特化BERT-FWの実ビジネス適用を推進予定です。

ドメイン特化BERT-FWの想定業務例

  • 試作品の法規制確認・リスク評価
  • 論文・特許などの専門文書からの情報抽出・分類分け
  • 社内文書(マニュアル・技術文書 等)検索
  • 実験ノートの記載内容チェック 等

注釈

  • 注1NTTデータが開発した、汎用言語モデルであるBERTに追加学習を行い、お客さまの業務文書に合わせて最適な言語モデルを自動で構築する仕組み。
  • 注2BERT(Bidirectional Encoder Representations from Transformers)とは2018年10月にGoogleが発表した自然言語処理モデルであり、自然言語処理分野のさまざまなベンチマークにおいて従来モデルの精度を上回るなど近年非常に注目されています。
    https://arxiv.org/abs/1810.04805
    https://www.nttdata.com/jp/ja/news/release/2021/031600/
  • 注3本取り組みの学習・評価用に準備したライフサイエンス領域文献の88万行(約133MB)のテキストデータ
  • 注4単語3万語(約2MB)を入力に、インターネット上から収集した類似テキストデータにより自動構築したBERT
  • その他の商品名、会社名、団体名は、各社の商標または登録商標です。

本件に関するお問い合わせ先

株式会社NTTデータ
製造ITイノベーション事業本部
第四製造事業部
安藤
E-mail:ndrdcoe@kits.nttdata.co.jp