町田市、郡山市、市川市、つくば市、横浜市、福岡市におけるAI-OCR実用性の検証結果について ~自治体業務においてAI-OCRが紙帳票デジタル化の有効手段であることを確認~

サービスインフォメーション

2019年3月27日

株式会社NTTデータ

株式会社NTTデータ(以下:NTTデータ)は、複数のRPA先進自治体注1とともに、スマート行政実現に向けた企画開発の一環として、実帳票を用いたAI-OCR注2の実用性検証を2018年12月から2019年3月まで実施しました。注3今回の検証では、AI inside株式会社(以下:AI inside社)のAI-OCRソリューションである「DX Suite」を活用し、町田市、郡山市、市川市等で実際に使用している帳票を読み取った場合の正読率を測定したところ、約93%という結果が得られ、自治体が大量に保管する紙帳票のデジタル化の有効な手段の一つであることを確認しました。

今後NTTデータは、セキュリティが確保された環境下で自治体がAI-OCRを活用できるサービスの検討をはじめとし、自治体におけるRPA等のAI・ロボティクスの活用拡大をサポートしていきます。

背景

NTTデータが2018年5月に成果報告した、茨城県つくば市(以下:つくば市)とのRPA活用に関する共同研究注4では、自治体におけるさらなるRPAの活用促進の課題として、「大量に保管している紙書類のデジタル化」、「RPAに精通している職員の育成」、「RPAシナリオを組織内で共有する仕組み」を挙げています。

これら3つの課題のうち、「大量に保管している紙書類のデジタル化」への対応策として、NTTデータでは、紙の帳票をAI-OCRで電子化しRPAソリューションと連携させる自治体向けサービスを検討しています。その一部の実用性を検証するため、2018年12月より、町田市、郡山市、市川市等、RPAを導入済み又は検証中の自治体より実帳票を受領し、AI-OCR正読率検証を実施しました。

共同研究概要

今回、AI-OCRソリューション「DX Suite」とRPAソリューション「WinActor」を活用したスマート行政サービス実現に向けた取り組みの一環として、各自治体の各種業務の実帳票およびサンプルデータを「DX Suite」でどの程度の精度で読み取れるかを検証しました。

実証期間2018年12月~2019年3月
参加団体注5つくば市(給与支払報告書、出生届等)
町田市(介護保険認定申請書、国民健康保険療養費支給申請書等)
横浜市(妊婦健康診査費用助成申請書、納入済通知書等)
福岡市(就学援助の申請書、給与支払報告書等)
郡山市(保育の利用申込書等)
市川市(児童手当・特例給付認定請求書等)
対象帳票73帳票(参加団体が実用している帳票)
サンプルデータ参加団体が作成したサンプルデータ

共同研究成果

自治体の業務や帳票によって、実用に耐え得る可能性があることを確認

今回の検証では、実用を想定し雑字、くせ字、悪筆等、さまざまな手書き記載サンプルデータを参加団体が作成しました。また、AI-OCRシステムの未習熟者が作業することを想定した帳票定義により読取検証したところ、正読率約93%という結果が得られ、参加団体からは、自治体の業務や帳票によって実用に耐え得る可能性があるという意見がありました。

読取結果の傾向

読取結果からは、以下のような傾向が明らかになりました。

  1. 1.目視でも判読が難しいような、雑字、くせ字、悪筆等は、誤読となる傾向がある。
  2. 2.罫線や枠線と文字が重なるケース、文字が枠線からはみ出るケースでは誤読となる傾向がある。
  3. 3.くせ字や、固有名詞等の情報は、AI-OCRがさらに学習していく必要性はあるが、その他に自治体帳票固有の学習データを必要とするような傾向は認められなかった。

帳票の様式を見直すことで正読率向上が期待できる例

帳票の様式を見直すことで正読率の向上が期待できる例も抽出されました。

  1. 1.帳票様式にあらかじめ印字されている、日付の年月日等区切りを示す「.」や選択肢を示す「○」(点線の○)がある帳票
  2. 2.記入枠が小さく手書き文字が記入枠の罫線と重なりやすい、または記入枠からはみ出しやすい帳票
  3. 3.帳票裏面の文字が表面に裏写りする帳票 等

帳票の様式の見直し以外にも、AI-OCRシステムの帳票定義作業に習熟する、または帳票定義作業自体を習熟した事業者に委託するといったことにより正読率が向上することも期待できます。

検証結果の詳細については、以下の報告書をご参照ください。

町田市、郡山市、市川市、つくば市、横浜市、福岡市におけるAI-OCR実用性の検証結果報告書(PDF:38ページ, 4,463KB)

共同研究成果に対する参加自治体の意見

  • 予想していたよりも正読率が高い印象をもった。
  • 法律で定められている様式を変更することは難しいが、今回の検証の読取結果をふまえて様式見直しの余地がある帳票もある。
  • 入力内容にミスが許されない業務については、2名体制で入力しているケースもあり、その一部にAI-OCRを活用するということも検討できる。
  • 帳票に手書きで記載されるデータのすべてをシステムに入力しないケースがあり、入力しない項目についてはAI-OCRで読み取る必要がない、又は必ずしも高い正読率を必要としない。
    例 帳票に記載されている内容をすでにシステムに入力されているデータとの照合用に活用している 等
  • 正読率向上の観点で現行の帳票を見直してみると、どういった目的で記載が必要なのかが不明となっている項目やほぼ同じ情報を複数個所に記載する帳票がある。

今後について

AI-OCRは、自治体が大量に保管する紙帳票のデジタル化に有効な手段の一つであることを確認しました。

今後労働力の絶対量が不足することが予想される中で、RPAをはじめとするAI・ロボティクスが活用できる業務においては自動処理を前提としたスマート行政への転換の機運が高まっています。今後NTTデータは、セキュリティが確保された環境下で自治体がAI-OCRを活用できるサービスの検討をはじめとし、スマート行政実現に向け、さまざまな側面からサポートしていきます。

「DX Suite」について注6

AI inside社が提供する「DX Suite」は大量の紙書類を高精度で仕分け・データ化し、業務効率化を支援するAI-OCRソリューションです。NTTデータは、DX Suiteをオンプレミス型とクラウド型の両形態で提供するパートナーとして、サービスを展開しています。

「WinActor」について

Windows操作ロボット「WinActor」は、2010年に日本電信電話株式会社の研究所が開発した技術をベースとする純国産のRPAソリューションで、提供パートナー開拓や技術研修教材作成等を、販売元のNTTデータが担当しています。

https://winactor.com/

注釈

  • 注1RPA先進自治体とは、自治体内でRPA導入済み又は、検証中の自治体をさします。
  • 注2AI-OCRとは従来のOCR技術と「機械学習」・「深層学習」とを組み合わせ、学習した内容に基づいてルールを見出して読み取る技術のことで、手書き文字や項目ごとの認識を高い精度で行えるものです。
  • 注3NTTデータ 2018年12月5日ニュースリリース「つくば市、町田市、横浜市、福岡市、郡山市、市川市と業務効率化に向けてAI-OCRの実用性を検証」
    https://www.nttdata.com/jp/ja/news/release/2018/120501/
  • 注4NTTデータ 2018年5月11日サービスインフォメーション「自治体における「WinActor」活用に関する共同研究成果を公表」
    https://www.nttdata.com/jp/ja/news/services_info/2018/051101/
  • 注5福岡市については株式会社NTTデータ九州、郡山市については株式会社NTTデータ東北が窓口となります。
  • 注6NTTデータ 2018年9月27日ニュースリリース「AI inside社と業務提携し、RPAとOCRによる一元的な事務効率化を実現」
    https://www.nttdata.com/jp/ja/news/release/2018/092701/
  • 「DX Suite」は日本国内におけるAI inside株式会社の登録商標です。
  • 「WinActor」は日本国内におけるNTTアドバンステクノロジ株式会社の登録商標です。
  • その他の商品名、会社名、団体名は、各社の商標または登録商標です。

本件に関するお問い合わせ先

製品・サービスに関するお問い合わせ先

株式会社NTTデータ
社会基盤ソリューション事業本部
ソーシャルイノベーション事業部
ソーシャルビジネス統括部
第二営業担当
里田、松村、伊藤、早川
TEL:050-5546-2123、050-5546-2448