1. RPAとAI-OCRの関係
働き方改革の一環として業務の効率化が求められている昨今、Robotic Process Automation(以下RPA)という技術が多くの企業の注目を集めています。RPAとは、マウスやキーボードを自動操作してコンピュータ上での業務を効率化・自動化してくれるソフトウェアのことです。Roboticという語感から機械的なロボットを想像するかもしれませんが、一般的なソフトウェアと同じくPCにインストールして使うものです。
PC操作を自動化してくれるので「大量のデータを打ち込む業務」のようなルーティンワークをほぼ自動で実行できます。これまで、自動化の仕組みを作ろうとした場合は、既存システムを改修するなどの手間をかける必要がありましたが、PC上で動作するRPAは手軽に業務時間の短縮や人的コストの削減といった効果が得られるという期待から、多くの企業がRPAの導入を検討し始めています。
ただし、RPAだけを導入しても、その活用範囲は限られています。RPAはあくまで人間が事前に作ったルールに沿って動くものであり、画像や文字などを認識する能力や、状況に応じてどう動けば良いかを判断する能力を有しているわけではありません。この部分はAIをはじめとする他のソフトウェアの力を借りる必要があるのです。
紙書類の情報をPCに自動で打ち込んでいくためには、まずは文字認識技術(OCR)を使って紙から文字情報を取得し、その情報をRPAに渡してデータ入力していくという流れになります。このような関係性から、よくOCRは「目」、RPAは「手」に喩えられます。RPAに関する詳細な説明は関連記事(※1)をご覧ください。
一方、OCRについてですが、こちらは昔から存在する技術で深い歴史をもっています。日本で郵便番号制度が開始された1960年代に初めて国産のOCR製品が登場したと言われています。(※2)
それほど昔から研究が重ねられてきた技術ですので、2018年現在においては、もはや「完成された技術」と認識されている方も多いでしょう。しかし、実は今、OCRは長い歴史の中で転換期を迎えています。生物の脳構造からヒントを得て考案されたディープニューラルネットワーク(以下DNN)をはじめとする最新のAI技術が活用され、OCRエンジンの仕組み自体が抜本的に変わってきたのです。これまでの技術では解決困難とされていた様々な問題をクリアしたこと、更にRPAと組み合わせることでビジネス適用の幅が広がったことが拍車をかけて、現在は大企業もベンチャーもこぞってOCRの研究開発レースで競うまでになっているのです。
以下では、AI技術で進化したOCR(以下AI-OCR)によって何ができるようになったのか、また、どのようなビジネスへの適用が見込めるかについてご説明します。
2. AI-OCRが解決した2つの課題
2018年4月に日本最大のAI技術の展覧会が開催されました。私たちも出展させていただいたのですが、ご来場のお客様から「RPAの拡張機能としてAI-OCRに非常に期待している」というお声を多数頂戴いたしました。年間で数百万枚の帳票を扱う企業もあり、いま最も注目されている業務改善対象のひとつが紙の業務だと言われているのです。しかし、従来の(AI未搭載の)OCRをもちいて自動化しようとした場合、大きく2つの課題がありました。
課題1. フリーピッチ文字列への対応「ピッチ」とは印刷用語で「文字と文字の間隔の広さ」を意味します。活字やデジタルフォントのピッチはある程度決まっていますが、手書きの場合は書き手によってピッチがバラバラです。このようなピッチが不定である文字列を「フリーピッチ文字列」と呼びます。
図1:フリーピッチ文字列に関する課題
これまでのOCRでは、1文字1文字を個別に認識することで、かなり高い精度を実現していました。例えば、赤い枠で文字領域が定義されているハガキの郵便番号などはこのタイプのOCRが使われています。一方で、フリーピッチの場合は1文字1文字を区切る境界が曖昧であるため従来型の認識は困難でした。
これを解決したのが、生物の脳構造からヒントを得て考案されたDNNと呼ばれるネットワークと、それをもちいて学習を行うディープラーニングというAI技術です。顔認識や物体認識にも使われており、最近では新聞でもよく目にする言葉となっています。
AIは、「教師データ」と呼ばれる正解の情報を与えることでデータの特徴を獲得していきます。人間が何かを勉強するときと同じように、AIも最初は何度も間違った答えを出します。それに対して、教師データで正しい答えを教えてあげることによって、AIが答えを導き出すプロセスが是正されます。これがAIの「学習」と呼ばれている現象です。
これまでの文字認識が1文字単位であったのに対し、新方式では複数の文字をまとめて教師データとして学習します。この学習によって、フリーピッチ文字列を文字ごとに分けず画像全体を一括で認識できるようになり、従来よりも精度を大幅に伸ばしたのです。
図2:特長(1) DNNによるフリーピッチ文字列への対応
課題2. 非定型帳票への対応OCRで請求書を読み取る場合を考えてみます。請求書には、企業名や請求金額などの様々な項目が書かれています。特定の項目だけを読み取るためには、それが「どこに書かれているか」という位置情報が必要となります。一般的なOCR製品には、「帳票定義」と呼ばれる、項目の位置を手動で設定できる機能があります。最初の1回だけ帳票定義を行っておけば、2枚目以降の同じレイアウトの請求書に対しては、自動で項目を抽出することができるようになります。このように項目特定が自動化できる同じレイアウトの帳票のことを「定型帳票」と呼びます。
一方、レイアウトがバラバラな帳票のことを「非定型帳票」といいます。非定型帳票では項目の出現位置が不定であるため、OCRで読み取る位置が定まらないという問題がありました。
図3:非定型帳票に関する課題
ここでも、ディープラーニングが活躍します。位置を特定する問題はディープラーニングの得意分野です。数百枚の帳票を教師データとして与えて学習することで、事前に帳票定義をすることなく様々なレイアウトの非定型帳票から文字列を抽出できるようになります。
これまで、非定型帳票に対しては「必要な項目を探す」、「入力結果を確認する」という手間がかかる作業を人手で実施するしかありませんでしたが、この技術によって非定型帳票の自動化の機運が一気に高まりました。
図4:特長(2) 様々な非定型帳票から特定項目を自動抽出
3. AI-OCRのビジネス適用
実ビジネスへ適用する場合は、実際の業務課題となっている紙書類の特性を見極め、フリーピッチ技術、非定型帳票技術、もしくは従来型OCRのいずれを使うべきか判断する必要があります。
申込書のような手書きの定型帳票であればフリーピッチ技術が適していますし、見積書のような活字の非定型帳票であれば非定型帳票技術を使用したほうが良いでしょう。また、活字の定型帳票であれば従来型OCRが適しているでしょう。
また、「精度を担保する」という観点も重要です。実際の業務で使う場合はAI-OCRとRPAだけで全自動化するのではなく、人間の目によるチェックも必要となってきます。人間のチェック業務が増えることによって人的コストが増大してしまっては本末転倒ですので、人間と機械をうまくコラボレーションする必要があります。
たとえば、これまで2人の人間によるダブルチェックが行われていた業務に対して、片方の人間をAI-OCRに置き換えるという方法があります。この方法では、もう一方の人間によってチェックが行われるので精度も担保でき、従来より人件費を抑えることもできます。
このように、現在の業務プロセスにうまく適合できるシナリオを検討することが重要です。
4. さいごに
AI-OCRとRPAは非常に親和性が高く多くの企業で業務効率化の要と認識されるようになってきました。様々な分野のお客様に対して効果を発揮できる技術ですので、分野問わずこの技術が適用されることを夢見て、今後も研究開発に取り組んでまいります。
- ※1 RPAとAIで描く未来 ~RPA発展に関するよくある誤解とAI利用事例~:
http://www.nttdata.com/jp/ja/insights/blog/20180406.html - ※2 OCR ~ 誕生と発展の歴史
http://museum.ipsj.or.jp/computer/ocr/history.html