2018年6月21日INSIGHT

山田誠二（人工知能研究者）

ディープラーニングの台頭によって、AI研究は第三次ブームを迎えています。 AI搭載の家電やガジェットが普及するなかで、「AIとの共存社会」も現実味を帯びてきています。国内のAI研究の第一人者、山田誠二さんに、業界の動向、展開について伺います。

変わりゆくAIの「知能」

AIの解釈は十人十色

───AIというと、SF小説や漫画に登場するロボットなどのイメージが先行している印象です。現実におけるAIとは、どのような技術を指すのでしょうか。

AIというのは「Artificial Intelligence」の略語で、「Intelligence」というのは、知性や知能を指します。つまりAIとは人工的（Artificial）に知能・知性（Intelligence）を実現させるための研究、技術のこと。日本では「人工知能」と訳されますね。

ただ、AIをどう解釈するのかは研究者によって千差万別。ソフトウェアで実装すればいいという研究者もいれば、ロボットのような物理的な身体性を備えていなければ、知能は生まれないと主張する研究者もいる。表現や解釈の違いはありますが、概ね「人間の知的な行動を工学的に実現する」というコンセプトが根底にはあります。

山田誠二（やまだ・せいじ）国立情報学研究所教授、総合研究大学院大学教授、一般社団法人人工知能学会第16代会長。1989年、大阪大学大学院基礎工学研究科博士課程修了。同年、大阪大学基礎工学部助手に。その後、大阪大学産業科学研究所講師、東京工業大学大学院総合理工学研究科助教授を経て、2002年、現職に至る。現在、HAI（Human Agent Interaction）や、IIS（Intelligent Interactive Systems）などを主な研究分野とし、様々なプロジェクトを推進中

それでは「知的な行動」とはなんでしょうか？　いまだ人間の知性や知能は未解明で、曖昧模糊としたものです。突きつめれば哲学的、宗教的テーマにまで及ぶでしょう。しかし、曖昧だからこそ、AIが多様性をもって発展できるという側面もある。

すなわち、思考を伴っているような対応ができれば、ひとまずの目標は達成できるとも言える。要は、人間に「お、なんだか賢いな」と思わせるくらいの能力があればいいわけです。それを実現するのにも高度な技術が必要で、簡単なことではありませんが。

AI研究の遮る、暗黙知の壁

───現在、メディアで扱われるAIの記事を見ると、「ディープラーニング(※1)」が話題の中心になっていますね。

やや持ち上げられすぎですが、ディープラーニングが世間からの注目を集めているのは事実です。AI研究の歴史を追うと1950年代の第一次ブーム、1980年代の第二次ブームを経て、現在の第三次ブームに至ります。第二次ブームは、「エキスパートシステム(※2)」が主流だった時代。エキスパートシステムによって、AI研究はかなり発展するだろうという期待感があった。

典型的なエキスパートシステムは、特殊な疾患を診断する医師の代わりとして開発されたAIです。しかし、開発を進めていくなかで予期せぬ問題が浮上します。当初、医師は論理的な考えのもと診断していると思われていたのですが、実際は直感的だったり、曖昧な経験則を頼りにしていたりすることがわかったのです。職人のもつ勘や推論は言葉で説明できませんから、コンピュータプログラムに置き換えることもできない。

こうした問題は、医師の診断だけに該当するわけではありません。人間は二足歩行を難なくこなしますが、いざ「どうやって歩いているのか教えて」と言われても説明できませんよね？　学校で教わることなく、自然と二足歩行を体得してしまう。いわゆる暗黙知(※3)をAIに取りこむのは非常に困難なのです。

「暗黙知を人間が説明できないなら、コンピューターによってアルゴリズムを割り出してもらおう」。そうして注目を集めた手法が機械学習でした。

機械学習でも先端を行くのが、昨今のブームを起こすきっかけにもなったディープラーニングです。これは、人間の脳の神経回路を模したニューラルネットワークを使い、大量の訓練データを読み込ませ、学習させる手法。イヌ・ネコを判別するAIを開発する場合、コンピューターに「イヌ」もしくは「ネコ」の正解ラベルを設定した画像データを大量に読み込ませていきます。すると、それぞれの画像データの特徴を抽出し、イヌ・ネコが判別できるようになっていくのです。

ディープラーニングのパターン認識の強さは、2012年に開催された画像認識コンペティション「The ImageNet Large Scale Visual Recognition Challenge 2012」で知られるようになりました。トロント大学の研究者らがディープラーニングを取り入れたアルゴリズムで、二位以下に圧倒的な差をつけて優勝したのです。

分類もまた知能のひとつ

───画像データの認識が、知能とどのように結びつくのでしょう。

画像の認識もある種の知能と言っていいと思います。ディープラーニングならイヌ・ネコだけでなく、1千、2千クラス（＝カテゴリー）の画像を認識できます。会議室内にあるものなら、ホワイトボードやテーブル、イスなどほとんどの物を認識できるということです。数千を越える認識が可能になれば、人はなんとなく「なんでもできそう」と感じてしまう。AIなりの知能とはそういうものなのではないでしょうか。

物の認識は「分類」へ通じます。生物は生き残るために補食対象を分類する必要がありました。生物の進化から照合しても、物の分類というのは重要なファクターだったわけです。分類することが「知能」の一端を担っていたのではないか、と。

───ディープラーニングが暗黙知を理解する可能性は？

正直なところ、ディープラーニングでは厳しいですね。教育せずとも人間に備わっている膨大な知識が、暗黙知なのではないでしょうか。言い換えるなら「常識」といったところです。

二足歩行を学習するにしても、同じ人でも、坂道なのか車道なのかで歩き方もずいぶん変わってくる。パターンが膨大で、AIが学習できるだけの具体例を集めるのが、すでに非現実的なんです。

また、我々人間は、目の前にコップがあれば、それが紙製であろうがガラス製であろうが即座に「これはコップだ」と認識できる。子どもでも10種類ほどコップを見れば、コップとはどういうものか、を理解できるのではないでしょうか。しかし、AIは、ディープラーニングで学習したとしても何千、何万点もの見方の違うコップの画像を取り込まなくては認識できません。

このテの話題で挙がるのが「うなぎ文」です。電車の中やオフィスで「わたしはうなぎだ」と発したら、ただの変な人になってしまいます。しかし、場所がうなぎ料理を出す飲食店なら「わたしはうなぎだ」と言っても全く問題がない。つまり、おなじ言葉でも状況によって意味は大きく異なる。人間は社会性が備わっているので、ニュアンスを汲み取れるますが、AIではまだ上手くいっていないのが現状です。

AIと人をつなげる技術

───現在、山田先生が研究対象にしているHAI（Human Agent Interaction）について教えてください。

HAIは、人間と擬人化したAI（エージェント）間のインタラクションデザインを目的にした研究分野になります。要は人間とエージェントとの間でやりとりされる、あらゆる情報を設計すること。

AIを擬人化することで、情報への理解が進み、また説得力が上がるという利点が生まれます。AIの外見、話す速度、どの程度の機能を持たせるか、などこれまであまり研究されてきておらず、まだまだ開拓の余地があります。

たとえば、家電量販店に買い物に行った際、買う物は始めから決まっていたはずなのに、店員のすすめで別の商品を買ってしまった、なんてことは誰しも経験があるでしょう。
この店員を擬人化したAIに置き換えたのが、HAIの応用例である「PRVA(※4)」（Product Recommendation Virtual Agent）です。この研究の肝は「ユーザーの感情」と「ユーザーによるエージェントの知性の評価」。対話を通じて、ユーザーはAIに知性を感じ、さらにAIの表情やジェスチャーによって感情を高揚させて、購買につなげるというものです。

───HAIと並行して研究しているIISも、AIと人間との関係性を築く技術ということでしょうか？

はい、これまでのAI研究は、AIがスタンドアローンで動いたとき、どれだけの性能が示せるかが主題でした。IIS（Intelligent Interactive Systems）は、人間とAIが得意なタスクを分担して、協調して問題解決するシステムです。

知的インタラクティブシステムIIS（提供：山田誠二研究室）

IISの要素技術のひとつに「インタラクティブ機械学習」があります。機械学習するには人間が訓練データを手配する必要があり、データひとつひとつに正解のラベルを付けていく。そして、AIはラベル付けされた訓練データを読み込み、学習する。出力された学習結果は人間が理解できるように可視化され、人間は応用したデータを再びAIに読み込ませる。そうしたAIと人間、双方にとって使いやすい枠組がインタラクティブ機械学習と呼ばれます。

インタラクティブ機械学習（提供：山田誠二研究室）

※1ディープラーニング

脳の神経回路を模した機械学習用モデル「ディープニューラルネットワーク」を用いて、コンピューターに学習させる手法。モデルは入力層・中間層・出力層から構成される。データを入力層で受け取り、計算した結果を出力層から出力する。中間層の層が増えることでより学習精度が向上し、複雑なパターン認識などが可能になる。適用分野は画像認識、音声認識、言語処理など。「深層学習」とも言われる。

※2エキスパートシステム

特定分野における専門家の意思決定能力を模倣するシステム。専門家の意見をもとに体系化された「○○の場合には□□せよ」というルールを集積した「知識ベース」と、知識ベースを参照して推論を実行する「推論エンジン」で構成される。

※3暗黙知

長年の経験やノウハウ、直感、勘など主観的で言語化できない知識のこと。

※4PRVA

「ユーザの信頼を誘発する商品推薦エージェントデザイン－感情と知識量の遷移による信頼向上－」（松井哲也さん、山田誠二さんの共同研究, 人工知能学会論文誌, Vol.32, No.2, C-G92_1-10 (Jan. 2017)，DOI
https://doi.org/10.1527/tjsai.C-G92）

弱いAIが社会インフラに

AI社会がはらむ課題とは

───対話ができるスマートスピーカーや自動翻訳機、自動車の自動運転機能など、私たちの日常生活にもAIが徐々に浸透してきています。今後、AIと人間の共存はどこまで進むのでしょうか。

AIはインフラの一部になっていくでしょう。実際に兆しは見えてきています。いまはスマートフォンをインターフェースにして、その背後にある様々なAIとつながっている感じ。現段階では、検索した情報を要約したりする程度ですが。ユーザーの行動パターンやし好、居住環境なども統合され、パーソナライズが進むのではないでしょうか。

すると、「AIをどこまで信頼していいのか」という意見も当然聞こえてきます。ユーザーがAIを過信しすぎるのも問題ですし、信頼するに足らなければ利用されない。このようなユーザーとAIの信頼構築は、昔から研究分野として存在していますが、今後の展開を考えたら、もっと重要視されるべきです。

───AIがインフラレベルまで拡がったら、生活は劇的に変化しそうです。

便利になる一方で、AIに過度に依存するユーザーも現れるでしょうね。ワープロ機能のかな漢字変換なんて良い例です。かな漢字変換に頼りすぎて、漢字は読めるけど書けない人が増えていますよね。二桁以上の足し算・引き算に電卓を使う人もいるでしょう。

あとは情報を集めて統合することも人間の作業範囲から外れ、AIが担っていくはず。ユーザーがキーワードを入力すれば、情報収集しレポートを作成してくれるようになる。それはある種の退化なのか、それともAIのタスクだと割り切ってしまうのか。教育機関も看過できない問題になってきます。かな漢字変換や電卓は、そのような議論をする暇もなくあっという間に普及してしまいました。AIへの依存は、問題が表面化する前に対策を打っておきたいところです。

AIは人を超えるのか

――いずれ「鉄腕アトム」のような自我をもったAIの誕生も期待してしまいます。

いわゆる「強いAI」「弱いAI」(※1)の話ですね。一般的にAIと聞くと真っ先にイメージするのが、汎用性が高く自我を持った強いAIだと思います。かつては強いAIの開発が、研究の主流だった時代もありましたしね。

夢のある話ではあるのですが、暗黙知を含め課題が多く、実現はまだまだ先の話でしょうね。開発、普及はスマートスピーカーなど特定の機能に特化した弱いAIが先を行くでしょう。

いくつもの弱いAIが統合されることで、最終的に強いAIになる可能性もちょっと考えにくい。人間の脳も大脳や小脳といった様々な領域から構成されていますが、それらの領域がつながったら、脳の機能を発揮できるかというと、そう単純なものではない。思いがけない領域がつながっていたりする。脳科学では研究を進めていますが、工学的アプローチでは未解明な部分が多いと思います。

ちょっと余談になりますが、私たちの業界には「夢の研究」「コメの研究」という話があります。研究者にとって夢があるのは、まだまだ未知の領域である強いAI。かたや、弱いAIは実用レベルまで応用が進み、だからこそ研究予算もおりやすく、ビジネスになりやすい。つまり、食いぶち（＝米）につながるというわけです。私としては優劣をつけることなく、弱いAI、強いAI、どちらのアプローチがあってもいいと思っています。

───2045年にシンギュラリテイ（技術的特異点）を迎え、AIが人間の知能を超えると言われています。AIが人間の脅威になる、という見方もありますが。

img-contents_01 シンギュラリティを始めに提唱したのはレイ・カーツワイル(※2)。「ムーアの法則(※3)」よろしく、飛躍的に性能向上を続けるコンピューター（=AI）が、やがて人間の知能を超えるだろう、という解釈が一般的に広まっていますが、正直なところほんの30、40年でその段階に至るのは不可能に近い。研究者なら、実現しえないと直感的にわかるでしょう。なぜなら、AI研究には数十年以上解かれていない問題が山積しているからです。それらの諸問題を解決して初めて、シンギュラリティのスタートラインに立てる。だから、シンギュラリティ提唱者に、AI研究者は少ないんじゃないかな。

シンギュラリティをセンセーショナルに取りあげるメディアも誤った認識を生む一因です。AIはあくまでも人間が作る工学上のプログラムに過ぎません。AIは人間のコントロール下から逸脱することはない。したがって、AIが人間より優位に立つ、という脅威も考えにくいのです。

───ディープラーニングにも解明できないブラックボックスがあるそうですね。

はい、ディープラーニングは入力層・中間層・出力層から構成されており、中間層は100層以上にもなります。中間層で複雑な処理が行われるのですが、可視化しても人間が理解できるのは2、3層がいいところ。

つまり、AIが答えを導き出しても、プロセスを追うことができないんです。ということは、答えを間違った場合も、原因が分からない。これが、ディープラーニングが黒魔術的だと言われている所以。説明のつかない答えは意思決定の説得材料としては弱いですよね。
現状を踏まえて、シンギュラリティが如何に現実味のない話なのかは明白です。

ただし、先にも述べたようにAIの社会進出は不可避です。作業ラインの検品作業や自動車工場の溶接作業、商業施設の受付などがAIにどんどん代替されていくでしょう。しかし、AIに指示を出したり、メンテナンスしたりするのは人間にしかできません。火星探査や火山の調査といった危険を伴う作業でなければ、AIのそばには常に人間がいるんです。AIが人間の仕事を奪うという意見もありますが、私はあくまでも仕事の一部がAIで代替され、仕事が効率化されると捉えています。

人と人、AIとAIよりも、人とAIが協調して1＋1が2以上になるような関係が理想です。それが、まさにHAIやIISが狙っているターゲットです。

日本発のAI研究を

───ディープラーニングはAI業界のブレイクスルーとも言われています。AI時代を前に、次なるブレイクスルーが起こる可能性は？

AI研究は数学との結びつきが強く、数学的アプローチが様々な理論のベースになっています。昔の例に見るなら、物理学と数学の関係性に近い。物理学と数学は互いにインスパイアしている関係にあり、ニュートン力学によって微積分が発展したように。AIの革新的な発展は、数学的ブレイクスルーに依るところが大きいのではないかなと思います。あるいは、また別のアプローチが新たに誕生するのか。

───山田先生の今後の目標を教えてください。

業界を挙げて人材育成にも取り組み、日本発となるオリジナリティのある研究分野を開拓しなくてはなりません。現在は、AI先進国であるアメリカの後追いになってしまっています。これから、ディープラーニングの研究を進めても、追いつくのがやっと。ブームになってから研究を始めても先達ははるか先を行っているので、次のブームを起こすくらいの気概をもって取り組む必要があります。そのためにも、世間の人々にAI研究の社会的有用性を説いていくことも重要です。

s_DSC7475