2023年3月16日展望を知る

ロボットアーム制御のための量子計算による強化学習の向上

非構造化環境において、ロボットアームの動作を制御する興味深い手法の一つとして強化学習が登場しました。しかし多様な制御機能の学習という課題は、実世界で応用できるほどには解消されていません。これは主として、探索戦略と学習速度の遅さという2つの学習パラダイムの問題によるものです。量子計算を強化学習に応用することにより、こういった問題の解決が見込まれています。

目次

強化学習によるロボットの自律化
ロボット制御に応用するための強化学習の課題
機械学習のための量子計算
量子計算による強化学習の向上
量子強化学習によるロボットアーム制御
結論

強化学習によるロボットの自律化

自律型ロボットはヒトの介入なしに独力で環境に対処するように設計されています。自律型ロボットはインテリジェントな機械であり、自身が環境から知覚した情報に基づいて判断を下し、その環境内での複雑な動作や操作タスクを行います。ロボットが自律的に動作できるように、ここ数年学術界や産業界は、低コストのセンサーによるソフトウェアベースのより多くの制御ソリューションを探し求めてきました。その際に重視されるのが動作環境要件と共に校正要件も少ない堅牢なアルゴリズムとソフトウェアです。深層学習（DL）と強化学習（RL）を組み合わせた深層強化学習（DRL）が、ロボットが低レベルのセンサーによって環境を観測しながら、複雑な行動を自律的に獲得できる有望な手法として登場してきました。ほとんど構造化されていない環境で、物理的ロボットによる複雑な学習を可能にすることが見込まれています。逆運動学を利用したプログラマブルロジックコントローラによって、命令を決め打ちしてロボットの動作を調整する代わりに、制御方策を学習により取得し、その後都度更新できる可能性があります。ロボットの制御に学習ベースの技術を活用することは魅力的です。そうすることで、ロボットがより構造化レベルの低い環境に進出し、未知のオブジェクトを処理し、複数のタスクに適した状態表現を学習できるようになるからです。例えば、繊維・衣料製造業や食品製造業といった分野で、倉庫の自動化の一環として、ヒトによるピッカーに代わり、様々なサイズと形状の物品を選択することができます。

ロボット制御に応用するための強化学習の課題

強化学習と比較して、深層強化学習は、ロボットの操作や制御タスクなどといった、報酬シグナルが希薄なタスクにおいて、データの次元性とスケーラビリティに関する重大な問題の解決を可能にします。しかしながら、近年向上しているとは言え、深層強化学習によってロボット用の堅牢な操作スキルを学習するという課題は、実世界で応用できるほどには、解決されていません。主な原因はよく知られている深層強化学習の問題です。すなわち複雑な問題を扱う学習アルゴリズムのトレーニングにおける「サンプル効率」、「汎化」、「計算リソース」です。「サンプル効率」とは、最適な方策を構築し、設計されたタスクを達成するために必要な収集データ量を意味します。しかしロボット工学における幾つかの問題が、効果的なサンプル効率を妨げています。例えば、（1）エージェントは、環境によって一方的に提供されるトレーニングセットを受け取ることはできず、エージェントによる行動と環境のダイナミクスの両方によって決定された情報を受け取ります。（2）エージェントは長期的な報酬を最大化することを目指していますが、直近の報酬しか観測できません。（3）トレーニング期間とテスト期間の間に明確な境界がありません。これはエージェントが方策の改善に費やしている時間は、多くの場合この方策の利用を犠牲にして発生するという、いわゆる「探索と活用のトレードオフ」のためです。一方「汎化」とは、ソース環境から得られた以前の知識を活用して、ターゲット環境で優れたパフォーマンスを達成する能力、および柔軟で長期的な自律性への適用性を意味します。これはヒトと同様に行動する人工知能を生み出すために、必要なステップであると広く考えられています。さらに注意しなければならないのは、最適な結果に到達するためのデータは大量であることを考えると、深層強化学習は計算集約的であり、モデルをトレーニングして学習プロセスを固定化するためには、高性能コンピュータを必要とすることです。
これらの限界を克服するには、さらなる進歩が必要です。強化学習のために環境と相互作用して経験を集めること、そして専門家の行動を集めることの両方とも費用がかさむからです。量子計算（QC）の計算リソースと汎化能力は、古典コンピュータの能力をはるかに超えることが見込まれており、これらを学習プロセスの高速化と改善に活用することができます。

機械学習のための量子計算

量子計算とは、古典コンピュータが解くには複雑すぎる問題を、量子力学の法則を応用して解決する技術です。誤り耐性量子デバイスが実現するのはまだ先のことかも知れません。しかし量子ビット数、コヒーレンス時間、および操作忠実度に制限のある、近未来型デバイスNISQは、既に様々な問題に利用可能です。（NISQは、Noisy Intermediate-Scale Quantum Computersの頭文字をとり、ノイズ混じりの中規模量子コンピュータを意味します。）有望な1つの利用法は、変分（またはパラメータ化）量子回路（VQC）のハイブリッドトレーニングです。すなわち、パラメータ化された量子アルゴリズムを、古典的最適化技術によって、古典ニューラルネットワークと同様に、関数近似として最適化するものです。学術界において主流の応用法は、対象の課題を、変分最適化タスクとして形式化し、「量子・古典」ハイブリッド型ハードウェア設定を利用して、近似解を見つけるものです。

図1：変分量子アルゴリズムの概略図

古典ハードウェアに幾つかのサブルーチンを実装することにより、量子リソースの要件を大幅に削減することができます。特に量子ビット数、回路深度、およびコヒーレンス時間における要件を大幅に減らすことができます。したがって、ハイブリッド型アルゴリズム手法では、NISQハードウェアは、問題のうちで古典的に手に負えない部分に、もっぱら焦点を当てることになります。量子機械学習（QML）では通常、古典データを分析するために、変分量子回路のトレーニングを行います。量子機械学習モデルは、古典モデルを超える利点を幾つか提供する可能性があります。それらは古典データ分析のメモリ消費、およびサンプル複雑性の面です。さらに最近研究として、限られた数のトレーニングデータポイントでトレーニングを行った後の、量子機械学習の汎化性能に関する包括的な研究が発表され、少数のトレーニングデータで適切な汎化が保証されることが示されています。これらすべては、先に挙げたロボット制御に関する深層強化学習の問題を克服する上で、期待の持てるものと思われます。

量子計算による強化学習の向上

幾つかの研究論文は、強化学習タスクに量子コンピュータを使用することで得ることのできる量子的利点を議論しています。それは、古典環境内で学習する量子エージェントの意思決定プロセスを高速化するという利点です。遠い将来の技術は、グローバー検索アルゴリズムのような完全な量子手法を必要とし、大規模な回路と誤り耐性量子コンピュータにつながりますが、まだ開発には至っていません。今日の最良の手法は、量子・古典ハイブリッド型アルゴリズムを利用するものであり、その量子部分は、より小さな回路と変分量子回路技術を介して実装されています。深層強化学習では、ディープニューラルネットワークが強力な関数近似器として採用されています。通常、近似は方策空間（アクター）、値空間（クリティック）、またはその両方で発生し、いわゆる「アクター・クリティック」アプローチとなります。近年変分量子回路が、強化学習設定の関数近似器として提案され、その役割が分析されました。これまでのところ、この手法についての量子的利点は保証されていません。しかし幾つかの研究論文や査読前原稿では、有望な実験結果が示されています。すなわち、変分量子回路ベースのモデルは、少なくともニューラルネットワークベースの関数近似器と同じパフォーマンスを達成できること、そして変分量子回路を使用すると、必要なパラメータの複雑性と収束時間が大幅に削減され、トレーニングの安定性と強化学習モデルの表現力が向上することなどです（包括的なレビューについては、https://arxiv.org/pdf/2211.03464.pdfなどを参照してください）。

量子強化学習によるロボットアーム制御

私達は強化学習問題における変分量子回路の最近の活用法から始め、ロボットアームの制御タスクへの量子・古典ハイブリッド型アルゴリズムの適用可能性を調査しました。また私達は、量子回路のデジタルシミュレーションによって、連続制御のための最先端の強化学習手法の1つであるソフトアクター・クリティック（SAC）に、変分量子回路を適用する利点について実験および評価しました。実のところロボットアーム操作のタスクには連続制御が必要です。正確な動作制御のためには、センサーと行動から得られる連続値の観測が必要であるためです。ロボットアームは一連のリンクと考えることができます。リンクの位置と方向を変化させるモーターを含んだ関節によって動いています。私達の実験では、第一関節が取り付けられ固定された、仮想二次元四関節ロボットアームを使用しました。アームは、二次元平面上で関節によってリンクを動かすことができ、各リンクを時計回りおよび反時計回りに、最大指定速度まで独立して動かすことができます。最後の関節はエンドエフェクタと呼ばれています。このような環境は、Acrobotと呼ばれるOpenAI Gym環境の一部を適合させ、Box2D技術を利用して作成されました。

図2：四関節ロボットアーム用機械部品の概略図。

量子ソフトアクター・クリティックアルゴリズムは、その古典型と非常に良く似ています。唯一違うのは、一部のニューラルネットワークレイヤーが変分量子回路に置き換えられていることです。

図3：量子ソフトアクター・クリティックの、量子・古典ハイブリッド型アクターコンポーネントのアーキテクチャ。

Google社のTensorFlow量子ライブラリを、量子機械学習の開発フレームワークとして利用しました。このライブラリは、量子回路用のGoogle Cirqライブラリを使用して量子回路をシミュレーションし、TensorFlowのマルチスレッド機能を通じて計算負荷を分散することによって機能しています。この量子・古典ハイブリッド型アルゴリズムのすべての古典コンポーネントは、機械学習用のTensorFlowライブラリを使用して実装しました。この結果、学習可能なパラメータ数に、明らかな量子優位性が見られました。特記すべき点は、同等の量子アルゴリズムと同数のパラメータを持つ古典ソフトアクター・クリティックアルゴリズムは、収束しないことです。古典アルゴリズムは、量子エージェントに匹敵する性能でこの環境を解決するためには、量子アルゴリズムと比べて100倍の量のパラメータを必要としています。

図4：ロボットアーム環境で試験した、古典および量子・古典ソフトアクター・クリティックアーキテクチャの学習曲線。

結論

数値シミュレーションを通じて、私達は想定したベンチマークのロボット制御タスクにおいて、アクター・クリティック量子方策は、同様のアーキテクチャの古典モデルよりも、優れたパフォーマンスを持つことを示しました。この手法は、様々な実世界におけるシナリオにおいて、潜在的な応用分野を持つ可能性があります。なぜなら今回の研究によって、量子強化学習がロボット制御のために活用可能であり、自律型ロボット工学の将来の進歩に資することを示しているからです。研究の結果はarXivに提出されています。下記のリンクから参照可能です（https://arxiv.org/pdf/2212.11681.pdf）。

本取り組みは、技術開発本部イノベーションセンタによるものです。

お問い合わせ