単純さか適応性か ― 強化学習で習慣行動と目標指向行動のバランスを理解する

より優れたAIの構築を目指して:学習に関する新しい研究が適応行動への洞察を提供。

Efficiency versus adaptability behavior in AI and humans header image

生物もAIも、状況に応じて素早く適応的に行動する必要があります。心理学や神経科学では、行動は習慣的なもの（素早く単純だが柔軟性に欠ける）と目標指向的なもの（柔軟性はあるが複雑で時間がかかる）の2種類に分けられます。これらの行動は脳内の別々のシステムによって制御されていると考えられています。ノーベル経済学賞を受賞したダニエル・カーネマンは、これらをシステム1、システム2と呼んで区別しています。しかしそれらは独立し対立するものなのか、互いに助け合う存在なのかは議論が分かれるところです。

このたび沖縄科学技術大学院大学（OIST）と上海のマイクロソフトリサーチアジアの研究チームは、習慣的な行動と目的指向的な行動のシステムが互いに助け合いながら学習する新たなAI手法を提案しました。迷路の探索を模したコンピューター・シミュレーションによって、この手法は、変化する環境に素早く適応するとともに、一定の環境に長く慣れた後の人間や動物の行動も再現しました。科学誌『NatureCommunications』に掲載された本研究は、急成長しているAIの分野で素早く確実に適応するシステムの開発の道を開くだけでなく、神経科学や心理学の分野においても、私たちがどのように意思決定をしているのかを探る手掛かりとなるでしょう。

研究チームは、報酬と罰に基づく学習方法である強化学習を行うAIエージェントにおいて、最近注目される「能動推論」の理論をもとに、習慣的なシステムと目的指向的なシステムを一体化して学習を行動を行うモデルを導出しました。論文では動物実験と同じように、視覚の手がかりをもとに迷路を探索しゴールに到達するとエサの報酬が得られるというタスクを模したコンピューター・シミュレーションを作成し、これら2つのシステムが環境との相互作用のもとでどのように適応し統合されるか調べた結果、素早く適応的な行動を達成できることを示しました。そこでは、AIエージェントが強化学習（報酬と罰に基づく学習方法）を通じて自らデータを収集し、行動を改善していく様子が観察されました。

私たちの脳が好むもの

仕事で長い一日を過ごした後、私たちは通常、いつもと同じように意識せず（習慣的行動）家に帰ります。しかし、家を引っ越したばかりで、注意を怠っていると、いつもの習慣で以前住んでいた家に戻ってしまうこともあるかもしれません。そんな自分に気づいたら、ギアを入れ替え（目標指向行動）、新居へルートを変更します。従来、この二つの行動は独立して働くと考えられており、その結果、行動は①習慣的で速く、柔軟性に欠けるか、②目標指向的で柔軟性はあるが、遅い、のどちらかになります。

An agent learns to choose the best course of action

エージェント（行動する人や動物やロボット）は報酬信号を使った強化学習によって最適な行動を選択するよう学習する。エージェントは、感覚的観察を用いて環境に関する予測を行う。画像提供：Hanら, 2024年

「学習中に目標指向行動から習慣行動へ自動的に移行することは、心理学では非常に有名な発見です。私たちのモデルとシミュレーションは、なぜこのようなことが起こるのかを説明できます。脳はより確実性の高い行動を好み、学習が進むにつれて、習慣行動はランダムでなくなり、確実性が増します。そのため、脳は多大の繰り返しの訓練を受けた後、習慣的な行動に頼ることを好むのです」と、OISTの認知脳ロボティクス研究ユニットの元博士課程学生で、論文の筆頭著者であるドンチ・ハン博士は説明します。

AIは、訓練を受けていない新しい目標に対しては、環境の内部モデルを使って行動を計画します。可能性のある行動をすべて考慮する必要はなく、習慣的な行動の組み合わせを用います。そうすることで、行動の計画がより効率的に生成できるようになります。これは、各目標を達成するためには、それらについて事前に明示的に訓練することを必要とする従来のAIアプローチに挑戦するものです。それに対して、このモデルでは、明示的な訓練を受けることなく、学習した知識を柔軟に組み合わせることによって、各希望する目標を達成することができます。

認知脳ロボティクス研究ユニットを率いる谷淳教授は、「考え深く柔軟な行動と単純で素早い行動の間のある種のバランス、トレードオフを達成することが重要です。目標を達成するためには多くの方法が考えられますが、すべての可能な行動を考慮することは非常に計算時間がかかります。したがって、目標指向行動は、習慣行動によって制限され、選択肢を絞り込みます」と話します。

よりよいAIを開発する

ハン博士が神経科学と、人工知能と人間の知能のギャップに興味を持ったのは、AIアルズムに取り組み始めたときでした。「AIが人間のように、より効率的で適応性のある行動をとるにはどうすればいいか。その根底にある数学的原理は何か、そしてAIの改善のためにそれをどのように利用できるかを理解したかったのです。それが博士課程で研究を行う動機でした。」

習慣行動と目標指向行動の関係を理解することは、ADHDや強迫性障害、パーキンソン病などの神経疾患の解明につながるため、特に神経科学の分野において重要な意味を持ちます。

「私たちは、脳内の複数のシステムが協調して働く計算原理を探っています。そこではドーパミンやセロトニンなどの神経修飾物質が重要な役割を果たすことを私たちも見てきました。」とOISTで神経計算ユニットを率いる銅谷賢治教授は説明します。「脳に発想を得て開発され現実的な問題を解けることが示されたAIシステムは、人や動物の脳の中で何が起こっているのかを知る上で重要なツールとなり得ます。」

ハン博士は、複雑な目標を達成するために行動を適応させる、より優れたAIの構築に貢献したいと考えています。「私たちは、日常的なタスクを行う際に人間に近い能力を発揮するAIを開発することに強い興味を持っています。ですので、人間とAIのギャップに取り組みたいと考えています。私たちの脳には二つの学習メカニズムがあり、目標を達成するために、それらがどのように連動するのかをよりよく理解する必要があります。」

日付:

2024年6月14日

カテゴリー:

研究関連記事

作者

マール・ナイドゥ

論文情報

タイトル:

Synergizing habits and goals with variational Bayes

ジャーナル:

Nature Communications

著者: