Actor-Critic による 1 次元物体制御デモ
( Actorが連続的な行動値を出力する場合)


概要

本デモは,1次元空間上の物体の状態(位置 \(x\) と速度 \(v\))を原点 \((0, 0)\) に制御する問題を, 強化学習(Actor-Critic法)を用いて解くものである. 前回は, 行動を {-F, 0, F} の3値に離散化し, softmax出力に基づく確率的選択を行っていた.この方法では, 方策の更新には TD誤差(Temporal Difference error) を用い, 各行動の選択確率を強化・抑制する形で学習が進行していた.

ここでは,連続的な行動値を出力する決定論的方策(Deterministic Policy)を導入し, DDPG(Deep Deterministic Policy Gradient) の構造を取り入れている. 具体的には,actor は tanh 活性関数を通じて任意の連続力 \(F \in [-F_{\max}, F_{\max}]\) を生成し, critic は状態と行動のペア \((s, a)\) に対する Q 値(期待累積報酬)を評価する. actor の学習には,Q 関数に対する数値微分 \(\partial Q/\partial a\) を用いて, 行動を改善する方向への勾配更新が行われる.

このように,行動空間の連続化により,より柔軟かつ滑らかな制御が可能となる一方で, 勾配の導出や学習の安定性には工夫が必要となる. 本デモは,DDPGのアルゴリズム構造を 最小構成かつ明示的な線形モデルによって再現したものであり, 連続制御系における強化学習の基礎的理解を深めることを目的としている.

デモ

再生時,ヒートマップ上をクリックすると初期状態を指定できます

学習スクリプト

以下はブラウザ上で動作している学習アルゴリズムのスクリプト本体です。

▶ 学習スクリプトを表示

Fujita@PARI (2025)