機械学習におけるActor-Criticとは?役割・代表手法を整理
強化学習を学び始めると、比較的早い段階で 方策ベース と 価値ベース という二つの考え方に出会います。方策ベースは、どの状態でどの行動を取りやすくするかという方策そのものを直接学習しようとする立場です。一方で価値ベースは、その状態や行動がどれくらい良いかという価値を推定し、その価値を頼りに行動を選ぼうとします。この二つは対立的に説明されることが多いのですが、実際の強化学習では両者の長所を組み合わせたほうが自然な場面が少なくありません。そこで重要になるのが Actor-Critic です。
ユーザーが示した定義の通り、Actor-Critic は actor が行動を選び、critic が value を推定する構造 です。ただし、この説明だけでは少し短すぎて、なぜそれが強力なのか、何をうまく分担しているのかが見えにくいことがあります。実際には、actor は「どう動くか」を決める役割を持ち、critic は「その動きがどれくらい良いか」を評価する役割を持ちます。そして、この二つが互いに情報を与え合いながら学習することで、方策だけを直接学ぶより安定しやすくなり、価値だけを見るより柔軟な行動選択もしやすくなります。つまり、Actor-Critic は単なる役割分担ではなく、行動決定と評価を別々に持ちながら協調させる設計思想 だと言えます。
EN
JP
KR