2024.10.07 김현서

액터-크리틱이란?

액터-크리틱 알고리즘이란 말 그대로 actor가 상황(state)를 보고 행동(action)을 하고 critic이 상황(state)과 actor의 행동(action)을 보고 평가하며 점점 더 좋은 행동을 하게 학습되는 알고리즘이다.

REINFORCE 알고리즘의 단점인 일종의 몬테카를로 폴리시 그레이디언트로서 에피소드마다만 학습할 수 있다는 점을 해결하기 위해 다이내믹 프로그래밍의 정책 이터레이션(정책 발전&정책 평가)의 구조를 사용하고 매 타임스텝마다 학습할 수 있도록 한다.

정책 이터레이션과 폴리시 그래디언트 비교

[ 정책 발전 ]

정책 이터레이션: 가치함수에 대한 탐욕 정책을 통해 정책을 발전시킴

폴리시 그래디언트: 정책신경망의 업데이트로 이 과정을 대체함

[ 정책 평가 ]

정책 이터레이션: 다이내믹 프로그래밍을 통해 정책에 대한 가치함수를 구하는 과정임

폴리시 그래디언트: 아래의 수식에서 $q_π(s,a)$가 정책 평가의 역할을 함