2024.10.07 김현서
액터-크리틱 알고리즘이란 말 그대로 actor가 상황(state)를 보고 행동(action)을 하고 critic이 상황(state)과 actor의 행동(action)을 보고 평가하며 점점 더 좋은 행동을 하게 학습되는 알고리즘이다.
REINFORCE 알고리즘의 단점인 일종의 몬테카를로 폴리시 그레이디언트로서 에피소드마다만 학습할 수 있다는 점을 해결하기 위해 다이내믹 프로그래밍의 정책 이터레이션(정책 발전&정책 평가)의 구조를 사용하고 매 타임스텝마다 학습할 수 있도록 한다.
[ 정책 발전 ]
정책 이터레이션: 가치함수에 대한 탐욕 정책을 통해 정책을 발전시킴
폴리시 그래디언트: 정책신경망의 업데이트로 이 과정을 대체함
[ 정책 평가 ]
정책 이터레이션: 다이내믹 프로그래밍을 통해 정책에 대한 가치함수를 구하는 과정임
폴리시 그래디언트: 아래의 수식에서 $q_π(s,a)$가 정책 평가의 역할을 함