다이나믹 프로그레밍 작은 문제가 큰 문제 안에 중첩되어 있는 경우에 작은 문제의 답을 다른 작은 문제에 이용함으로써 효율적으로 계산하는 방법이다. 벨만 기대방정식으로 푸는 것이 정책 이터레이션이고 벨만 최적 방정식으로 푸는 것이 가치 이터레이션이라고 한다. 정책 에터레이션 정책은 에이전트가 모든 상태에서 어떻게 행동할 지에 대한 정보이다. 처음에는 무작위로 행동을 정하는 정책으로 시작하여 아래의 그림처럼 무한히 반복하면 최적 정책으로 수렴된다. 정책평가 가치함수를 통해서 정책을 판단한다. 현재 정책에 따라 받을 보상의 정보가 정책의 가치가 되어 평가를 할 수 있다. $V_{\pi}(s)=E_{\pi}[R_{t}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots|S_{t}=s]$을 통해..