MDP MDP : 순차적으로 결정해야하는 문제를 수학적으로 표현 문제를 잘못 정의하면 에이전트가 잘못 학습할 수 있다. 따라서 문제의 정의는 에이전트가 학습하는데 가장 중요한 단계 중 하나이다. 순차적으로 행동을 결정하는 문제에 대한 정의가 MDP 상태(S) 에이전트가 관찰 가능한 상태의 집합, 즉 자신의 상황에 대해 관찰 ※ 𝑆 볼드체에 기울어진 문자는 집합을 의미 MDP에서 상태는 시간에 따라 확률적으로 변하고, 시간 t이다. 시간 t에서의 상태가 “$S_{t}$가 어떤 상태에 $s$다.”를 수식으로 표현하면 $S_{t}=s$로 적는다 행동(A) 에이전트가 상태 $S_{t}$에서 할 수 있는 가능한 행동의 집합은 𝔸이고 시간 t에 에이전트가 특정한 행동 a를 했다면 $A_{t}=a$로 표현한다 $A_..