MDP
MDP : 순차적으로 결정해야하는 문제를 수학적으로 표현
문제를 잘못 정의하면 에이전트가 잘못 학습할 수 있다. 따라서 문제의 정의는 에이전트가 학습하는데 가장 중요한 단계 중 하나이다.
순차적으로 행동을 결정하는 문제에 대한 정의가 MDP
상태(S)
에이전트가 관찰 가능한 상태의 집합, 즉 자신의 상황에 대해 관찰
※ 𝑆 볼드체에 기울어진 문자는 집합을 의미
MDP에서 상태는 시간에 따라 확률적으로 변하고, 시간 t이다.
시간 t에서의 상태가 “$S_{t}$가 어떤 상태에 $s$다.”를 수식으로 표현하면 $S_{t}=s$로 적는다
행동(A)
에이전트가 상태 $S_{t}$에서 할 수 있는 가능한 행동의 집합은 𝔸이고 시간 t에 에이전트가 특정한 행동 a를 했다면 $A_{t}=a$로 표현한다
$A_{t}$는 t라는 시간에 에이전트가 어떤 행동을 할지 정해져 있는 것이 아니므로 대문자로 표현한다. 즉, 확률 변수이다.
보상함수(R)
보상은 에이전트가 학습할 수 있는 유일한 정보로서 환경이 에이전트한테 주는 정보이다.
시간 t에서 상태가 $S_{t}=s$이고, 행동이 $A_{t}=a$일때 에이전트가 받을 보상은 $r(s,a)=E[R_{t+1}|S_{t}=s, A_{t}=a]$로 표현한다.
보상을 에이전트에게 주는 것은 환경이고 환경에 따라 같은 상태에서 같은 행동을 취하더라도 다른 보상을 줄 수 있어서 보상함수를 기대값 E로 표현한다.
“|”은 조건문에 대한 표현이고, “|”뒤에 나오는 표현은 현재의 조건을 의미한다.
에이전트가 현재 상태 s에서 행동 a를 하면 환경이 에이전트에게 알려주는 것이 t+1인 시점이라 에이전트가 받는 보상을 $R_{t+1}$이라고 표현한다.
상태 변환 확률(P)
상태 s에서 행동 a를 하면 상태 s’에 도달한다.
바람이 불어서 원하는 상태에 도달하지 못할 수 도 있어 상태의 변화에는 확률적 요인이 들어가고 수치적으로 표현한 것이 상태 변환 확률이라 한다.
상태 변환 확률은 상태 s에서 행동 a를 했을 때, 다른 상태 s’에 도달할 확률이고 수식으로
$P^a_{ss'}=P[s_{t+1}|S_{t}=s,A_{t}=a]$
로 표현한다.
이 값은 보상과 마찬가지로 에이전트가 알 지 못하는 환경의 일부이고, 상태 변환 확률은 환경의 모델이라고도 부른다. 따라서 환경은 상태 변환 확률을 통해서 다음 에이전트가 갈 상태를 알려준다.
할인율(𝛄)
할인율을 통해서 에이전트는 그 보상이 얼마나 시간이 지나서 받는지를 고려해 현재의 가치로 나타낸다.
할인률 𝛄는 0과 1 사이의 값이고, 보상에 곱해지면 보상이 감소한다.
현재의 시간 t로부터 시간 k가 지난 후에 보상을 $R_{t+k}$이고, 시간 k만큼 지났기 때문에 미래에 맏을 보상 $R_{t+k}$에 $\gamma^{k-1}$만큼 할인되어 수식으로 $\gamma^{k-1} R_{t+k}$로 나타낸다.
정책($\pi$)
모든 상태에서 에이전트가 할 행동이다.
시간 t에 $S_{t}=s$에 에이전트가 있을 때 가능한 행동 중에서 $A_{t}=a$를 할 확률을 나타내고 수식으로 $\pi(a|s)=P[A_{t}=a|S_{t}=s]$ 로 나타낸다.
강화학습을 통해서 알고 싶은 것은 단순 정책이 아닌 최적 정책을 알아내는 것이다.
강화학습 흐름표
'AI > 강화학습' 카테고리의 다른 글
다이나믹 프로그래밍 (0) | 2022.04.26 |
---|---|
벨만 기대 방정식, 벨만 최적 방정식 (0) | 2022.04.25 |
가치함수와 큐함수 (0) | 2022.04.15 |