AI/강화학습

MDP

luke12 2022. 4. 13. 22:17

MDP

MDP : 순차적으로 결정해야하는 문제를 수학적으로 표현

문제를 잘못 정의하면 에이전트가 잘못 학습할 수 있다. 따라서 문제의 정의는 에이전트가 학습하는데 가장 중요한 단계 중 하나이다.

순차적으로 행동을 결정하는 문제에 대한 정의가 MDP


상태(S)

에이전트가 관찰 가능한 상태의 집합, 즉 자신의 상황에 대해 관찰

※ 𝑆 볼드체에 기울어진 문자는 집합을 의미

MDP에서 상태는 시간에 따라 확률적으로 변하고, 시간 t이다.

시간 t에서의 상태가 “$S_{t}$가 어떤 상태에 $s$다.”를 수식으로 표현하면 $S_{t}=s$로 적는다


행동(A)

에이전트가 상태 $S_{t}$에서 할 수 있는 가능한 행동의 집합은 𝔸이고 시간 t에 에이전트가 특정한 행동 a를 했다면 $A_{t}=a$로 표현한다

$A_{t}$는 t라는 시간에 에이전트가 어떤 행동을 할지 정해져 있는 것이 아니므로 대문자로 표현한다. 즉, 확률 변수이다.


보상함수(R)

보상은 에이전트가 학습할 수 있는 유일한 정보로서 환경이 에이전트한테 주는 정보이다.

시간 t에서 상태가 $S_{t}=s$이고, 행동이 $A_{t}=a$일때 에이전트가 받을 보상은 $r(s,a)=E[R_{t+1}|S_{t}=s, A_{t}=a]$로 표현한다.

보상을 에이전트에게 주는 것은 환경이고 환경에 따라 같은 상태에서 같은 행동을 취하더라도 다른 보상을 줄 수 있어서 보상함수를 기대값 E로 표현한다.

“|”은 조건문에 대한 표현이고, “|”뒤에 나오는 표현은 현재의 조건을 의미한다.

에이전트가 현재 상태 s에서 행동 a를 하면 환경이 에이전트에게 알려주는 것이 t+1인 시점이라 에이전트가 받는 보상을 $R_{t+1}$이라고 표현한다.


상태 변환 확률(P)

상태 s에서 행동 a를 하면 상태 s’에 도달한다.

바람이 불어서 원하는 상태에 도달하지 못할 수 도 있어 상태의 변화에는 확률적 요인이 들어가고 수치적으로 표현한 것이 상태 변환 확률이라 한다.

상태 변환 확률은 상태 s에서 행동 a를 했을 때, 다른 상태 s’에 도달할 확률이고 수식으로

$P^a_{ss'}=P[s_{t+1}|S_{t}=s,A_{t}=a]$

로 표현한다.

이 값은 보상과 마찬가지로 에이전트가 알 지 못하는 환경의 일부이고, 상태 변환 확률은 환경의 모델이라고도 부른다. 따라서 환경은 상태 변환 확률을 통해서 다음 에이전트가 갈 상태를 알려준다.


할인율(𝛄)

할인율을 통해서 에이전트는 그 보상이 얼마나 시간이 지나서 받는지를 고려해 현재의 가치로 나타낸다.

할인률 𝛄는 0과 1 사이의 값이고, 보상에 곱해지면 보상이 감소한다.

현재의 시간 t로부터 시간 k가 지난 후에 보상을 $R_{t+k}$이고, 시간 k만큼 지났기 때문에 미래에 맏을 보상 $R_{t+k}$에 $\gamma^{k-1}$만큼 할인되어 수식으로 $\gamma^{k-1} R_{t+k}$로 나타낸다.


정책($\pi$)

모든 상태에서 에이전트가 할 행동이다.

시간 t에 $S_{t}=s$에 에이전트가 있을 때 가능한 행동 중에서 $A_{t}=a$를 할 확률을 나타내고 수식으로 $\pi(a|s)=P[A_{t}=a|S_{t}=s]$ 로 나타낸다.

강화학습을 통해서 알고 싶은 것은 단순 정책이 아닌 최적 정책을 알아내는 것이다.


강화학습 흐름표

'AI > 강화학습' 카테고리의 다른 글

다이나믹 프로그래밍  (0) 2022.04.26
벨만 기대 방정식, 벨만 최적 방정식  (0) 2022.04.25
가치함수와 큐함수  (0) 2022.04.15