AI/강화학습

가치함수와 큐함수

luke12 2022. 4. 15. 22:20

가치함수 : 앞으로 방을 보상에 대한 개념

현재시간 t로 부터 에이전트가 행동을 하면서 받을 보상을 합한다면, $R_{t+1}+R_{t+2}+R_{t+3}+R_{t+4}+\cdots$가 된다.

이렇게 단순 합으로 보상을 계산하면 3가지 문제가 발생한다.

  1. 지금 받은 보상이나 미래에 받은 보상이나 똑같이 생각한다.
  2. 100이라는 보상을 1번 받는 것과 20이라는 보상을 5번 받는 것을 구분할 수 없다.
  3. 0.1씩 보상을 계속 받아도 ∞이고 1씩 계속 받아도 ∞여서 수학적으로 구분할 수 없다.

3가지 문제를 통해 보상의 합으로는 시간 t에 있었던 상태가 어떤 가치를 가졌는지 판단하기가 어렵다.

상태의 가치를 판단하기 위해 할인율의 개념을 사용하고 할인율을 적용한 보상의 합을 반환값($G_{t}$)라고 한다.

반환값의 수식은 $G_{t}=R_{t+1}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots$으로 나타낸다.

에이전트와 환경의 유한한 시간동안의 상호 작용을 에피소드라고 부르고 에피소드가 끝날 때 보상을 정산하는 것이 반환값이다.

MDP로 정의 된 세계에서 에이전트와 환경의 상호작용은 불확실성을 가지고 있어 특정 상태의 반환값은 에피소드마다 다를 수 있다.

따라서 특정상태의 가치는 반환값에 대한 기대값으로 특정상태의 가치를 판단한다. 이것이 가치함수이고, 수식으로는 $V(s)=E[G_{t}|S_{t}=s]$이다.

가치함수에 반환값의 수식을 대입하면

$V(s)=E[R_{t}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots|S_{t}=s]$이다.

$\gamma R_{t+2}$부터 $\gamma$로 묶어 반환값을 표현하면

$V(s)=E[R_{t}+\gamma( R_{t+2}+\gamma R_{t+3}+\cdots)|S_{t}=s]$

$V(s)=E[R_{t}+\gamma G_{t+1}|S_{t}=s]$

$G_{t+1}$은 앞으로 받을 보상이라 받을 보상의 기대값인 가치함수로 나타낼 수 있다.

$V(s)=E[R_{t+1}+\gamma V(S_{t+1})|S_{t}=s]$

지금까지의 가치함수는 정책을 고려하지 않았다. 상태 s에서 상태 s’으로 넘어갈 때 행동 a를 해야하고 각 상태에서 행동을 하는 것이 에이전트의 정책이다.

그리고 현재 상태에서 에이전트가 다음에 어떤 상태로 갈지 결정하는 것은 현재의 에이전트가 정책에 따라 선택하는 행동 a와 상태 변환 확률이므로 MDP로 정의된 문제에서 가치함수는 항상 정책에 의존하게 된다.

이를 수식적으로는 정책에 따라 계산한다는 의미인 $\pi$를 붙여서 표현한다. 이 식은 벨반 기대 방정식이라고 부른다.

$V_{\pi}(s)=E_{\pi}[R_{t+1}+\gamma V_{\pi}(S_{t+1})|S_{t}=s]$

벨반 기대 방정식은 현재 상태의 가치함수 $V_{\pi}(s)$와 다음 상태 $V_{\pi}(s+1)$사이의 관계를 말해주는 방정식이다.

지금까지의 가치함수는 상태 가치함수이고 에이전트는 어떤 상태에 있는 것이 얼마나 좋은지 알 수 있었다. 에이전트는 다음상태로 가기전에 선택한 행동에 따라 보상이 달라지고 에이전트가 어떠한 행동을 해도 상태 변환 확률에 따라 충분한 그 행동이 나오지 않을 수도 있다.(ex: 바람이 불어서 충분히 이동을 못한 경우) 이러한 부분까지 고려하여 행동을 해야하고, 행동에 대해 가치를 알려주는 함수를 행동가치함수 즉, Q함수라고 한다.


Q함수

Q함수는 상태, 행동이라는 두가지 변수를 가지며, 수식으로 $q_{\pi}(s,a)$로 나타낸다.

가치함수와 큐함수 사이의 관계는 $V_{\pi}(s)=\sum_{a\in A}^{} \pi(a|s)q_{\pi}(s,a)$이다.

큐함수의 벨만 기대 방정식은 가치함수 식에 햄동이 들어가 수식으로

$q_{\pi}(s,a)=E_{\pi}[R_{t+1}+\gamma q_{\pi}(S_{t+1},A_{t+1})|S_{t}=s,A_{t}=a]$

'AI > 강화학습' 카테고리의 다른 글

다이나믹 프로그래밍  (0) 2022.04.26
벨만 기대 방정식, 벨만 최적 방정식  (0) 2022.04.25
MDP  (0) 2022.04.13