AI/강화학습 4

다이나믹 프로그래밍

다이나믹 프로그레밍 작은 문제가 큰 문제 안에 중첩되어 있는 경우에 작은 문제의 답을 다른 작은 문제에 이용함으로써 효율적으로 계산하는 방법이다. 벨만 기대방정식으로 푸는 것이 정책 이터레이션이고 벨만 최적 방정식으로 푸는 것이 가치 이터레이션이라고 한다. 정책 에터레이션 정책은 에이전트가 모든 상태에서 어떻게 행동할 지에 대한 정보이다. 처음에는 무작위로 행동을 정하는 정책으로 시작하여 아래의 그림처럼 무한히 반복하면 최적 정책으로 수렴된다. 정책평가 가치함수를 통해서 정책을 판단한다. 현재 정책에 따라 받을 보상의 정보가 정책의 가치가 되어 평가를 할 수 있다. $V_{\pi}(s)=E_{\pi}[R_{t}+\gamma R_{t+2}+\gamma^2 R_{t+3}+\cdots|S_{t}=s]$을 통해..

AI/강화학습 2022.04.26

벨만 기대 방정식, 벨만 최적 방정식

벨만 기대 방정식, 벨만 최적 방정식 벨만 기대 방정식 기대값을 이용하면 바로 참값을 계산하는 것이 아니라 for문을 통해서 점점 참값으로 유추해 갈 수 있다. 기대값을 계산하기 위해 정책과 상태 변환 확률을 포함하여 계산이 가능한 벨만 기대 방정식으로 나타낼 수 있다. $V_{\pi}(s)=E_{\pi}[R_{t+1}+\gamma V_{\pi}(S_{t+1})|S_{t}=s]$ $V_{\pi}(s)=\sum_{a\in A}^{}\pi(a|s)q_{\pi}(s,a)$ $V_{\pi}(s)=\sum_{a\in A}^{}\pi(a|s)(r(s,a)+\gamma\sum_{s'\in s }P_{ss'}^{a}V_{\pi}(s'))$ 벨만 최적 방정식 최적의 가치함수는 참가치함수와 다르다. 수 많은 정책 중 가장..

AI/강화학습 2022.04.25

가치함수와 큐함수

가치함수 : 앞으로 방을 보상에 대한 개념 현재시간 t로 부터 에이전트가 행동을 하면서 받을 보상을 합한다면, $R_{t+1}+R_{t+2}+R_{t+3}+R_{t+4}+\cdots$가 된다. 이렇게 단순 합으로 보상을 계산하면 3가지 문제가 발생한다. 지금 받은 보상이나 미래에 받은 보상이나 똑같이 생각한다. 100이라는 보상을 1번 받는 것과 20이라는 보상을 5번 받는 것을 구분할 수 없다. 0.1씩 보상을 계속 받아도 ∞이고 1씩 계속 받아도 ∞여서 수학적으로 구분할 수 없다. 3가지 문제를 통해 보상의 합으로는 시간 t에 있었던 상태가 어떤 가치를 가졌는지 판단하기가 어렵다. 상태의 가치를 판단하기 위해 할인율의 개념을 사용하고 할인율을 적용한 보상의 합을 반환값($G_{t}$)라고 한다. 반환..

AI/강화학습 2022.04.15

MDP

MDP MDP : 순차적으로 결정해야하는 문제를 수학적으로 표현 문제를 잘못 정의하면 에이전트가 잘못 학습할 수 있다. 따라서 문제의 정의는 에이전트가 학습하는데 가장 중요한 단계 중 하나이다. 순차적으로 행동을 결정하는 문제에 대한 정의가 MDP 상태(S) 에이전트가 관찰 가능한 상태의 집합, 즉 자신의 상황에 대해 관찰 ※ 𝑆 볼드체에 기울어진 문자는 집합을 의미 MDP에서 상태는 시간에 따라 확률적으로 변하고, 시간 t이다. 시간 t에서의 상태가 “$S_{t}$가 어떤 상태에 $s$다.”를 수식으로 표현하면 $S_{t}=s$로 적는다 행동(A) 에이전트가 상태 $S_{t}$에서 할 수 있는 가능한 행동의 집합은 𝔸이고 시간 t에 에이전트가 특정한 행동 a를 했다면 $A_{t}=a$로 표현한다 $A_..

AI/강화학습 2022.04.13