파이썬과 케라스로 배우는 강화학습 2

가치함수와 큐함수

가치함수 : 앞으로 방을 보상에 대한 개념 현재시간 t로 부터 에이전트가 행동을 하면서 받을 보상을 합한다면, $R_{t+1}+R_{t+2}+R_{t+3}+R_{t+4}+\cdots$가 된다. 이렇게 단순 합으로 보상을 계산하면 3가지 문제가 발생한다. 지금 받은 보상이나 미래에 받은 보상이나 똑같이 생각한다. 100이라는 보상을 1번 받는 것과 20이라는 보상을 5번 받는 것을 구분할 수 없다. 0.1씩 보상을 계속 받아도 ∞이고 1씩 계속 받아도 ∞여서 수학적으로 구분할 수 없다. 3가지 문제를 통해 보상의 합으로는 시간 t에 있었던 상태가 어떤 가치를 가졌는지 판단하기가 어렵다. 상태의 가치를 판단하기 위해 할인율의 개념을 사용하고 할인율을 적용한 보상의 합을 반환값($G_{t}$)라고 한다. 반환..

AI/강화학습 2022.04.15

MDP

MDP MDP : 순차적으로 결정해야하는 문제를 수학적으로 표현 문제를 잘못 정의하면 에이전트가 잘못 학습할 수 있다. 따라서 문제의 정의는 에이전트가 학습하는데 가장 중요한 단계 중 하나이다. 순차적으로 행동을 결정하는 문제에 대한 정의가 MDP 상태(S) 에이전트가 관찰 가능한 상태의 집합, 즉 자신의 상황에 대해 관찰 ※ 𝑆 볼드체에 기울어진 문자는 집합을 의미 MDP에서 상태는 시간에 따라 확률적으로 변하고, 시간 t이다. 시간 t에서의 상태가 “$S_{t}$가 어떤 상태에 $s$다.”를 수식으로 표현하면 $S_{t}=s$로 적는다 행동(A) 에이전트가 상태 $S_{t}$에서 할 수 있는 가능한 행동의 집합은 𝔸이고 시간 t에 에이전트가 특정한 행동 a를 했다면 $A_{t}=a$로 표현한다 $A_..

AI/강화학습 2022.04.13