벨만 기대 방정식, 벨만 최적 방정식 벨만 기대 방정식, 벨만 최적 방정식 벨만 기대 방정식 기대값을 이용하면 바로 참값을 계산하는 것이 아니라 for문을 통해서 점점 참값으로 유추해 갈 수 있다. 기대값을 계산하기 위해 정책과 상태 변환 확률을 포함하여 계산이 가능한 벨만 기대 방정식으로 나타낼 수 있다. Vπ(s)=Eπ[Rt+1+γVπ(St+1)|St=s] Vπ(s)=∑a∈Aπ(a|s)qπ(s,a) Vπ(s)=∑a∈Aπ(a|s)(r(s,a)+γ∑s′∈sPss′aVπ(s′)) 벨만 최적 방정식 최적의 가치함수는 참가치함수와 다르다. 수 많은 정책 중 가장.. AI/강화학습 2022.04.25