Skip to content

Commit bc757a1

Browse files
committed
initiated policy improvement
1 parent df9be6e commit bc757a1

File tree

2 files changed

+24
-1
lines changed

2 files changed

+24
-1
lines changed

_posts/2025-09-18-policy_evaluation.md

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -2,7 +2,7 @@
22
layout: single
33
title: "(Sutton, 4.1절) Policy Evaluation"
44
categories: machine-learning
5-
tags: [reinforcement learing, Bellman operator, contraction principle, operator norm]
5+
tags: [reinforcement learing, dynamic programming, Bellman operator, contraction principle, operator norm]
66
use_math: true
77
published: true
88
author_profile: false
Lines changed: 23 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,23 @@
1+
---
2+
layout: single
3+
title: "(Sutton, 4.2절) Policy Improvement"
4+
categories: machine-learning
5+
tags: [reinforcement learing, dynamic programming, policy improvement theorem, policy iteration]
6+
use_math: true
7+
published: true
8+
author_profile: false
9+
toc: true
10+
---
11+
12+
더 시간이 지나기 전에 Dynamic programming 포스팅을 끝내고 싶은 마음이 생겼다.
13+
다른 주제들도 공부하여 포스팅을 남기고 싶은데 DP를 끝내지 않고 다른 것을 쓰기는 싫기 때문이다.
14+
그러니까 일종의 의무감에서 이 글을 쓰고 있다.
15+
당장 이전부터 PCA와 PLS에 대해 공부하고 싶었고 얼마 전에는 game theory나 control theory에 손을 댈까도 생각했었는데, 오늘은 MPC와 LQR을 배워야 할 필요가 생긴 것이다.
16+
그러니 DP는 빠르게 공부하여 치워버리자.
17+
18+
그리고 사실 글을 쓸 준비가 되어있다고 생각한다.
19+
[이전 글](https://govin08.github.io/machine-learning/policy_evaluation/)을 쓰고 나서 간간이 4.2절을 보았고 어느 정도 이해는 했던 터였다.
20+
21+
22+
## 4.2 Policy Improvement
23+

0 commit comments

Comments
 (0)