-
Notifications
You must be signed in to change notification settings - Fork 1
[GSRE-YUNTAE] - Update week 6 #29
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
Conversation
yureutaejin
commented
Apr 4, 2025
- Simplicity는 마음가짐 관련 chapter인 것 같은데, 너무 이상적으로 저거에 매달리면 처리속도가 느려질 것 같기도
- Chapter 10은, 오래된 책이다라고 생각하고 현재 prometheus 사용을 기준으로 읽으면 크게 특이한 건 없던 것 같습니다.
- Prometheus Alertmanager rule 세팅 config 값들을 한번 보면 좋은 거 같아요
yucori
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
잘 읽었습니다 👍
|
|
||
| > [!NOTE] | ||
| > 단순 metric 기준으로 대응했는데 실제 유저는 문제없었고, 로그만 쌓이는 상황. | ||
| > 반면 `/api/auth`의 5xx 증가를 기준으로 PromQL 처리해서 alert를 하면 효과적으로 대응. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
로그, 메트릭 지표 활용하기 바빠서 정작 에러코드 활용은 까먹었는데 덕분에 중요한걸 상기시켰어요 😂
|
|
||
| - **기준이 명확하고, 거짓 양성(false positive)을 최소화할 것** | ||
|
|
||
| - 사용자 영향이 없는데 알람 울리면 대응 리소스 낭비됨 |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
그만큼 사용자 경험이 최우선이고, 내부 오류 해결 과정에서 사용자 경험 저하가 예상될 때는 굉장히 신중하게 접근해야 겠다고 생각이 드네요
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
그래서 알림의 기준을 설정하는게 정말 어려운 것 같다는 생각이 들어요
MinhoJJang
left a comment
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
재미있게 읽었습니다 :)
| # Chapter 9 - Simplicity | ||
|
|
||
| 복잡한 시스템은 필연적으로 실패한다. 그리고 SRE는 실패를 관리하는 역할을 맡는다. | ||
| 따라서 단순함은 ‘있으면 좋은 철학’이 아니라, 신뢰성을 위한 실질적인 전략. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
공감합니다
| - 알람이 떴을 때 “그래서 뭘 하면 되는데?”라는 질문에 명확한 답이 있어야 함. | ||
| - 그렇지 않으면 알람이 아니라 그냥 시끄러운 로그. |
There was a problem hiding this comment.
Choose a reason for hiding this comment
The reason will be displayed to describe this comment to others. Learn more.
알람이 양치기 소년이 되지 않는 게 정말 중요한 것 같습니다