Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

feat(infra): set prometheus alertmanager and add container for checking number of instances #50

Merged
merged 5 commits into from
May 23, 2024

Conversation

ssupecial
Copy link
Collaborator

@ssupecial ssupecial commented May 13, 2024

Close #49

1) Prometheus Alertmanager 설정

  • 다음의 오픈소스를 활용하여 Github Repo Prometheus Alertmanger를 설정하였습니다.
  • 우선 완성된 것은 아니고, CPU 사용량 경고만 설정하였습니다. (Memory 사용량 경고도 설정해야함X, Memory는 중요하지 않다고 판단하여 진행하지 않기로 함, Scale out 기준이 CPU 사용량임)
  • 그리고, ECS 설정에 대해 논의할 게 있어 컨테이너별 경고만 설정하였고, 아직 인스턴스별 경고는 없습니다.
  • CPU 사용량이 1분간 80, 90%를 넘길 경우 MS Teams watch-production-alert 채널로 알림이 옵니다.
  • 잘 작동하는지 테스트를 위해 HighCpuUsageClientAPIWarning의 임계값을 80이 아닌 5로 설정하였습니다. 동작이 잘 되는지 확인이 되면 바로 수정할 계획입니다.

2) 각 Service의 인스턴스 개수를 체크하는 도커 컨테이너 추가

  • Client API, Admin API, Iris의 인스턴스 개수를 체크합니다. 변화(증가/감소)가 있을 경우 MS Teams watch-production-alert 채널로 알림이 옵니다.
  • Python 언어를 사용하여 코드를 작성하였으며, 해당 모니터링 서버에서 돌아가는 Prometheus 서버의 API를 이용하였습니다.

@ssupecial ssupecial requested review from y-jiu, goo314, goathoon and k1g99 May 13, 2024 08:24
Copy link

@ssupecial ssupecial changed the title feat(infra): set prometheus alertmanager feat(infra): set prometheus alertmanager and add container for checking number of instances May 16, 2024
docker-compose.yml Show resolved Hide resolved
config/alertmanager/config.yml Show resolved Hide resolved
@ssupecial ssupecial merged commit ce01bcd into main May 23, 2024
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
None yet
Development

Successfully merging this pull request may close these issues.

Prometheus Alertmanager 설정
3 participants