2024.09.05 19시경에 발생한 서버 다운 오류 관련 포스트 모템 #82
Recyclingbottle
started this conversation in
포스트모템
Replies: 1 comment
-
|
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
-
포스트 모템
원인 분석
2024년 9월 6일 오전 7시 40분 경, EC2 내에서 실행 중이던 스프링부트 애플리케이션이 데이터베이스 연결이 끊기며 애플리케이션이 종료되는 문제가 발생했습니다. RDS 모니터링을 살펴본 결과, 모니터링 지표는 튀거나 이상한 부분이 없었고, 연결 수가 최대 60임에도 대부분 20대 중반을 유지하고 있었습니다.
해당 시간에 RDS 로그에서 외부 IP로의 접근 시도가 있었으며, VPC 설정에서 모든 IPv4와 IPv6를 허용한 상태에서 발생한 문제였습니다.
무슨 일이 있었나요?
기여 요인 또는 근본 원인 식별
기여 요인
connectionTimeout
설정이 적절히 적용되지 않았을 가능성이 있다고 멘토인 '웨슬리'를 통해 확인했습니다.근본 원인
max_connections
설정이 한계에 다다른 상태에서 외부 접근 시도 및 연결 문제로 인해 애플리케이션의 데이터베이스 연결이 끊겼습니다.다운타임으로 인한 영향
문제를 어떻게 발견했나요
응답 관련 요소들
max_connections
수를 늘려 해당 오류를 방지하였습니다.skip-name-resolve
설정을 통해 처리하였습니다.해결
max_connections
을 늘렸습니다.skip-name-resolve
옵션을 추가해 불필요한 DNS 조회를 막았습니다.connectionTimeout
설정을 확인한 결과 문제가 없음을 확인했습니다.타임라인
재발생 여부 및 분석
배운 교훈
잘된 점
잘못된 점
조치 항목 (액션 아이템)
향후 기여 요인을 방지하는 데 필요한 수정 사항
문제가 다시 발생할 경우 문제를 완화하는 데 도움이 될 수 있는 준비 작업
connectionTimeout
설정을 확인하여 문제 없음을 확인.남은 사후 단계
사고 대응 프로세스 개선
Beta Was this translation helpful? Give feedback.
All reactions