타임라인
10/20 16:10: US-EAST-1에서 다수 서비스 오류율 증가 및 지연 관측, 조사 시작
10/20 17:26: US-EAST-1의 DynamoDB 엔드포인트 요청에서 의미 있는 오류율 확인
10/20 18:01: DynamoDB API 엔드포인트의 DNS 해석 문제가 주요 원인으로 지목
10/20 18:24: 기저 DNS 문제 완화 조치 적용(fully mitigated)
10/20 19:30: 초기 복구 발표, 일부 서비스 정상화 시작(EC2 신규 인스턴스 런칭 등은 조절·제한)
10/21 06:00~08:00: 대다수 서비스 복구 보도 및 안내, AWS “모든 서비스 정상 운영” 공지(간헐적 오류 가능성 언급)
문제 원인
US-EAST-1 리전의 DynamoDB API 엔드포인트에 대한 DNS 해석 실패
DynamoDB에 의존하는 인증·데이터 저장·서버 실행 등 다수 구성요소의 연쇄 장애
실패 요청 증가로 인한 재시도 폭증
상태 전파 지연으로 초기 가시성 부족(상태 페이지와 실제 현황 불일치)
복구 과정의 캐시 무효화·재시도·대체 경로 적용 등으로 인한 일시적 불안정
일부 분석에서 내부 네트워크/모니터링 하위 시스템 이상이 DNS 문제로 이어졌을 가능성 제기
영향받은 주요 서비스/기업
글로벌 서비스: Perplexity, Snapchat, Reddit, Signal, Fortnite, Roblox, Duolingo, Disney+, McDonald’s 앱, 다양한 SaaS 웹앱
금융/거래: Venmo, Coinbase, Robinhood 등 일부 결제·거래 서비스
항공/공공: Delta, United 등 일부 항공 및 공공 웹서비스 접속 장애 사례
아마존 자사: Amazon.com, Prime Video, Alexa, Ring 등
국내/아시아: PUBG(배틀그라운드), 삼성월렛, 일부 카카오게임즈 서비스 등에서 간헐적 접속 불안정 보고
복구 상태
10/20 18:24 기준 DNS 근본 문제 완화, 19:30 전후 초기 복구 발표
당일 저녁부터 대다수 서비스 단계적 정상화, 사용자 체감 장애 급감
일부 기능(특히 US-EAST-1 내 신규 EC2 인스턴스 생성 등)에서 단기간 잔여 오류율·지연 관찰
운영 권고: 지수 백오프 재시도, DNS 캐시 플러시, 대체 리전/엔드포인트 사용 등
10/21 오전 기준 “정상 운영” 발표, 백로그 처리·안정화 지속 및 세부 RCA/추가 완화책 후속 제공 예정
댓글을 남기려면 로그인이 필요합니다.
로그인 후 이 페이지로 돌아와 바로 댓글을 남길 수 있습니다.
