배포 후 "지금 조치해야 하나?"가 애매해서 만들었습니다
안녕하세요. 회사 다니면서 사이드프로젝트로 개발 도구를 만들고 있습니다.
6개월 정도 만들었는데, 아직 제대로 써주는 첫 사용자는 못 만들었습니다. 3개월 전쯤에도 비슷한 글을 한 번 올렸고, 그때 "카나리나 배포 전 검증으로 되는 거 아닌가요?"라는 댓글을 받았습니다.
그 댓글을 보고 제가 설명을 너무 넓게 했다는 생각이 들었습니다. 카나리는 배포를 어떻게 나눠서 내보낼지에 가까운 전략이고, 제가 만들고 있는 건 배포가 나간 뒤의 신호를 보고 "지금 뭘 해야 하지?"를 정리하는 쪽에 더 가깝습니다.
제가 불편했던 건 배포 버튼을 누르는 순간보다 그 다음 몇 분이었습니다.
CI 는 통과했고, 배포도 성공했고, 대시보드가 완전히 빨갛게 터진 것도 아닌데 작은 이상 신호가 하나둘씩 뜹니다. 같은 에러가 몇 번 보이고, 특정 API 가 느려지고, Slack 알림이 하나둘 옵니다.
근데 그게 "지금 롤백해야 할 정도"인지, "원래도 가끔 있던 잡음"인지 바로 판단이 잘 안 됐습니다.
물론 이미 보는 도구들은 있습니다. Sentry 도 보고, Datadog 도 보고, 로그도 봅니다. 다만 그 신호를 보고 지금 어떤 결정을 해야 하는지는 결국 제가 판단해야 했습니다.
- 이게 이번 배포 때문인가?
- 어느 API 부터 봐야 하지?
- 지금 조치해야 하나, 조금 더 봐도 되나?
그래서 그 짧은 판단만 따로 정리해주는 걸 만들었습니다. 이름은 Relivio 입니다.
앱에서 나는 예외 로그와 배포 정보를 보내면, 배포 단위로 상태를 정리해줍니다. 새로운 모니터링 도구를 하나 더 붙이자는 건 아니고, 이미 있는 로그를 보고 배포 직후 판단만 작게 정리하는 쪽입니다.
- STABLE: 지금은 괜찮아 보임
- WATCH: 이상한 신호가 있어서 조금 더 봐야 함
- RISK: 특정 API 나 패턴이 강해서 바로 확인해야 함
기본 관찰 시간은 배포 후 15분으로 잡았습니다. 사실 이 숫자도 정답이라기보다 제가 운영하면서 제일 찜찜했던 구간을 숫자로 박은 쪽에 가깝습니다.
지금은 TypeScript / Python SDK 가 있고, Slack / Discord 알림도 붙여뒀습니다. MCP 서버도 같이 만들었습니다. 사람은 알림으로 보고, 에이전트는 같은 배포 판단을 API 나 MCP 로 읽게 하려는 구조입니다.
궁금한 건 제품 홍보보다 이 문제 자체가 실무에서 의미가 있는지입니다.
1. 배포 직후에 "지금 조치해야 하는지"를 따로 판단하는 도구가 실제로 필요할까요?
2. 사람뿐 아니라 에이전트도 같은 배포 판단을 읽게 하는 방식이 실제 운영에 들어갈 수 있을까요?
제품 설명: https://relivio.dev/
SDK: npm relivio / PyPI relivio
댓글을 남기려면 로그인이 필요합니다.
로그인 후 이 페이지로 돌아와 바로 댓글을 남길 수 있습니다.