비용 알람을 끄지 않는 한 가지 이유
알람 피로와 싸우면서 배운 것: 임계값을 올리되, 끄지는 않는다.
알람을 끄고 싶어진 순간
매달 말 AWS Cost Explorer 를 열면 어김없이 슬랙에 와 있는 알림들. 처음엔 진지하게 읽었다. 두 달 지나면 스누즈. 석 달 지나면 채널 뮤트.
막상 끄고 나서 생기는 일이 있다. 비용이 오르고 있어도 아무도 모른다. 단순히 “나만 모르는” 게 아니라 팀 전체가 모른다. 슬랙에서 사라지는 순간, 그 숫자는 아무도 소유하지 않는 숫자가 된다.
2026년 기준 우리 팀이 운영하는 서비스 스택은 EC2 몇 대, RDS, ElastiCache, 그리고 LLM API 비용이 최근 들어 붙었다. LLM 비용이 문제였다. input token 과 output token 단가가 다르고, 캐싱 여부에 따라 같은 기능도 하루에 $30 차이가 난다. 처음 Claude API 붙였을 때 cache_control 헤더 없이 배포했더니 사흘 만에 비용이 이전 달 전체 LLM 비용을 넘겼다. 알람이 없었으면 일주일은 더 갔다.
그래서 끄지 않기로 했다. 대신 알람을 리팩터링하기로 했다.
알람 피로의 진짜 원인
알람이 귀찮아지는 건 알람이 많아서가 아니다. 대응할 수 없는 알람이 많아서다.
우리 팀이 틀렸던 설정 두 가지:
- 임계값이 너무 낮았다. 월 예산 $2,000 인데 $1,800 초과 알람을 설정해 뒀다. 매달 당연히 울린다. 이 알람은 정보가 없다. “또 왔네” 로 끝난다.
- 알람 수신자가 채널이었다.
#billing-alert채널에 뿌리면 아무도 안 본다. 소유자가 없는 알람은 알람이 아니다. 소음이다.
바꾼 것은 단순하다:
기존: 월 예산 $2,000 → $1,800 초과 시 #billing-alert
변경: 전월 대비 20% 증가 시 → @mings DM + #engineering
퍼센트 기반으로 바꾼 이유가 있다. 절대값 알람은 “예산이 얼마냐”에 따라 맥락이 달라진다. 반면 전월 대비 20% 는 맥락 없이도 이상하다는 걸 안다. 트래픽이 늘어서 자연스럽게 올랐다면 다음 달 기준점이 올라가면 그만이고, 이유 없이 올랐다면 그게 신호다.
DM 으로 보내는 건 부담스럽긴 하다. 근데 그 부담이 포인트다. 채널에 뿌리면 “누군가 보겠지”가 되는데, DM 은 “내가 봐야 한다”가 된다. 소유권이 생긴다.
비용 알람이 결국 하는 일
비용 알람을 단순히 “돈 아끼는 도구”로 생각하면 끄고 싶어진다. 어차피 이미 쓴 돈이고, 알람 받는다고 지난달 비용이 줄지 않는다.
근데 막상 운영하면서 알람이 하는 진짜 역할은 따로 있다. 배포 이후 회귀를 잡는다.
최근에 있었던 일: 특정 feature flag 를 잘못 켜뒀더니 한 API 엔드포인트가 캐싱 없이 LLM 을 풀로 호출하고 있었다. 트래픽은 정상, 에러율도 0, p99 레이턴시도 멀쩡했다. 비용 알람만 울렸다. 배포 다음 날 아침에 DM 받고 확인했더니 해당 배포 이후부터 LLM 비용이 6배였다. 플래그 내리고 끝났다.
APM 이나 에러 모니터링은 이걸 못 잡는다. 비용만 잡는다. 그래서 비용 알람은 단순히 예산 관리가 아니라 기능 이상 감지 레이어 중 하나다.
관점 하나 더: 팀 전체가 비용 알람을 보는 환경이 만들어지면, 개발자들이 배포할 때 자연스럽게 “이게 얼마나 나올까”를 생각하게 된다. 주니어 엔지니어가 처음 LLM API 붙이는 PR 리뷰할 때, 이제 비용 항목을 같이 보는 문화가 생겼다. 알람 하나가 그 문화를 만들었다고 하면 과장이지만, 비용 숫자가 팀에 보이는 것 자체가 행동을 바꿨다.
다음 한 가지
서비스별 비용 태깅을 아직 제대로 안 했다. 전체 AWS 청구서는 보이는데 “어떤 서비스가 얼마”는 Cost Allocation Tag 없이는 추정이다. 다음 달 안에 태그 정책 문서 한 장 만들고 주요 리소스에 service 태그 붙이기.
🛒 이 글과 어울리는 추천 상품
위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.