← 모든 글

Anthropic Claude API 와 일주일 — 첫 토큰비 청구서

LLM 을 처음 운영에 넣고 7일 만에 받은 청구서, 그리고 비용을 1/5 로 줄인 한 줄.

운영 알람을 한국어로 요약해주는 봇을 만들기 시작했다.

처음 사용한 모델은 Claude Sonnet. 알람 한 건당 입력 ~600 토큰 + 출력 120 토큰. 하루 알람 수가 평균 80건. 단순 계산으로 월 $510. “그 정도면 괜찮네” 하고 dev API key 로 일주일 돌렸다.

청구서

$23 — 한 일주일에.

원인은 두 가지였다.

  1. 무한 retry 루프: ConnectionError 에 backoff 없이 retry 를 걸어놨다. 한 번 5xx 가 나면 같은 호출이 1초 간격으로 60번 들어갔다. 두 번 사고.
  2. system prompt 가 매번 다시 보내짐: 같은 system prompt (~400 토큰) 를 모든 알람마다 같이 보냈는데, prompt caching 을 켜지 않았다.

한 줄로 줄인 비용

system=[{
    "type": "text",
    "text": SYSTEM_PROMPT,
    "cache_control": {"type": "ephemeral"}  # <- 이 한 줄
}]

캐시 hit 토큰은 단가가 1/10. 청구서가 다음 주에 $4.50 으로 떨어졌다.

retry 도 같은 식

anthropic SDK 의 max_retries=3 옵션 지정 + httpx timeout 30s. 그 이상은 외부 알람으로 처리하고 즉시 fail.

다음에는 다르게 할 한 가지

LLM API 를 운영에 넣기 첫날 에 두 가지를 같이 한다 — cache_controlmax_retries. 둘 중 하나만 빠져도 청구서가 5배가 된다. 지난주에 직접 확인한 사실이다.


🛒 이 글과 어울리는 추천 상품

위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.