← 모든 글

n8n + Anthropic Batch API 로 비용 60% 줄인 한 줄

실시간 응답이 필요 없는 LLM 호출을 모았더니 청구서가 거의 절반이 됐다.

운영 알람 한국어 요약 봇은 실시간이 필요하지만, 매일 모아서 처리하는 RSS 한국어 요약 은 그렇지 않다. 24시간 안에 끝나면 된다.

Anthropic 의 Batch API 는 24시간 turn-around 를 허용하는 대신 토큰 단가가 50% 할인.

옮기는 데 걸린 시간

n8n 워크플로우 한 개. 30분.

  1. 매일 RSS 30개의 본문을 모아 jsonl 한 파일로 묶음
  2. client.messages.batches.create(requests=[...]) 한 번 호출
  3. batch.processing_status == "ended" 가 될 때까지 polling (15분 간격) — 보통 1~3시간 안에 끝남
  4. 결과를 받아 슬랙 다이제스트로 발송

청구서 비교

항목실시간 호출Batch API
월 token 사용량약 240만 (입력) + 80만 (출력)동일
월 비용$14.5$7.3
응답 지연1~2초30분~3시간

50% 단가 + Prompt caching 까지 켜니 실 비용은 60% 감소.

함정 한 가지

batch 가 24시간 안에 안 끝나는 경우 — 드물지만 있다. 우리는 한 번 14시간 동안 polling 만 했는데, 슬랙 다이제스트가 다음 날 점심까지 안 올라왔다. batch fail-safe 로 8시간 timeout 설정 + 실시간 호출로 fallback. 단가는 비싸지지만 SLA 는 지킨다.

다음에는 다르게 할 한 가지

LLM 비용 절감을 시작할 때 응답 시간 SLA 를 먼저 정한다. “1초 안에 응답” 이 필요한 영역과 “오늘 안에 끝나면 됨” 이 명확히 갈리면, 후자는 거의 다 Batch API 로 옮길 수 있다.


🛒 이 글과 어울리는 추천 상품

위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.