n8n + Anthropic Batch API 로 비용 60% 줄인 한 줄
실시간 응답이 필요 없는 LLM 호출을 모았더니 청구서가 거의 절반이 됐다.
운영 알람 한국어 요약 봇은 실시간이 필요하지만, 매일 모아서 처리하는 RSS 한국어 요약 은 그렇지 않다. 24시간 안에 끝나면 된다.
Anthropic 의 Batch API 는 24시간 turn-around 를 허용하는 대신 토큰 단가가 50% 할인.
옮기는 데 걸린 시간
n8n 워크플로우 한 개. 30분.
- 매일 RSS 30개의 본문을 모아 jsonl 한 파일로 묶음
client.messages.batches.create(requests=[...])한 번 호출batch.processing_status == "ended"가 될 때까지 polling (15분 간격) — 보통 1~3시간 안에 끝남- 결과를 받아 슬랙 다이제스트로 발송
청구서 비교
| 항목 | 실시간 호출 | Batch API |
|---|---|---|
| 월 token 사용량 | 약 240만 (입력) + 80만 (출력) | 동일 |
| 월 비용 | $14.5 | $7.3 |
| 응답 지연 | 1~2초 | 30분~3시간 |
50% 단가 + Prompt caching 까지 켜니 실 비용은 60% 감소.
함정 한 가지
batch 가 24시간 안에 안 끝나는 경우 — 드물지만 있다. 우리는 한 번 14시간 동안 polling 만 했는데, 슬랙 다이제스트가 다음 날 점심까지 안 올라왔다. batch fail-safe 로 8시간 timeout 설정 + 실시간 호출로 fallback. 단가는 비싸지지만 SLA 는 지킨다.
다음에는 다르게 할 한 가지
LLM 비용 절감을 시작할 때 응답 시간 SLA 를 먼저 정한다. “1초 안에 응답” 이 필요한 영역과 “오늘 안에 끝나면 됨” 이 명확히 갈리면, 후자는 거의 다 Batch API 로 옮길 수 있다.
🛒 이 글과 어울리는 추천 상품
위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.