RSS 를 한국어로 옮기는 첫 시도 — Pandas + KSS 와 한 달
영문/일문 RSS 를 한국어로 자동 정리해 매일 받아보고 싶었다. Pandas 와 KSS 로 시작한 ETL 의 첫 한 달.
“매일 아침 RSS 30개를 한국어로 요약해서 메일로 받자.” 그게 시작이었다.
그때만 해도 LLM 을 호출할 비용·키 발급 절차가 부담스러웠고, 그래서 일단 번역 없이 한국어 키워드 추출 까지만 해보기로 했다. 도구는 Pandas, KSS, 그리고 cron.
1주차 — 일단 받아오기만
feedparser 로 30개 피드를 받아 Pandas DataFrame 에 쌓았다. 한 번 돌리면 ~6000 entry. 같은 글이 여러 피드에 중복으로 잡혀서 (title, link) 로 dedup. 디스크 IO 가 사소해 보이지만 누적되면 SSD 가 슬퍼지는 걸 본 첫 주.
2~3주차 — 토큰화의 함정
KSS 로 본문을 문장 단위로 쪼개면 한국어 자료는 깔끔한데, 영문 본문은 ”. ” 로만 끊겨서 줄임표·소수점·이니셜이 모두 새 문장으로 분리됐다. 결국 영문은 nltk.sent_tokenize, 한국어는 KSS 로 분기. 언어 감지를 입력 단계에서 한 번 하니 이후 모든 처리가 단순해졌다.
4주차 — “이거 굳이 매일 받아봐야 해?”
자동 추출 결과를 한 달 동안 메일로 받아봤는데, 실제로 클릭해 들어가 읽은 글은 한 주에 두세 개. 나머지는 keyword 만 봐도 안 읽었다. 요약을 아예 안 하고 제목 + 한 줄만 받는 RSS Reader 와 다를 게 없었다.
그래서 ETL 의 방향을 바꿨다. 본문은 안 가져온다. 제목/링크/태그만 모아두고, 클릭한 글만 LLM 으로 후처리하기로.
다음에는 다르게 할 한 가지
도구를 정하기 전에 소비 패턴을 먼저 측정한다. 한 달 메일 발송 + 클릭률 로그를 켜놓고 나서야 “본문 처리는 낭비” 라는 게 드러났다. 만들기 전에 한 주만 종이에 적어 봤어도 알 수 있었던 사실이다.
🛒 이 글과 어울리는 추천 상품
위 링크는 쿠팡파트너스 활동의 일환이며, 일정액의 수수료를 제공받을 수 있습니다.