PSP 응답이 느릴 때, 승인율이 아닌 「대기 큐」를 본다
2025-08-30 · 윤채원 · PSP · 지연 · SLO
2025년 봄, 한 팀이 “느리지만 정상(HTTP 200)” 응답에 지나치게 익숙해져 있었습니다. 그래서 승인율은 괜찮은데, 유저/가맹 체감·정산·분쟁 쪽에서만 느리다는 티켓이 쌓였죠. 이 글은 큐(대기) 관점·부분 응답·재시도 정책이 한 줄에서 어떻게 갈리는지, 화이트보드로 그렸던 그림을 글로 옮겼습니다.
둘째, 멱등·재시도·백오프는 “최적”이 팀마다 달라집니다. 이 글에선 50/200/500을 한 번에 정리하려다 실패한 사례(가상)로, “어느 라우트엔 429가 없는데, 다른 곳엔 있음” 같은 불균형을 먼저 바라보자고 제안합니다. 문서/코드/운영 셋이 말하는 “정상”이 달랐을 때, 작은 랩(시뮬레이터)이 도움이 됩니다.
셋째, “대기”는 내부 SLO(내부)와 “외부에 말하는 수치”(파트너)가 갈릴 수 있음을 짚습니다. 외부 문서·사내 대시보드·온콜이 가리키는 숫자가 달르면, RC나 포스트모텀에서 “어느 숫자가 기준인가”부터 다툼이 열립니다. 먼저 “기준 1가지 + 예외 2가지(경로·국가·BIN)”로 줄여 보는 연습이 있습니다.
넷째, 가격·SLA·계약(실제)은 이 기사 범위 밖입니다. 기술·제품팀이 대화를 시작하는 용어·체크리스트·작은 랩이 목표입니다. 법·규정·규제 샌드박스는 별도 절차를 따르며, 본문은 강의·멘토링에서 쓰는 내부 러닝 메모 성격에 가깝습니다.