월 $3으로 AI 개발팀 운영하기

PM은 Opus, Dev는 GLM-5. 역할에 따라 모델을 섞어 쓰면 비용이 58배 줄어든다.

문제

AI 에이전트로 개발 파이프라인을 구축하면 비용 문제가 바로 찾아온다.

PM Agent가 PRD를 쓰고, Dev Agent가 코딩하고, QA Agent가 테스트한다. 세 에이전트 모두 Claude Opus 4.6을 쓰면 어떻게 될까? 월 API 비용만 $100을 쉽게 넘긴다.

프로젝트가 1개면 괜찮다. 하지만 외주 플랫폼에서 동시에 10개 프로젝트를 돌리면? 월 $1,000. AI 외주의 비용 우위가 사라진다.

나는 이 문제를 사람 조직과 같은 원리로 풀었다.

비용 비교

핵심 인사이트: 판단과 실행은 다른 근육이다

회사에서 CTO가 아키텍처를 설계하면, 주니어 개발자가 구현한다. CTO의 연봉이 높은 건 판단력 때문이고, 주니어도 구현을 잘 하는 건 명확한 지시가 있기 때문이다.

AI도 마찬가지다.

PM Agent = CTO 역할. 요구사항을 분석하고, PRD를 쓰고, Phase를 나눈다. 추론력이 핵심.
Dev Agent = 개발자 역할. PRD에 따라 코드를 작성한다. 실행력이 핵심.
QA Agent = 테스터 역할. 빌드 확인, 에러 탐지. 반복 속도가 핵심.

PM이 잘못 판단하면 프로젝트 전체가 망한다. 하지만 Dev가 코드를 약간 비효율적으로 짜도 동작은 한다.

비싼 판단 + 저렴한 실행. 이게 전략이다.

GLM-5라는 변수

2026년 2월, Zhipu AI가 GLM-5를 공개했다.

항목	GLM-5	Opus 4.6
SWE-bench Verified	77.8%	79.4%
Input 가격 (1M 토큰)	$0.11	$5
Output 가격 (1M 토큰)	$0.44	$25
컨텍스트	200K	1M
오픈소스	MIT ✅	❌

코딩 벤치마크 차이는 1.6%. 가격 차이는 45배.

실제 체감은? Reddit r/ClaudeCode에서 한 유저가 이렇게 말했다:

“GLM-5는 Opus 수준은 아니지만 Sonnet에 가깝다. 가성비로는 최강.”

코딩 작업 — 특히 명확한 지시가 있는 구현 작업 — 에서는 이 1.6% 차이가 거의 느껴지지 않는다.

듀얼 모드 비용 구조

Agent	모델	역할	월 비용
PM	Claude Opus 4.6	PRD, 이슈 분해	~$10
Dev	GLM-5	코딩	~$2
QA/Debug	GLM-5	테스트, 디버깅	~$1
합계			~$13

전부 Opus를 쓰면 ~$105. 8배 절약.

여기서 더 나갈 수 있다. PM도 API로 전환하면:

Agent	모델	월 비용
PM	Opus API	~$5
Dev	GLM-5	~$2
QA	GLM-5	~$1
합계		~$8

극단적으로, NVIDIA NIM 무료 티어를 쓰면 Dev+QA 비용이 $0이 된다. PM만 Opus API로 월 $3~5. 월 $3으로 AI 개발팀을 운영할 수 있다.

에이전트별 모델 티어

구현: 엔진 추상화 레이어

모델을 자유롭게 바꾸려면 엔진 추상화가 필요하다.

interface AgentEngine {
  execute(prompt: string, options: AgentOptions): Promise<AgentResult>
  getStatus(sessionId: string): Promise<SessionStatus>
  abort(sessionId: string): Promise<void>
}
 
// PM은 Claude CLI (구독)
class ClaudeCLIEngine implements AgentEngine { ... }
 
// Dev/QA는 OpenCode SDK (GLM-5)
class OpenCodeEngine implements AgentEngine { ... }

Worker 설정에서 에이전트별 엔진을 지정한다:

const workerConfig = {
  pm:  { engine: "claude-cli", model: "opus-4.6" },
  dev: { engine: "opencode",   model: "glm-5" },
  qa:  { engine: "opencode",   model: "glm-5" },
}

내일 더 좋은 모델이 나오면? config 한 줄 바꾸면 끝이다.

PRD가 좋으면 Dev는 덜 헤맨다

이 전략이 작동하는 전제가 있다. PM이 좋은 PRD를 써야 한다.

PRD가 모호하면 Dev Agent가 아무리 좋은 모델이어도 방향을 잃는다. 반대로 PRD가 명확하면 — Phase별 이슈, 완료 조건, 기술 스택이 정해져 있으면 — 저렴한 모델도 잘 해낸다.

이건 사람 조직에서도 똑같다. 기획서가 좋으면 주니어도 잘 만든다. 기획서가 부실하면 시니어도 헤맨다.

PM에 돈을 쓰는 건 낭비가 아니라 투자다.

배운 점

모든 에이전트에 같은 모델을 쓸 필요 없다. 역할에 따라 최적의 모델이 다르다.
PM에 투자하면 전체 비용이 줄어든다. 좋은 기획 = 적은 재작업.
추상화가 유연성을 만든다. 엔진 인터페이스 하나면 모델 교체가 config 변경 수준이 된다.
무료도 충분할 수 있다. NVIDIA NIM 무료 티어로 실제 코딩 작업이 가능하다.

생각해볼 질문

당신의 AI 워크플로우에서 “비싼 판단”과 “저렴한 실행”을 구분하고 있는가? 모든 작업에 최고 모델을 쓰고 있다면, 그건 CTO한테 보일러플레이트를 시키는 거다.

이 글에서 소개한 듀얼 모드 전략은 Codemon Make에서 구현 중입니다.

Sonnet 4.6이 떴다 — Opus급 성능을 1/5 가격에 AI 에이전트에게 스킬을 가르치는 법