AI 에이전트 7명이 일하는 외주 회사를 만들었다
개발자 없는 개발 회사. AI가 기획하고, 코딩하고, 테스트한다.
문제
외주 개발의 구조적 문제는 오래전부터 있었다.
클라이언트는 “이런 앱 만들어주세요”라고 말하고, 개발사는 그걸 해석해서 만든다. 그 사이에서 커뮤니케이션 비용이 전체 프로젝트의 30~40%를 잡아먹는다. 요구사항은 회의록에 묻히고, 중간 점검은 형식적이고, 결과물은 처음 이야기한 것과 다르다.
나는 이 구조를 바꿀 수 없을까 생각했다. 사람이 아니라 AI 에이전트가 외주를 받으면 어떨까?

기존 접근의 한계
AI 코딩 도구는 이미 많다. GitHub Copilot, Cursor, Claude Code — 모두 훌륭하다. 하지만 이것들은 개발자의 도구다. 개발자가 있어야 쓸 수 있다.
내가 원한 건 다른 거였다.
- 클라이언트가 “할일 앱 만들어주세요”라고 말하면
- AI가 요구사항을 분석하고
- 기획서를 쓰고
- 코드를 짜고
- 테스트하고
- 배포까지 하는 것
개발자 없이. 또는 최소한의 감독만으로.
문제는 단일 AI 에이전트로는 이게 불가능하다는 거였다. 하나의 프롬프트에 기획, 개발, 테스트를 모두 맡기면 컨텍스트가 폭발한다. 초반에는 그럴듯하지만, 복잡도가 올라가면 무너진다.
내가 내린 판단: 역할을 나누자
사람 조직이 그렇듯, AI도 역할을 나눠야 한다.
나는 7명의 전문 에이전트로 구성된 AI 외주 팀을 설계했다:
| 에이전트 | 역할 | 비유 |
|---|---|---|
| PM | 요구사항 분석, PRD 작성, 이슈 분해 | 프로젝트 매니저 |
| Architect | 기술 스택 선정, 아키텍처 설계 | 테크 리드 |
| Frontend | UI/UX 구현 | 프론트엔드 개발자 |
| Backend | API, DB, 비즈니스 로직 | 백엔드 개발자 |
| QA | 테스트, 품질 검증 | QA 엔지니어 |
| Debug | 빌드 에러 분석, 자동 복구 | 시니어 디버거 |
| DevOps | 빌드, 배포, 프리뷰 환경 | 인프라 엔지니어 |
핵심은 각 에이전트가 자기 역할만 한다는 것이다. PM은 코드를 모르고, Frontend는 DB를 모른다. 대신 서로의 산출물을 참조한다.

파이프라인: 승인 게이트가 핵심이다
에이전트들을 그냥 풀어놓으면 안 된다. AI는 자신감 있게 틀린다.
그래서 3단계 승인 게이트를 만들었다:
클라이언트 요청
↓
[PM Agent] PRD 작성
↓
🚪 Gate 1: PRD 승인 ← 사람이 확인
↓
[PM Agent] Phase별 이슈 분해
↓
🚪 Gate 2: 이슈 목록 승인
↓
[Dev Agents] Frontend + Backend 병렬 개발
↓
[QA Agent] 테스트
↓
🚪 Gate 3: QA 계획 승인
↓
배포!각 게이트에서 사람이 확인하고 승인해야 다음 단계로 넘어간다. AI가 잘못된 방향으로 달려갈 때 중간에 잡을 수 있다.
이건 실제 외주 계약에서도 마찬가지다. 기획 확인 → 중간 점검 → 최종 검수. 차이는 이 과정이 웹 대시보드에서 클릭 한 번으로 된다는 것이다.

자동 모드 vs 수동 모드
흥미로운 건 두 가지 모드를 만들었다는 것이다.
수동 모드 (Manual): 매 게이트마다 승인 필요
- 외주 계약처럼 클라이언트가 매 단계를 확인
- 신뢰가 아직 쌓이지 않은 프로젝트에 적합
자동 모드 (Auto): 승인 게이트를 자동 통과
- 내부 프로토타입, 빠른 MVP 검증용
- “일단 만들어보고 판단하자”
실제로 테스트해봤다. 자동 모드로 “날씨 대시보드” 앱을 만들라고 했더니, PM이 PRD를 쓰고 → 자동 승인 → 이슈 8개 생성 → 자동 승인 → Dev Agent가 Phase 1부터 7까지 순서대로 구현 → 완료. 사람의 개입 없이.
결과물이 완벽하진 않았다. 하지만 동작하는 앱이 나왔다.
비용: 월 $13의 개발팀
이 시스템의 진짜 파괴력은 비용이다.
| 역할 | 모델 | 비용 |
|---|---|---|
| PM | Claude Opus 4.6 | 월 ~$10 |
| Dev (FE+BE) | GLM-5 | 월 ~$2 |
| QA + Debug | GLM-5 | 월 ~$1 |
PM만 비싼 모델을 쓴다. 왜냐하면 PRD 품질이 전체 프로젝트를 결정하기 때문이다. 기획을 잘못하면 개발을 아무리 잘해도 소용없다. 반면 코딩은 명확한 지시가 있으면 저렴한 모델도 충분히 해낸다.
PRD 한 번 잘 쓰면 Dev가 덜 헤매고, 총 비용도 줄어든다. 사람 조직에서도 똑같은 원리다.

공유 메모리: 에이전트들의 위키
에이전트들이 서로의 작업을 알아야 한다. Frontend가 Backend의 API 스펙을 모르면 안 되니까.
이를 위해 프로젝트별 위키 시스템을 만들었다:
- PM이 PRD를 쓰면 → 위키에 저장
- Architect가 기술 스택을 정하면 → 위키에 저장
- Backend가 API를 만들면 → 위키에 저장
- Frontend가 위키를 읽고 → 그에 맞춰 구현
모든 결정이 기록되고, 모든 에이전트가 참조한다. 사람 조직의 Notion이나 Confluence와 같은 역할이다.
배운 점
1. AI는 관리해야 한다
“AI에게 맡기면 알아서 해주겠지”는 환상이다. AI는 좋은 실행자지만 좋은 판단자는 아니다. 방향을 잡아주는 건 여전히 사람의 몫이다. 승인 게이트가 그래서 중요하다.
2. 역할 분리가 품질을 만든다
하나의 AI에게 모든 걸 시키면 “나쁘지 않은” 결과가 나온다. 역할을 나누면 “각 영역에서 좋은” 결과가 나온다. 사람 조직과 동일한 원리다.
3. 비싼 곳에만 비싼 모델을 쓰자
모든 에이전트에 최고 모델을 쓸 필요 없다. 판단이 필요한 곳(PM)에만 비싼 모델을, 실행이 필요한 곳(Dev)에는 가성비 모델을.
4. 프로세스가 프롬프트보다 중요하다
프롬프트를 아무리 잘 써도 구조가 없으면 무너진다. 반대로 구조가 탄탄하면 프롬프트가 평범해도 결과가 나온다.
앞으로
지금은 슈퍼어드민(나)만 쓸 수 있다. 곧 클라이언트 포털을 열어서 실제 외주 프로젝트를 받을 계획이다.
“AI가 만든 앱”이라고 하면 아직은 신뢰가 낮을 수 있다. 하지만 결과물이 동작하고, 비용이 10분의 1이고, 속도가 10배 빠르면 — 시장은 반응할 것이다.
AI 에이전트 외주 회사. 직원은 7명이고, 월급은 $13이다.

생각해볼 질문
당신의 조직에서 “사람이 꼭 해야 하는 판단”과 “AI가 대신할 수 있는 실행”의 경계는 어디인가?
이 글에서 소개한 시스템은 Codemon Make로 개발 중입니다.