AI 에이전트 7명이 일하는 외주 회사를 만들었다

개발자 없는 개발 회사. AI가 기획하고, 코딩하고, 테스트한다.

문제

외주 개발의 구조적 문제는 오래전부터 있었다.

클라이언트는 “이런 앱 만들어주세요”라고 말하고, 개발사는 그걸 해석해서 만든다. 그 사이에서 커뮤니케이션 비용이 전체 프로젝트의 30~40%를 잡아먹는다. 요구사항은 회의록에 묻히고, 중간 점검은 형식적이고, 결과물은 처음 이야기한 것과 다르다.

나는 이 구조를 바꿀 수 없을까 생각했다. 사람이 아니라 AI 에이전트가 외주를 받으면 어떨까?

AI 에이전트들의 회의

기존 접근의 한계

AI 코딩 도구는 이미 많다. GitHub Copilot, Cursor, Claude Code — 모두 훌륭하다. 하지만 이것들은 개발자의 도구다. 개발자가 있어야 쓸 수 있다.

내가 원한 건 다른 거였다.

클라이언트가 “할일 앱 만들어주세요”라고 말하면
AI가 요구사항을 분석하고
기획서를 쓰고
코드를 짜고
테스트하고
배포까지 하는 것

개발자 없이. 또는 최소한의 감독만으로.

문제는 단일 AI 에이전트로는 이게 불가능하다는 거였다. 하나의 프롬프트에 기획, 개발, 테스트를 모두 맡기면 컨텍스트가 폭발한다. 초반에는 그럴듯하지만, 복잡도가 올라가면 무너진다.

내가 내린 판단: 역할을 나누자

사람 조직이 그렇듯, AI도 역할을 나눠야 한다.

나는 7명의 전문 에이전트로 구성된 AI 외주 팀을 설계했다:

에이전트	역할	비유
PM	요구사항 분석, PRD 작성, 이슈 분해	프로젝트 매니저
Architect	기술 스택 선정, 아키텍처 설계	테크 리드
Frontend	UI/UX 구현	프론트엔드 개발자
Backend	API, DB, 비즈니스 로직	백엔드 개발자
QA	테스트, 품질 검증	QA 엔지니어
Debug	빌드 에러 분석, 자동 복구	시니어 디버거
DevOps	빌드, 배포, 프리뷰 환경	인프라 엔지니어

핵심은 각 에이전트가 자기 역할만 한다는 것이다. PM은 코드를 모르고, Frontend는 DB를 모른다. 대신 서로의 산출물을 참조한다.

7개 에이전트 아키텍처

파이프라인: 승인 게이트가 핵심이다

에이전트들을 그냥 풀어놓으면 안 된다. AI는 자신감 있게 틀린다.

그래서 3단계 승인 게이트를 만들었다:

클라이언트 요청
    ↓
[PM Agent] PRD 작성
    ↓
🚪 Gate 1: PRD 승인 ← 사람이 확인
    ↓
[PM Agent] Phase별 이슈 분해
    ↓
🚪 Gate 2: 이슈 목록 승인
    ↓
[Dev Agents] Frontend + Backend 병렬 개발
    ↓
[QA Agent] 테스트
    ↓
🚪 Gate 3: QA 계획 승인
    ↓
배포!

각 게이트에서 사람이 확인하고 승인해야 다음 단계로 넘어간다. AI가 잘못된 방향으로 달려갈 때 중간에 잡을 수 있다.

이건 실제 외주 계약에서도 마찬가지다. 기획 확인 → 중간 점검 → 최종 검수. 차이는 이 과정이 웹 대시보드에서 클릭 한 번으로 된다는 것이다.

승인 게이트 파이프라인

자동 모드 vs 수동 모드

흥미로운 건 두 가지 모드를 만들었다는 것이다.

수동 모드 (Manual): 매 게이트마다 승인 필요

외주 계약처럼 클라이언트가 매 단계를 확인
신뢰가 아직 쌓이지 않은 프로젝트에 적합

자동 모드 (Auto): 승인 게이트를 자동 통과

내부 프로토타입, 빠른 MVP 검증용
“일단 만들어보고 판단하자”

실제로 테스트해봤다. 자동 모드로 “날씨 대시보드” 앱을 만들라고 했더니, PM이 PRD를 쓰고 → 자동 승인 → 이슈 8개 생성 → 자동 승인 → Dev Agent가 Phase 1부터 7까지 순서대로 구현 → 완료. 사람의 개입 없이.

결과물이 완벽하진 않았다. 하지만 동작하는 앱이 나왔다.

비용: 월 $13의 개발팀

이 시스템의 진짜 파괴력은 비용이다.

역할	모델	비용
PM	Claude Opus 4.6	월 ~$10
Dev (FE+BE)	GLM-5	월 ~$2
QA + Debug	GLM-5	월 ~$1

PM만 비싼 모델을 쓴다. 왜냐하면 PRD 품질이 전체 프로젝트를 결정하기 때문이다. 기획을 잘못하면 개발을 아무리 잘해도 소용없다. 반면 코딩은 명확한 지시가 있으면 저렴한 모델도 충분히 해낸다.

PRD 한 번 잘 쓰면 Dev가 덜 헤매고, 총 비용도 줄어든다. 사람 조직에서도 똑같은 원리다.

비용 비교

공유 메모리: 에이전트들의 위키

에이전트들이 서로의 작업을 알아야 한다. Frontend가 Backend의 API 스펙을 모르면 안 되니까.

이를 위해 프로젝트별 위키 시스템을 만들었다:

PM이 PRD를 쓰면 → 위키에 저장
Architect가 기술 스택을 정하면 → 위키에 저장
Backend가 API를 만들면 → 위키에 저장
Frontend가 위키를 읽고 → 그에 맞춰 구현

모든 결정이 기록되고, 모든 에이전트가 참조한다. 사람 조직의 Notion이나 Confluence와 같은 역할이다.

배운 점

1. AI는 관리해야 한다

“AI에게 맡기면 알아서 해주겠지”는 환상이다. AI는 좋은 실행자지만 좋은 판단자는 아니다. 방향을 잡아주는 건 여전히 사람의 몫이다. 승인 게이트가 그래서 중요하다.

2. 역할 분리가 품질을 만든다

하나의 AI에게 모든 걸 시키면 “나쁘지 않은” 결과가 나온다. 역할을 나누면 “각 영역에서 좋은” 결과가 나온다. 사람 조직과 동일한 원리다.

3. 비싼 곳에만 비싼 모델을 쓰자

모든 에이전트에 최고 모델을 쓸 필요 없다. 판단이 필요한 곳(PM)에만 비싼 모델을, 실행이 필요한 곳(Dev)에는 가성비 모델을.

4. 프로세스가 프롬프트보다 중요하다

프롬프트를 아무리 잘 써도 구조가 없으면 무너진다. 반대로 구조가 탄탄하면 프롬프트가 평범해도 결과가 나온다.

앞으로

지금은 슈퍼어드민(나)만 쓸 수 있다. 곧 클라이언트 포털을 열어서 실제 외주 프로젝트를 받을 계획이다.

“AI가 만든 앱”이라고 하면 아직은 신뢰가 낮을 수 있다. 하지만 결과물이 동작하고, 비용이 10분의 1이고, 속도가 10배 빠르면 — 시장은 반응할 것이다.

AI 에이전트 외주 회사. 직원은 7명이고, 월급은 $13이다.

미래의 AI 외주 오피스

생각해볼 질문

당신의 조직에서 “사람이 꼭 해야 하는 판단”과 “AI가 대신할 수 있는 실행”의 경계는 어디인가?

이 글에서 소개한 시스템은 Codemon Make로 개발 중입니다.

[Tips] Claude Code를 무료로 쓰는 법 Claude Code로 위임하는 법