OpenAI 내부 실험: 5개월간 사람이 코드를 한 줄도 안 쓰고 제품을 만들었다 — Codex 에이전트 개발의 모든 것

🚀 사람이 코드를 한 줄도 쓰지 않은 5개월간의 실험

OpenAI 내부 팀이 5개월간 수동 코드 작성 없이 소프트웨어 제품의 내부 베타를 구축하고 출시했습니다. 모든 코드를 Codex 에이전트가 생성한 것입니다.

이 실험의 핵심 수치가 놀랍습니다:

  • 📊 약 100만 라인의 코드 생성
  • 🔄 약 1,500개의 Pull Request 처리
  • 👨‍💻 3명의 엔지니어로 시작 → 7명으로 성장
  • 📈 엔지니어 1인당 하루 평균 3.5개 PR 병합
  • 👥 수백 명의 내부 사용자가 매일 실제 사용

"수동으로 작성한 코드가 없다"는 것이 팀의 핵심 철학이 되었다.


🔧 빈 리포지터리에서 시작한 여정

2025년 8월 말, 정말로 빈 git 리포지터리에서 시작했습니다.

  1. 초기 스캐폴드(리포지터리 구조, CI 구성, 서식 규칙 등)를 GPT-5 기반 Codex CLI로 생성
  2. 에이전트에게 작업 방법을 알려주는 AGENTS.md 파일도 Codex가 직접 작성
  3. 처음부터 사람이 작성한 기존 코드 없이, 리포지터리가 에이전트에 의해 형성

5개월 후, 애플리케이션 로직·인프라·툴링·문서화·개발자 유틸리티 전반에 걸쳐 약 100만 라인의 코드가 완성되었습니다.


👨‍💻 엔지니어의 역할이 완전히 바뀌었다

사람이 직접 코딩하지 않으니, 엔지니어의 역할이 근본적으로 전환되었습니다:

기존 역할 새로운 역할
코드 직접 작성 환경 설계 (스캐폴딩)
버그 직접 수정 의도 명시 (프롬프트)
코드 리뷰 피드백 루프 구축
아키텍처 설계 제약 조건의 기계적 강제 적용

💡 핵심 깨달음

초기에 진행이 더뎠던 이유는 Codex의 역량 부족이 아니라 환경 미비 때문이었습니다. 에이전트가 실패하면 "더 분발"하라고 하는 것이 아니라, "어떤 기능이 누락되어 있는가?"를 물어야 합니다.

사람은 거의 전적으로 프롬프트를 통해 시스템과 상호작용합니다. 작업 설명 → 에이전트 실행 → PR 오픈 → 리뷰 → 병합까지 모두 지시하는 방식입니다.


📚 AGENTS.md는 백과사전이 아니라 '목차'다

컨텍스트 관리는 에이전트 개발에서 가장 큰 과제 중 하나입니다. OpenAI 팀이 얻은 교훈:

❌ 실패한 접근: 거대한 AGENTS.md

  • 컨텍스트는 희소 자원 — 거대한 지침 파일이 작업과 코드를 복잡하게 만듦
  • 모든 것이 "중요"하면 중요한 것은 없음
  • 시간이 지나면 낡은 규칙들의 무덤으로 변화

✅ 성공한 접근: 구조화된 문서 시스템

  • 짧은 AGENTS.md(약 100줄)는 목차 역할만 수행
  • 심층적인 정보는 구조화된 docs/ 디렉터리에 분리
  • 설계 문서, 아키텍처 문서, 품질 문서를 각각 분류·색인화
  • 전용 린터와 CI 작업이 문서의 최신성과 정합성을 검증
  • "doc-gardening" 에이전트가 오래된 문서를 자동으로 검토하여 수정 PR 생성

🏗️ 아키텍처 일관성을 '기계적으로' 강제한다

문서화만으로는 에이전트가 생성한 코드의 일관성을 유지할 수 없습니다. 핵심은 불변 조건을 기계적으로 강제 적용하는 것입니다.

엄격한 레이어 구조

코드가 전달되는 순서가 명확하게 정의되어 있습니다:

Types → Config → Repo → Service → Runtime → UI

  • 교차 문제(인증, 텔레메트리, 기능 플래그)는 Providers라는 단일 인터페이스를 통해서만 유입
  • 그 외 모든 것은 허용되지 않으며 맞춤형 린터로 강제
  • 린트 오류 메시지에 수정 지침을 포함하여 에이전트가 즉시 수정 가능

"에이전트는 엄격한 경계와 예측 가능한 구조를 갖춘 환경에서 가장 효과적으로 작동한다."


🤖 에이전트의 자율성: 어디까지 왔나

시스템이 성숙해지면서, 에이전트가 단 한 번의 프롬프트로 수행 가능한 작업 범위가 놀랍습니다:

  1. 코드베이스 현재 상태 검증
  2. 보고된 버그 재현
  3. 실패 상황 시연 동영상 녹화
  4. 수정사항 구현
  5. 애플리케이션 실행하여 검증
  6. 수정 완료 동영상 녹화
  7. Pull Request 열기
  8. 에이전트 및 사람 피드백에 응답
  9. 빌드 실패 감지 및 수정
  10. 판단이 필요한 경우에만 사람에게 에스컬레이션
  11. 변경사항 병합

한 번의 Codex 실행으로 6시간 이상 한 가지 작업을 수행하기도 합니다 — 사람이 잠자는 동안에도.


♻️ 엔트로피 관리: AI의 '가비지 컬렉션'

에이전트의 자율성이 높아지면 새로운 문제가 발생합니다. Codex가 기존 패턴을 복제하면서 드리프트(일관성 저하)가 불가피합니다.

초기 시도 (실패)

매주 금요일 20%의 시간을 "AI 슬로프" 정리에 투입 → 확장 불가능

현재 해결책

  • 황금 원칙을 리포지터리에 직접 인코딩
  • 정기적으로 편차를 검사하는 Codex 백그라운드 작업 운영
  • 품질 등급 업데이트 + 리팩터링 PR 자동 생성
  • 대부분 1분 이내에 검토 → 자동 병합

기술 부채는 고금리 대출과 같다. 이자가 쌓이기 전에 조금씩 꾸준히 갚는 것이 효과적이다.


💼 이것이 우리에게 의미하는 것

1. 바이브코딩의 미래가 보인다

OpenAI 내부에서 이미 "사람이 코드를 쓰지 않는" 개발이 실현되고 있습니다. 이 모델이 보편화되면, 1인 사업자도 AI 에이전트에게 전체 프로젝트를 맡기는 시대가 옵니다.

2. 엔지니어의 가치는 '환경 설계'로 이동

코드를 직접 쓰는 능력보다 AI가 잘 작동할 수 있는 환경을 설계하는 능력이 더 중요해집니다. AGENTS.md 작성법, 린터 설계, 피드백 루프 구축이 핵심 역량이 됩니다.

3. 규율의 대상이 바뀐다

소프트웨어 구축에는 여전히 규율이 필요하지만, 규율은 코드가 아니라 스캐폴딩에서 발현됩니다. 코드베이스의 일관성을 유지하는 툴링, 추상화, 피드백 루프가 점점 더 중요해집니다.


📊 핵심 수치 한눈에 보기

항목 수치
실험 기간 5개월 (2025.8~)
팀 규모 3명 → 7명
코드 라인 ~100만 줄
Pull Request ~1,500개
1인당 일일 PR 3.5개
수동 작성 코드 0줄
내부 사용자 수백 명 (매일)

❓ 자주 묻는 질문 (FAQ)

Q1. 정말로 사람이 코드를 한 줄도 안 썼나요?

네. 제품 코드, 테스트, CI 구성, 릴리스 툴링, 내부 개발 도구, 문서화, 리뷰 코멘트, 대시보드 정의 파일까지 모든 것을 Codex가 생성했습니다. 사람은 프롬프트, 우선순위 지정, 결과 검증에 집중했습니다.

Q2. 이 방식이 일반 개발팀에도 적용 가능한가요?

OpenAI 팀도 인정하듯이, 이러한 수준의 자율성은 리포지터리의 특정 구조와 툴링에 크게 의존합니다. 유사한 스캐폴딩 투자 없이 그대로 일반화하기는 어렵습니다. 하지만 원칙(구조화된 문서, 기계적 강제, 짧은 피드백 루프)은 적용 가능합니다.

Q3. AGENTS.md 작성 시 가장 중요한 원칙은?

백과사전이 아닌 목차로 작성하세요. 약 100줄 이내로 짧게 유지하고, 심층 정보는 별도 문서로 분리하세요. 모든 것이 "중요"하면 중요한 것은 없습니다.

Q4. 에이전트가 생성한 코드의 품질은 어떤가요?

인간의 문체 선호도와 항상 일치하지는 않지만, 정확하고 유지보수 가능하며 에이전트가 읽기 쉬운 코드라면 기준을 충족합니다. 취향은 리뷰 코멘트와 리팩터링 PR을 통해 지속적으로 시스템에 피드백됩니다.

Q5. 1인 사업자가 이 방식을 시작하려면?

Cursor AI나 Codex CLI 같은 AI 코딩 도구부터 시작하세요. 핵심은 좋은 프롬프트 작성명확한 프로젝트 구조 설계입니다. 바이브코딩의 기초부터 배우면 점진적으로 에이전트 자율성을 높일 수 있습니다.


✍️ 이신우 소장 한마디

"100만 줄의 코드를 사람 손 하나 안 대고 만들었다는 것도 놀랍지만, 더 주목할 점은 엔지니어의 역할 변화입니다. '코드를 잘 쓰는 사람'이 아니라 'AI가 잘 작동할 환경을 만드는 사람'이 핵심 인재가 되는 시대. 이것이 바로 바이브코딩이 단순한 유행이 아닌 이유입니다."

🎓 두온교육 AI 강의 안내

AI 에이전트 시대의 실전 코딩 교육을 만나보세요!
📧 문의: mintorain@gmail.com
🌐 미래이음연구소 | 두온교육

📌 원문: OpenAI — Harness Engineering: Using Codex in an Agent-First World

+ Recent posts