“생성량이 늘었다”는 보고서는 마케팅에 가깝다.
팀이 느끼는 속도는 검증·리뷰·복구 비용에서 결정된다.
Greg Wilson의 Twelve Ways to Be Wrong About AI-Assisted Coding은 AI 코딩 사용법이 아니라 평가법을 비판한다.
12가지 함정은 요약 글에 정리해 두었다. 여기서는 그다음 단계 — FE 팀 대시보드에 올릴 대체 지표만 골랐다.
번역 글이 아니다. 실무 체크리스트다.
toy task·대조군 없는 전후 비교·채택률·자원자 편향 등 나머지 함정은 원문과 큐레이션 글을 본다.
TL;DR
- LOC·커밋 수·Tab 수락률·“87%가 더 생산적” 설문은 행동을 왜곡한다.
- 90분 toy task 벤치마크는 대규모 레포·모호한 티켓과 맞지 않는다.
- AI는 쉬운 절반(생성)만 빠르게 한다. 리뷰·보안·부채는 숨겨진 비용이다.
- FE 팀은 시스템 지표(cycle time, revert, 반복 리뷰)를 본다.
1) 생성 LOC — 코드 양만 재는 함정
함정: AI 도입 후 LOC 40% 증가 = 생산성 40% 증가처럼 보고한다.
왜 틀리나: 2000줄을 지우고 200줄로 정리한 개선은 이 지표에서 마이너스로 잡힌다.
코드가 많아질수록 읽기·유지·디버그 부담도 커진다.
FE 팀이 대신 보는 것:
- diff 삭제/추가 비율 (리팩터 PR인지 feature PR인지 구분)
- 순복잡도 또는 lint complexity 경고 추이
- “생성 LOC”가 아니라 main merge까지의 lead time
2) “더 생산적이다” 설문
함정: “87% 개발자가 AI로 더 생산적” 같은 자기보고.
왜 틀리나: Hawthorne 효과(관찰되면 행동이 바뀜), novelty(신기함), social desirability(상사가 원하는 답)가 섞인다.
FE 팀이 대신 보는 것:
- 설문 대신 행동 로그: CI 통과율, revert율, hotfix 간격
- 도입 4주 vs 12주 추이 (신기함 구간과 분리)
- “느낌”이 아니라 같은 티켓 유형의 lead time 비교
3) 커밋·PR·티켓 수
함정: McKinsey식 “활동량 = 생산성”.
왜 틀리나: Goodhart의 법칙 — 지표가 목표가 되면 작은 커밋·쪼갠 티켓으로 숫자만 오른다.
FE 팀이 대신 보는 것:
- PR 크기 분포 (너무 작은 PR이 폭증하면 게이밍 신호)
- 배포까지 이어진 merge (main 배포와 연결된 PR)
- 리뷰 코멘트 반복 유형 (같은 실수가 줄었는지)
4) 쉬운 절반만 측정 (생성 ↑, 리뷰 ↓)
함정: 생성 시간만 재고, LLM 코드 리뷰·보안·부채는 안 본다.
왜 틀리나: 생성물 상당수에 품질·보안 이슈가 있고, 시간이 촉박할수록 그럴듯하지만 틀린 코드를 더 수용한다.
FE 팀이 대신 보는 것:
- AI 보조 PR의 리뷰 라운드 수 vs 사람이 직접 작성한 PR
- 시니어 리뷰 부하 (생성량은 늘었는데 시니어 생산성은 줄었다는 연구 패턴)
- 보안·접근성 자동 게이트 통과율
관련: 테스트와 CI가 진짜 생산성인 이유 — 검증 루프를 CI에 고정하는 방법.
5) Tab 수락률 = 품질
함정: “수락률 33%, 만족도 높음” = 도구가 좋다.
왜 틀리나: 수락은 그럴듯함이지, correctness(정확성)·security(보안)·maintainability(유지보수성)가 아니다.
마감이 촉박할수록 수락률은 잘못된 이유로 올라간다.
FE 팀이 대신 보는 것:
- 수락률 대신 post-merge defect rate
- 수락된 코드의 테스트 커버리지 변화량
- 수락 후 24시간 안 revert·hotfix 비율
6) 개인 속도 vs 팀 cycle time
함정: “개발자 A는 30% 빨라졌다” — 팀 배포 속도는 그대로.
왜 틀리나: 병목은 코드 작성이 아닐 수 있다. 리뷰·QA·배포·정합성 검증 쪽이다.
생성량만 늘리면 리뷰 큐가 병목이 된다.
FE 팀이 대신 보는 것:
- ticket → production end-to-end 시간
- WIP(진행 중 PR) 한도 준수 여부
- 리뷰 SLA (첫 응답·merge까지)
FE 팀용 “대신 재기” 표 (한 장)
| 피하기 | 대신 보기 |
|---|---|
| 생성 LOC | main merge lead time, revert율 |
| 설문 만족도 | CI 통과율, hotfix 간격 |
| 커밋/PR 수 | PR 크기 분포, 배포까지 이어진 merge |
| Tab 수락률 | post-merge defect, 24h revert·fix율 |
| 개인 코딩 속도 | ticket → prod cycle time |
| 도구 채택률 | 채택 후 90일 cycle time 변화 |
마치며
AI 도구 ROI를 묻는 순간, 잘못된 답이 먼저 나온다.
LOC, 설문, 수락률 — 측정하기 쉬운 것이지 중요한 것이 아니다.
FE 팀이 할 일은 도구를 더 많이 쓰게 만드는 게 아니라,
검증·리뷰·복구 루프가 도구 속도를 따라잡게 만드는 것이다.
한 줄 결: AI 생산성은 “얼마나 많이 생성했나”가 아니라 “얼마나 빨리 안심하고 ship했나”다.
읽을 거리
- 원문: Twelve Ways to Be Wrong About AI-Assisted Coding — Greg Wilson, Third Bit (2026-05-20)
- 12가지 함정 요약 (큐레이션)
- 테스트와 CI가 진짜 생산성인 이유
이 포스트는 원문의 번역·재게시가 아닙니다. 요약·체크리스트와 링크만 제공합니다.