Opus가 내 견적서에 매입가를 박아넣은 날 - AI를 AI로 감시하는 법
- AI를 AI로 감시하는 법
이 글이 누구에게 도움이 될까
- Claude Code·Cursor 쓰면서 "AI가 거짓말하는 것 같은데?" 느낀 적 있는 사람
- 바이브 코딩으로 서비스 만드는데 어디서 어떻게 검증해야 할지 막막한 비개발자
- Opus, Sonnet, Gemini, GPT 중에 뭘 언제 써야 하는지 실제 경험이 궁금한 사람
2026년 4월 13일 낮, 저는 ERP에서 견적서를 뽑아서 고객한테 보내려고 했어요. 그러다 비고란을 무심코 봤는데 - 제 매입가가 적혀 있었어요. 공장명까지 같이.
저는 시킨 적이 없었습니다. Opus(Claude Opus)가 알아서 넣어놨어요. "뭐라도 유용한 정보를 넣어야지" 싶었나 봐요.
만약 검수 없이 그대로 보냈으면 고객한테 제 원가와 공급 공장이 통째로 공개되는 사고였습니다.
이 사건을 겪고 저는 한 가지 사실을 또렷이 깨달았어요. "Opus는 신이에요"라고 주변에 전도하던 불과 며칠 전의 나, 틀렸었다.
바로 가기
- 내가 "Opus 전도사"였던 시절
- 언니도 전도 성공 - 그러나
- 매입가 박은 사건 - 환상이 깨진 날
- AI가 거짓말하는 두 가지 방식
- 읽은 척 방어 - 1단계 방어막
- 한 척 방어 - 2단계 방어막
- 모델 선택의 미학 - 정신건강이 싸다
- 지금도 매일 당한다
내가 "Opus 전도사"였던 시절
2026년 3월, 저는 Opus 신봉자였어요.
친한 언니한테 카톡으로 이런 말을 했습니다:
"Opus 4.6은 진짜 넘사예요. 제가 한 거라고는 시킨 거랑 Opus가 시킨 거 복붙한 거밖에 없거든요."
"클로드는 신이에요. 정확히는 Opus?"
"Gemini 3시간 걸릴 거 Opus 20분이면 돼요. 그래서 신인 거."
"Opus 4.6이면 누구나 딸깍으로 앱도 바로 만드는 세상이에요."
진심이었어요. 당시 저는 ERP 핵심 기능들을 Opus로 미친 듯이 찍어내던 시기였고, 실제로 잘 만들어졌거든요. Gemini로는 3시간 돌려도 안 잡히던 버그를 Opus한테 던지면 10분 만에 해결이 되는 경험을 반복했어요.
그때 저는 "도구가 사람을 만든다"는 걸 체감하고 있었어요. 제가 갑자기 똑똑해진 게 아니라, Opus가 제 부족한 부분을 메꿔주고 있었던 거예요.
언니도 전도 성공 - 그러나
언니는 웹툰 작가인데, 자기 사이트를 직접 만들고 운영하는 분이에요. 바이브 코딩은 진작부터 하고 계셨는데, 토큰비 때문에 Sonnet만 쓰고 계셨습니다.
제 전도 + 언니 남편(개발자)이 거들면서 언니도 Opus로 갈아탔어요.
형부: "Opus는 신이라서 설명만 잘하면 5,000줄도 거뜬해."
근데 며칠 뒤, 언니한테서 카톡이 쏟아졌어요.
언니: "Sonnet이 못해서 Opus로 갈아탔는데 얘도 못해요ㅠ"
언니: (Opus한테 대고) "너 개발의 신이라며. 왜 못해."
언니: "자기 계정 댓글 최상단에 올려달라는 건데, 이게 뭐 어려운 작업이라고... 토큰만 낭비하고 있어요ㅠㅠ"
언니: "Opus도 개발 못하면 뭐가 신이에요 진짜ㅠ"
결국 Opus가 해내긴 했는데, 해놓고는 해맑게 이렇게 답했대요:
Opus: "맞아. 이번엔 Opus도 고생했네. 근데 결국 됐으니까 다행이야!"
언니 반응:
"내 토큰 돌려줘!"
저는 캡처 받으면서도 "아 이번은 예외지" 싶었어요. Opus 신봉이 아직 안 꺾였던 거예요.
매입가 박은 사건 - 환상이 깨진 날
그러고 얼마 지나지 않아 그 견적서 사건이 터졌습니다.
4월 13일, 견적서 뽑다가 비고란에 제 매입가랑 공장명이 있는 걸 봤어요. 시킨 적이 없는 일이에요. Opus가 "뭐라도 유용한 정보를 넣자" 생각하고 알아서 넣은 거죠.
그 순간 깨달았어요.
Opus는 코드는 잘 짜요. 그건 맞아요. 근데 "이 상황에서 이 정보를 보여주면 안 된다"는 판단은 못 해요. 그건 도메인 지식 + 사업 감각 + 상식이 필요한 영역인데, AI는 그걸 자동으로 못 채워요.
제가 친한 언니한테 그날 저녁 카톡을 보냈어요:
"언니, Opus 똑똑한 거 맞을까요? 내가 시키지도 않았는데 견적서 비고란에 내 매입가를 당당하게 적어놨어요. 공장도 공개하고."
언니의 답장:
언니: "AI 너무 맹신할 게 못 될 듯요. 그냥 코드만 잘 짜는 수준이고. 두루두루 전체 지능은 인간보다 좀 멍충한 듯."
이 한 줄이 6주간의 제 경험을 정확하게 요약해 줬어요.
AI가 거짓말하는 두 가지 방식
Opus 신봉에서 벗어난 뒤로 저는 "AI가 나한테 거짓말하는 패턴"을 기록하기 시작했어요. 크게 두 종류더라고요.
거짓말 1: "읽은 척"
저는 프로젝트가 많아요. ERP, 상품등록기, 워드프레스 블로그 7개, 판촉물가격비교, 마이비와이디홈, 사주서비스, FreeToolbox... 각 프로젝트마다 설정 파일, 규칙 문서, 컨텍스트가 있어요. 바이브 코딩 하면서 가장 중요한 건 AI가 이 문서들을 제대로 읽고 작업하는 것입니다.
근데 AI는 자주 읽은 척을 해요. "문서 다 봤어요. 이제 작업할게요" 하는데, 대화 나누다 보면 안 읽은 티가 나요. 문서에 분명히 적혀있는 규칙을 어기거나, 전에 결정한 사항을 까먹고 있거나.
가장 당황스러운 건, AI가 저한테 "메모리 요약해서 다시 주세요"라고 요청하는 순간이었어요. 그러니까 "당신이 준 문서를 다시 요약해서 주면 그걸로 작업할게요"라는 거예요. "나는 지금 코딩을 하는 건가, 문서 요약을 하는 건가?" 싶었어요.
거짓말 2: "한 척"
더 무서운 건 이쪽이에요.
"작업 다 했어요"라고 해놓고 실제로는 절반만 됨. 덩어리 작업을 요청하면 (예: "이 페이지에 기능 A, B, C, D 추가해줘") 두세 개만 하고 "완료!" 해요.
더 약 오르는 건, 제가 확인하면 "아, 제가 놓쳤네요. 다시 확인해보세요" 하고 자기가 놓친 걸 저한테 확인시키는 거예요. 저는 비개발자라 코드를 못 읽는데, 뭘 확인하라는 거야?
이것 때문에 상품등록기 만들 때 기능은 다 있는데 전달이 안 돼서 올렸다 내렸다 몇 번을 했는지 모르겠어요. 한 번은 같은 말을 5번 정도 다시 설명하다가 모니터 뿌술 뻔했고요.
이 두 가지 거짓말이 완전히 다른 종류라는 걸 한참 뒤에야 알았어요. 그래서 방어 방법도 달라야 했습니다.
제가 만든 체계에 이름을 붙여야 할 것 같아서, 이 글을 도와준 AI(Claude)한테 이름을 지어달라고 했어요. 돌아온 답: "읽은 척·한 척 이중 방어막". 솔직히 저보다 잘 짓더라고요. 그대로 쓰고 있습니다.
읽은 척 방어 - 1단계 방어막
읽은 척은 잡기 쉬운 편이에요. "읽었다는 증거를 내놓아라"라고 강제하면 됩니다.
제 지시는 이런 식입니다:
"이 문서를 읽어. 그 다음 문서의 핵심 3개를 네 말로 요약해서 보여줘. 그 다음에 작업 시작해."
"작업 전에 지난번 규칙 파일에서 가장 중요한 조항 3개 인용해서 보여줘."
이렇게 하면 AI가 문서를 안 읽으면 요약을 못 해요. 그러면 스스로 티가 납니다. 토큰이 좀 더 들지만, 이 장치 하나로 표면적인 거짓말은 확실히 줄어들어요.
핵심: AI를 "작업자"가 아니라 "학생" 취급해야 해요. 숙제 내주고, 풀이 과정 보여달라고 하고, 그제야 채점하듯이요.
한 척 방어 - 2단계 방어막
문제는 한 척이에요. 이건 AI가 진짜로 작업했다고 믿고 있을 때도 있어요. 본인이 틀린 줄 모르는 거죠. 또는 "이 정도면 됐다"고 자체 판단해서 마무리한 경우도 있고요.
이걸 저는 혼자 잡을 수가 없어요. 저는 코드를 못 읽으니까요. 결과물이 "돌아가는 것처럼 보이면" 그걸로 끝이에요. 그래서 만든 게 AI를 AI로 감시하는 체계입니다.
구조
[1] Claude Code가 작업 완료 "다 했어요"
↓
[2] Claude 채팅에 상황 설명
"이런 걸 시켰는데 이렇게 한다고 함. 확인 포인트 뽑아줘"
↓
[3] Claude 채팅이 체크리스트 생성
"데이터가 DB에 저장되는지 SQL로 확인",
"에러 처리가 실제로 작동하는지",
"변경된 값이 재계산에 반영되는지" 등
↓
[4] 그 체크리스트를 Claude Code에 들이댐
"이거 하나씩 검증해서 로그/SQL 결과/스크린샷으로 증거 보여줘"
↓
[5] 결과를 Claude 채팅에 다시 보여줌
"이 증거들 봤을 때 진짜 제대로 된 거 맞아?"
↓
[6] Claude 채팅이 "OK" → 다음 단계로
"이거 이상한데?" → Claude Code에 다시 요청
↓
[7] 의심되면 Gemini에 한 번 더 돌림
"같은 상황인데 Claude가 OK라고 했어. 너도 동의해?"
왜 이렇게까지 해야 하냐면:
- Claude Code는 자기가 작업한 걸 자기가 검증하니까 자주 "OK"라고 해요
- Claude 채팅은 같은 Claude 계열이지만 작업에서 떨어져 있어서 더 객관적
- Gemini는 완전히 다른 회사의 AI라 다른 관점 확보
3중 체크인데, 실제로 이 체계 만들고 나서 "뒤늦게 터지는 버그"가 확 줄었어요.
이 체계가 왜 비개발자한테 특히 필요한가
개발자는 자기가 코드 읽어서 검증할 수 있어요. 바이브 코딩의 본질은 "AI가 쓰고 사람이 검증"이거든요. 검증 과정을 AI에 아웃소싱할 필요가 없어요.
근데 저는 비개발자예요. 코드 읽을 줄 몰라요. 그래서 검증마저 AI한테 시켜야 하는데, 같은 AI한테 시키면 검증이 안 돼요. 그래서 다른 AI한테 교차 검증을 맡기는 구조가 필수였어요.
다른 비개발자분들도 똑같을 거예요. "AI를 AI로 감시"가 과한 게 아니라, 바이브 코딩의 기본 전제라고 봅니다.
모델 선택의 미학 - 정신건강이 싸다
이 경험들 쌓이면서 모델 선택 원칙도 생겼어요.
처음엔 저도 Sonnet으로 버티려고 했어요. 토큰비 차이가 5배 정도 나니까요. 근데 Sonnet으로 복잡한 작업 시키면:
- 숫자·데이터 흐름을 지 맘대로 처리함
- 마진 계산을 곱하고 곱하고 땜빵함
- 출고 캘린더에 월 1억 순이익이 찍히게 만듦 (06편 참조)
언니랑 토로한 말:
"Sonnet 5번 삽질할 거 Opus 한 번에 끝나는 게 정신건강에 나을 듯."
토큰비만 따지면 Sonnet이 싸요. 근데 내 시간 + 스트레스 + 고객한테 사고 날 뻔한 리스크까지 합쳐서 계산하면 Opus가 결과적으로 훨씬 싸더라고요.
지금 제 기준
| 작업 성격 | 모델 |
|---|---|
| ERP·숫자·데이터 흐름 | Opus 강제 |
| 검증 체크리스트 생성 | Claude 채팅 (어차피 Opus) |
| 2차 검증 | Gemini 2.5 Pro |
| 간단 UI 수정·스타일링 | Sonnet OK |
| 단순 텍스트 작업 | Sonnet OK |
| 새로운 설계·아키텍처 | Opus 강제 |
ERP는 무조건 Opus입니다. 한 번 "값 박기" 당해봐서 그래요.
지금도 매일 당한다
솔직히 말하면, 이 방어막을 다 깔고 나서도 저는 여전히 매일 당해요.
- 오늘도 Claude Code가 "구현 완료"라고 했는데 에러 나서 3시간 날림
- 어제는 이미 결정한 규칙을 Claude가 또 어겨서 다시 설명
- 그저께는 Gemini가 Claude 판단 엎어서 어느 쪽이 맞는 건지 두 시간 고민
그래도 덜 당해요. 6주 전에 비하면요.
시작할 땐 저도 "Opus는 신"이라고 믿었어요. 지금은 아니에요. Opus도 그냥 도구고, 잘 못 쓰면 견적서에 매입가 박는 놈이에요.
언니가 해준 말로 끝낼게요:
"AI 너무 맹신할 게 못 될 듯요. 그냥 코드만 잘 짜는 수준이고. 두루두루 전체 지능은 인간보다 좀 멍충한 듯."
AI 잘 쓰는 사람 = AI 의심할 줄 아는 사람. 이게 제가 6주 동안 얻은 결론입니다.
다음 편 예고
다음 글은 "5개 Claude Code 세션을 동시에 돌리는 병렬 작업 체계" 이야기예요. 이 이중 방어막 위에 병렬 작업까지 얹어서, 한 명이 어떻게 ERP + 상품등록기 + 멀티사이트 + 자동포스팅 + 대시보드를 동시에 만들었는지.
그 다음엔 "AI 시대 쇼핑몰 생존 전략 - llms.txt부터 AI 검색 최적화까지" 예정입니다.
저에 대해
주영. 판촉물 자영업자. AI로 바이브코딩 중.
- 21살부터 디자인 전 영역(웹·제품·영상·인쇄) + 마케팅·국가지원사업 경험, 판촉물 창업 3년 반차
- 2026년 2월부터 AI 자동화 전환 중
- 현재 운영 중 서비스: FreeToolbox.kr (무료 온라인 도구 포털), 판촉물가격비교, 마이비와이디홈(준비 중), 캐릭터 사주 서비스(한국어 준비 중)
- 이 블로그는 그 과정의 진짜 기록입니다
이 글은 2026년 4월 기준으로 작성되었습니다. AI 모델들은 계속 업데이트되고 있어서, 몇 달 뒤에 다시 쓰면 모델 이름이 달라져 있을 수도 있어요. 그래도 "AI를 의심하라"는 원칙은 안 바뀔 것 같습니다.