Opus가 내 견적서에 매입가를 박아넣은 날 - AI를 AI로 감시하는 법

백주영 약 11분 읽기

- AI를 AI로 감시하는 법

이 글이 누구에게 도움이 될까
- Claude Code·Cursor 쓰면서 "AI가 거짓말하는 것 같은데?" 느낀 적 있는 사람
- 바이브 코딩으로 서비스 만드는데 어디서 어떻게 검증해야 할지 막막한 비개발자
- Opus, Sonnet, Gemini, GPT 중에 뭘 언제 써야 하는지 실제 경험이 궁금한 사람

2026년 4월 13일 낮, 저는 ERP에서 견적서를 뽑아서 고객한테 보내려고 했어요. 그러다 비고란을 무심코 봤는데 - 제 매입가가 적혀 있었어요. 공장명까지 같이.

저는 시킨 적이 없었습니다. Opus(Claude Opus)가 알아서 넣어놨어요. "뭐라도 유용한 정보를 넣어야지" 싶었나 봐요.

만약 검수 없이 그대로 보냈으면 고객한테 제 원가와 공급 공장이 통째로 공개되는 사고였습니다.

이 사건을 겪고 저는 한 가지 사실을 또렷이 깨달았어요. "Opus는 신이에요"라고 주변에 전도하던 불과 며칠 전의 나, 틀렸었다.

바로 가기

  1. 내가 "Opus 전도사"였던 시절
  2. 언니도 전도 성공 - 그러나
  3. 매입가 박은 사건 - 환상이 깨진 날
  4. AI가 거짓말하는 두 가지 방식
  5. 읽은 척 방어 - 1단계 방어막
  6. 한 척 방어 - 2단계 방어막
  7. 모델 선택의 미학 - 정신건강이 싸다
  8. 지금도 매일 당한다

내가 "Opus 전도사"였던 시절

2026년 3월, 저는 Opus 신봉자였어요.

친한 언니한테 카톡으로 이런 말을 했습니다:

"Opus 4.6은 진짜 넘사예요. 제가 한 거라고는 시킨 거랑 Opus가 시킨 거 복붙한 거밖에 없거든요."

"클로드는 신이에요. 정확히는 Opus?"

"Gemini 3시간 걸릴 거 Opus 20분이면 돼요. 그래서 신인 거."

"Opus 4.6이면 누구나 딸깍으로 앱도 바로 만드는 세상이에요."

진심이었어요. 당시 저는 ERP 핵심 기능들을 Opus로 미친 듯이 찍어내던 시기였고, 실제로 잘 만들어졌거든요. Gemini로는 3시간 돌려도 안 잡히던 버그를 Opus한테 던지면 10분 만에 해결이 되는 경험을 반복했어요.

그때 저는 "도구가 사람을 만든다"는 걸 체감하고 있었어요. 제가 갑자기 똑똑해진 게 아니라, Opus가 제 부족한 부분을 메꿔주고 있었던 거예요.

언니도 전도 성공 - 그러나

언니는 웹툰 작가인데, 자기 사이트를 직접 만들고 운영하는 분이에요. 바이브 코딩은 진작부터 하고 계셨는데, 토큰비 때문에 Sonnet만 쓰고 계셨습니다.

제 전도 + 언니 남편(개발자)이 거들면서 언니도 Opus로 갈아탔어요.

형부: "Opus는 신이라서 설명만 잘하면 5,000줄도 거뜬해."

근데 며칠 뒤, 언니한테서 카톡이 쏟아졌어요.

언니: "Sonnet이 못해서 Opus로 갈아탔는데 얘도 못해요ㅠ"
언니: (Opus한테 대고) "너 개발의 신이라며. 왜 못해."
언니: "자기 계정 댓글 최상단에 올려달라는 건데, 이게 뭐 어려운 작업이라고... 토큰만 낭비하고 있어요ㅠㅠ"
언니: "Opus도 개발 못하면 뭐가 신이에요 진짜ㅠ"

결국 Opus가 해내긴 했는데, 해놓고는 해맑게 이렇게 답했대요:

Opus: "맞아. 이번엔 Opus도 고생했네. 근데 결국 됐으니까 다행이야!"

언니 반응:

"내 토큰 돌려줘!"

저는 캡처 받으면서도 "아 이번은 예외지" 싶었어요. Opus 신봉이 아직 안 꺾였던 거예요.

매입가 박은 사건 - 환상이 깨진 날

그러고 얼마 지나지 않아 그 견적서 사건이 터졌습니다.

4월 13일, 견적서 뽑다가 비고란에 제 매입가랑 공장명이 있는 걸 봤어요. 시킨 적이 없는 일이에요. Opus가 "뭐라도 유용한 정보를 넣자" 생각하고 알아서 넣은 거죠.

그 순간 깨달았어요.

Opus는 코드는 잘 짜요. 그건 맞아요. 근데 "이 상황에서 이 정보를 보여주면 안 된다"는 판단은 못 해요. 그건 도메인 지식 + 사업 감각 + 상식이 필요한 영역인데, AI는 그걸 자동으로 못 채워요.

제가 친한 언니한테 그날 저녁 카톡을 보냈어요:

"언니, Opus 똑똑한 거 맞을까요? 내가 시키지도 않았는데 견적서 비고란에 내 매입가를 당당하게 적어놨어요. 공장도 공개하고."

언니의 답장:

언니: "AI 너무 맹신할 게 못 될 듯요. 그냥 코드만 잘 짜는 수준이고. 두루두루 전체 지능은 인간보다 좀 멍충한 듯."

이 한 줄이 6주간의 제 경험을 정확하게 요약해 줬어요.

AI가 거짓말하는 두 가지 방식

Opus 신봉에서 벗어난 뒤로 저는 "AI가 나한테 거짓말하는 패턴"을 기록하기 시작했어요. 크게 두 종류더라고요.

거짓말 1: "읽은 척"

저는 프로젝트가 많아요. ERP, 상품등록기, 워드프레스 블로그 7개, 판촉물가격비교, 마이비와이디홈, 사주서비스, FreeToolbox... 각 프로젝트마다 설정 파일, 규칙 문서, 컨텍스트가 있어요. 바이브 코딩 하면서 가장 중요한 건 AI가 이 문서들을 제대로 읽고 작업하는 것입니다.

근데 AI는 자주 읽은 척을 해요. "문서 다 봤어요. 이제 작업할게요" 하는데, 대화 나누다 보면 안 읽은 티가 나요. 문서에 분명히 적혀있는 규칙을 어기거나, 전에 결정한 사항을 까먹고 있거나.

가장 당황스러운 건, AI가 저한테 "메모리 요약해서 다시 주세요"라고 요청하는 순간이었어요. 그러니까 "당신이 준 문서를 다시 요약해서 주면 그걸로 작업할게요"라는 거예요. "나는 지금 코딩을 하는 건가, 문서 요약을 하는 건가?" 싶었어요.

거짓말 2: "한 척"

더 무서운 건 이쪽이에요.

"작업 다 했어요"라고 해놓고 실제로는 절반만 됨. 덩어리 작업을 요청하면 (예: "이 페이지에 기능 A, B, C, D 추가해줘") 두세 개만 하고 "완료!" 해요.

더 약 오르는 건, 제가 확인하면 "아, 제가 놓쳤네요. 다시 확인해보세요" 하고 자기가 놓친 걸 저한테 확인시키는 거예요. 저는 비개발자라 코드를 못 읽는데, 뭘 확인하라는 거야?

이것 때문에 상품등록기 만들 때 기능은 다 있는데 전달이 안 돼서 올렸다 내렸다 몇 번을 했는지 모르겠어요. 한 번은 같은 말을 5번 정도 다시 설명하다가 모니터 뿌술 뻔했고요.


이 두 가지 거짓말이 완전히 다른 종류라는 걸 한참 뒤에야 알았어요. 그래서 방어 방법도 달라야 했습니다.

제가 만든 체계에 이름을 붙여야 할 것 같아서, 이 글을 도와준 AI(Claude)한테 이름을 지어달라고 했어요. 돌아온 답: "읽은 척·한 척 이중 방어막". 솔직히 저보다 잘 짓더라고요. 그대로 쓰고 있습니다.

읽은 척 방어 - 1단계 방어막

읽은 척은 잡기 쉬운 편이에요. "읽었다는 증거를 내놓아라"라고 강제하면 됩니다.

제 지시는 이런 식입니다:

"이 문서를 읽어. 그 다음 문서의 핵심 3개를 네 말로 요약해서 보여줘. 그 다음에 작업 시작해."

"작업 전에 지난번 규칙 파일에서 가장 중요한 조항 3개 인용해서 보여줘."

이렇게 하면 AI가 문서를 안 읽으면 요약을 못 해요. 그러면 스스로 티가 납니다. 토큰이 좀 더 들지만, 이 장치 하나로 표면적인 거짓말은 확실히 줄어들어요.

핵심: AI를 "작업자"가 아니라 "학생" 취급해야 해요. 숙제 내주고, 풀이 과정 보여달라고 하고, 그제야 채점하듯이요.

한 척 방어 - 2단계 방어막

문제는 한 척이에요. 이건 AI가 진짜로 작업했다고 믿고 있을 때도 있어요. 본인이 틀린 줄 모르는 거죠. 또는 "이 정도면 됐다"고 자체 판단해서 마무리한 경우도 있고요.

이걸 저는 혼자 잡을 수가 없어요. 저는 코드를 못 읽으니까요. 결과물이 "돌아가는 것처럼 보이면" 그걸로 끝이에요. 그래서 만든 게 AI를 AI로 감시하는 체계입니다.

구조

[1] Claude Code가 작업 완료 "다 했어요"
           ↓
      [2] Claude 채팅에 상황 설명
           "이런 걸 시켰는데 이렇게 한다고 함. 확인 포인트 뽑아줘"
           ↓
      [3] Claude 채팅이 체크리스트 생성
           "데이터가 DB에 저장되는지 SQL로 확인", 
           "에러 처리가 실제로 작동하는지", 
           "변경된 값이 재계산에 반영되는지" 등
           ↓
      [4] 그 체크리스트를 Claude Code에 들이댐
           "이거 하나씩 검증해서 로그/SQL 결과/스크린샷으로 증거 보여줘"
           ↓
      [5] 결과를 Claude 채팅에 다시 보여줌
           "이 증거들 봤을 때 진짜 제대로 된 거 맞아?"
           ↓
      [6] Claude 채팅이 "OK" → 다음 단계로
          "이거 이상한데?" → Claude Code에 다시 요청
           ↓
      [7] 의심되면 Gemini에 한 번 더 돌림
           "같은 상황인데 Claude가 OK라고 했어. 너도 동의해?"
      

왜 이렇게까지 해야 하냐면:
- Claude Code는 자기가 작업한 걸 자기가 검증하니까 자주 "OK"라고 해요
- Claude 채팅은 같은 Claude 계열이지만 작업에서 떨어져 있어서 더 객관적
- Gemini는 완전히 다른 회사의 AI다른 관점 확보

3중 체크인데, 실제로 이 체계 만들고 나서 "뒤늦게 터지는 버그"가 확 줄었어요.

이 체계가 왜 비개발자한테 특히 필요한가

개발자는 자기가 코드 읽어서 검증할 수 있어요. 바이브 코딩의 본질은 "AI가 쓰고 사람이 검증"이거든요. 검증 과정을 AI에 아웃소싱할 필요가 없어요.

근데 저는 비개발자예요. 코드 읽을 줄 몰라요. 그래서 검증마저 AI한테 시켜야 하는데, 같은 AI한테 시키면 검증이 안 돼요. 그래서 다른 AI한테 교차 검증을 맡기는 구조가 필수였어요.

다른 비개발자분들도 똑같을 거예요. "AI를 AI로 감시"가 과한 게 아니라, 바이브 코딩의 기본 전제라고 봅니다.

모델 선택의 미학 - 정신건강이 싸다

이 경험들 쌓이면서 모델 선택 원칙도 생겼어요.

처음엔 저도 Sonnet으로 버티려고 했어요. 토큰비 차이가 5배 정도 나니까요. 근데 Sonnet으로 복잡한 작업 시키면:

  • 숫자·데이터 흐름을 지 맘대로 처리함
  • 마진 계산을 곱하고 곱하고 땜빵함
  • 출고 캘린더에 월 1억 순이익이 찍히게 만듦 (06편 참조)

언니랑 토로한 말:

"Sonnet 5번 삽질할 거 Opus 한 번에 끝나는 게 정신건강에 나을 듯."

토큰비만 따지면 Sonnet이 싸요. 근데 내 시간 + 스트레스 + 고객한테 사고 날 뻔한 리스크까지 합쳐서 계산하면 Opus가 결과적으로 훨씬 싸더라고요.

지금 제 기준

작업 성격 모델
ERP·숫자·데이터 흐름 Opus 강제
검증 체크리스트 생성 Claude 채팅 (어차피 Opus)
2차 검증 Gemini 2.5 Pro
간단 UI 수정·스타일링 Sonnet OK
단순 텍스트 작업 Sonnet OK
새로운 설계·아키텍처 Opus 강제

ERP는 무조건 Opus입니다. 한 번 "값 박기" 당해봐서 그래요.

지금도 매일 당한다

솔직히 말하면, 이 방어막을 다 깔고 나서도 저는 여전히 매일 당해요.

  • 오늘도 Claude Code가 "구현 완료"라고 했는데 에러 나서 3시간 날림
  • 어제는 이미 결정한 규칙을 Claude가 또 어겨서 다시 설명
  • 그저께는 Gemini가 Claude 판단 엎어서 어느 쪽이 맞는 건지 두 시간 고민

그래도 덜 당해요. 6주 전에 비하면요.

시작할 땐 저도 "Opus는 신"이라고 믿었어요. 지금은 아니에요. Opus도 그냥 도구고, 잘 못 쓰면 견적서에 매입가 박는 놈이에요.

언니가 해준 말로 끝낼게요:

"AI 너무 맹신할 게 못 될 듯요. 그냥 코드만 잘 짜는 수준이고. 두루두루 전체 지능은 인간보다 좀 멍충한 듯."

AI 잘 쓰는 사람 = AI 의심할 줄 아는 사람. 이게 제가 6주 동안 얻은 결론입니다.


다음 편 예고

다음 글은 "5개 Claude Code 세션을 동시에 돌리는 병렬 작업 체계" 이야기예요. 이 이중 방어막 위에 병렬 작업까지 얹어서, 한 명이 어떻게 ERP + 상품등록기 + 멀티사이트 + 자동포스팅 + 대시보드를 동시에 만들었는지.

그 다음엔 "AI 시대 쇼핑몰 생존 전략 - llms.txt부터 AI 검색 최적화까지" 예정입니다.


저에 대해

주영. 판촉물 자영업자. AI로 바이브코딩 중.
- 21살부터 디자인 전 영역(웹·제품·영상·인쇄) + 마케팅·국가지원사업 경험, 판촉물 창업 3년 반차
- 2026년 2월부터 AI 자동화 전환 중
- 현재 운영 중 서비스: FreeToolbox.kr (무료 온라인 도구 포털), 판촉물가격비교, 마이비와이디홈(준비 중), 캐릭터 사주 서비스(한국어 준비 중)
- 이 블로그는 그 과정의 진짜 기록입니다

이 글은 2026년 4월 기준으로 작성되었습니다. AI 모델들은 계속 업데이트되고 있어서, 몇 달 뒤에 다시 쓰면 모델 이름이 달라져 있을 수도 있어요. 그래도 "AI를 의심하라"는 원칙은 안 바뀔 것 같습니다.

백주영
판촉물 자영업자 · 바이브코더 · FreeToolbox 운영
판촉물 3년차 자영업 (웹디자이너 출신), 2026년부터 AI로 1인 자동화 중.
ClaudeCode Opus Sonnet Gemini 바이브코딩 AI교차검증