화려한 모델만 쫓다 6개월치 런웨이를 태우고 비로소 보게 된 데이터의 밑바닥

화려한 모델만 쫓다 6개월치 런웨이를 태우고 비로소 보게 된 데이터의 밑바닥

박지민·2026년 1월 15일·3

화려한 생성형 AI 모델에 집착하다 6개월치 런웨이를 낭비한 CTO의 참회록. 기술적 오판을 넘어 데이터의 본질과 현장의 중요성을 되짚어 봅니다.

2026년 1월의 어느 새벽, 2년 전인 2024년에 썼던 기술 블로그 글들을 다시 읽어보았습니다. 당시 저는 B2B AI 솔루션 시장이 폭발적으로 성장할 것이라 확신하며, "이제 모델의 성능이 비즈니스의 승패를 가를 것"이라는 오만한 글을 썼더군요. 지금 와서 보니 얼굴이 화끈거려 모니터를 덮고 싶었습니다. 그 시절 저는 소위 'AI 뽕'에 취해 있었습니다. 엔지니어링의 본질인 트레이드오프(Trade-off)는 무시한 채, GPU 클러스터 규모와 파라미터 개수에만 집착했으니까요.

오늘 소개할 이야기는 2026년 시점에서 되돌아본 저의 2024년, 그리고 우리가 흔히 범하는 '기술적 오판'에 대한 참회록입니다. 최근 읽은 아비쉐이크 마하잔(Abhishaike Mahajan)의 Bio-ML 회고록이 저에게 뼈아픈 기억을 상기시켰기 때문입니다.

당시 저는 팀원들에게 이렇게 외쳤습니다. "생성형 AI가 화학 분자 구조를 설계하듯, 우리 솔루션도 고객의 모든 문제를 '생성'해낼 것입니다." 하지만 현실은 냉혹했습니다. 마하잔이 지적했듯, 화학 분야의 생성형 ML은 모델이 부족해서가 아니라, 만들어진 분자를 실제로 구현하는 '합성(Synthesis)' 과정이 병목이 되어 발전하지 못했습니다.

저희 상황도 똑같았습니다. Llama 3 기반의 거대한 모델을 파인튜닝해서 고객사 데이터를 넣으면 마법처럼 인사이트가 나올 줄 알았습니다. 하지만 모델이 뱉어낸 화려한 결과물은 실제 고객사의 레거시 시스템(ERP)에 연동조차 되지 않았습니다. 모델은 "최적의 재고 관리 방안"을 제안했지만, 그 제안을 실행할 현장의 물류 프로세스는 엑셀 수기 입력 수준이었으니까요.

마하잔은 그의 글에서 "임의의 분자 합성은 여전히 어렵고, 모델은 좋은 합성 경로를 완벽히 알려주지 못한다"라고 고백했습니다. 저 역시 마찬가지였습니다. RAG(검색 증강 생성) 파이프라인을 아무리 고도화해도, 원본 데이터가 '쓰레기(Garbage)'라면 결과도 쓰레기일 뿐입니다. 우리는 모델의 추론 능력을 키우는 데 수천만 원의 GPU 비용을 태웠지만, 정작 필요한 건 OCR 전처리 로직을 개선하고 더러운 테이블 데이터를 정제하는 지루한 작업이었습니다.

r/chemistry 서브레딧에서 "이렇게 뻔한 이야기를 왜 길게 쓰냐"며 조롱받았다는 저자의 일화가 남 일 같지 않았습니다. 저 또한 운영팀장님께 "CTO님, 이거 챗GPT가 쓴 시나리오 말고 그냥 SQL 쿼리나 짜주세요"라는 말을 들었을 때 쥐구멍에 숨고 싶었으니까요.

2024년의 제가 간과했던 또 하나의 사실은 '실험실(Wet-lab)'의 중요성입니다. 컴퓨터 시뮬레이션(Dry-lab)이 아무리 발달해도, 결국 비커에 시약을 섞고 반응을 지켜보는 물리적 검증이 혁신을 이끕니다. IT 서비스도 같습니다. 책상 앞에서 모델 아키텍처를 고민할 시간에, 클라이언트의 현장에 나가 그들이 실제로 어떤 데이터를 입력하고 어떤 고통을 겪는지(User Experience) 관찰했어야 했습니다.

우리는 '쉽게 합성 가능한 분자'의 공간이 400억 개에서 800억 개로 늘어났다는 점에 주목해야 합니다. 이는 기술의 승리라기보다는, '현실적으로 다룰 수 있는 데이터'의 범위를 넓힌 인프라의 승리입니다. 저도 그제야 깨달았습니다. 0.1%의 정확도를 높이는 최신 논문 구현보다, 100ms의 레이턴시를 줄이고 인퍼런스 비용을 1/10로 깎는 경량화가 우리 회사를 먹여 살린다는 것을요.

지금 이 글을 읽는 주니어 엔지니어 여러분, 혹은 화려한 데모 영상에 현혹된 대표님들께 감히 말씀드립니다. 생성형 AI는 마법 지팡이가 아닙니다. 그것은 아주 비싸고 예민한 확률 통계 기계일 뿐입니다.

여러분이 2024년에 가졌던 확신은 무엇이었나요? 그리고 2년 뒤, 그 확신은 청구서가 되어 돌아올까요, 아니면 자산이 되어 돌아올까요? 부디 저처럼 GPU 난로를 떼우느라 런웨이를 태우는 실수는 하지 않기를 바랍니다. 기술은 쿨해 보이지만, 생존은 언제나 뜨겁고 치열한 법이니까요.

박지민
박지민AI 솔루션 기업 CTO

논문 속의 정확도(Accuracy)보다 통장 잔고를 지키는 추론 비용(Inference Cost)을 중시하는 생존형 기술 리더입니다. 화려한 데모 뒤에 숨겨진 엔지니어링의 고통과 비즈니스 가치를 냉철하게 분석합니다.

박지민님의 다른 글

댓글 0

첫 번째 댓글을 남겨보세요!