
솔직히 묻겠습니다. 당신은 틱톡(TikTok) 유저들이 투표로 뽑은 의사에게 심장 수술을 맡기시겠습니까?
아니겠죠. 목숨이 걸린 일이니까요.
그런데 왜 우리 개발팀은 수십억짜리 프로덕트에 들어갈 LLM(거대언어모델)을 고를 때, 검증되지 않은 대중의 투표 결과에 목을 매는 걸까요?
오늘 아침 공유받은 Surge AI의 충격적인 보고서를 읽고 헛웃음이 나왔습니다. 우리가 '성경'처럼 떠받들던 LMArena(Chatbot Arena) 리더보드의 민낯이 드러났기 때문입니다.
결론부터 말하자면, 지금의 리더보드는 AI 업계의 암적인 존재(Cancer)가 되어가고 있습니다.
이건 단순한 비난이 아닙니다. 데이터가 증명하는 팩트입니다.
현대카드 시절, 결제 프로세스 기획할 때 제가 가장 싫어했던 말이 "고객이 좋아할 것 같은데요?"였습니다. 데이터 없는 감(Feeling)은 비즈니스를 망칩니다. 지금 AI 업계가 딱 그 꼴입니다.
왜 우리가 보고 있는 랭킹이 '예쁜 쓰레기'인지, 3가지 팩트로 정리해 드립니다.
첫째, 유저는 '정답'이 아니라 '인테리어'에 투표합니다.
리더보드 순위를 올리는 가장 확실한 방법이 뭔지 아십니까? 모델의 지능을 높이는 게 아닙니다.
그저 답변을 '길게' 쓰고, 굵은 글씨(Bold)를 박고, 글머리 기호를 남발하면 됩니다.
LMArena의 투표자들은 답변을 꼼꼼히 읽지 않습니다. 평균 2초 훑어보고 클릭합니다. 그들에게는 팩트보다 '형식(Formatting)'이 중요합니다.
내용이 틀려도 상관없습니다. 보기 좋게 편집된 오답이, 투박하지만 정확한 정답을 이깁니다.
이건 마치 대출 심사를 하는데, 상환 능력은 안 보고 신청서 글씨체 예쁜 사람에게 돈을 빌려주는 것과 같습니다. 금융권이었으면 배임으로 잡혀갈 일입니다.
둘째, 52%의 투표가 틀렸습니다.
Surge AI 연구팀이 LMArena의 투표 데이터 500건을 직접 뜯어봤습니다. 결과는 처참했습니다.
전문가가 봤을 때 명백히 틀린 답변인데도, 유저들은 그 답변이 '더 낫다'고 투표한 비율이 무려 52%였습니다.
구체적인 사례를 볼까요?
[사례 1: 오즈의 마법사]
모델 A: 도로시가 하지도 않은 대사를 창작(Hallucination)해서 아주 그럴듯하게 읊음.
모델 B: 원작의 정확한 대사를 찾아냄.
결과는? 환각을 일으킨 모델 A의 승리였습니다. 왜냐고요? 더 자신감 있는 어조로 썼거든요.
[사례 2: 케이크 팬 수학]
모델 A: 9인치 원형 팬과 9x13인치 직사각형 팬의 넓이가 같다고 우김. (수학적으로 불가능)
모델 B: 정확한 치수 차이를 계산함.
결과는? 또다시 틀린 모델 A의 승리였습니다.
이게 우리가 믿고 따르던 '집단지성'의 실체입니다. 수학적으로 틀린 답을 내놓아도 목소리만 크면 1등을 하는 시스템입니다.
셋째, 우리는 '환각'에 최적화하고 있습니다.
이게 진짜 무서운 지점입니다.
기업들은 리더보드 순위에 사활을 겁니다. 순위가 높아야 투자를 받고, API를 파니까요.
그래서 모델 개발사들은 LMArena의 채점 기준에 맞춰 모델을 튜닝합니다. 즉, 정확성(Accuracy)보다 '그럴싸함(Vibes)'을 학습시킵니다.
진실보다 포맷팅을, 팩트보다 길이를 우선하도록 모델을 망가뜨리고 있는 겁니다.
토스에서 대출 비교 서비스를 만들 때, 우리는 전환율 0.1%를 올리기 위해 피를 말렸습니다. 하지만 그건 고객에게 진짜 가치를 줄 때만 의미가 있었습니다.
지금 AI 씬은 가짜 가치를 진짜인 척 포장하는 '메이크업 경쟁'을 하고 있습니다.
그럼 어떻게 해야 할까요?
제발, 남이 떠먹여 주는 순위표 좀 그만 보십시오.
'GPT-4o가 1위니까 쓴다', 'Claude 3.5가 코딩 1위니까 쓴다' 같은 접근은 게으른 겁니다.
여러분의 비즈니스 도메인에 맞는 자체 평가 셋(Evaluation Set)을 만드십시오.
여러분이 금융 서비스를 한다면 금융 데이터를 넣어서 테스트하고, 의료 서비스를 한다면 의학 논문을 요약시켜 봐야 합니다.
일반 대중의 투표가 아니라, 여러분 팀의 'Ground Truth'가 기준이 되어야 합니다.
지금 당장 리더보드 창을 닫으십시오. 그리고 우리 서비스의 로그를 열어보십시오. 거기에 진짜 답이 있습니다.
화려한 리더보드는 도파민을 주지만, 꼼꼼한 내부 검증(Eval)은 비즈니스의 생존을 줍니다.
어느 쪽을 선택하시겠습니까?


