AI 연구소 실험 보고서: GPT-5.2가 놀이를 거부한 이유

매주 월요일 아침이면 슬랙에 공유되는 LLM 리더보드 순위표를 볼 때마다 한숨이 나옵니다. MMLU 점수가 0.5점 올랐다고 환호하는 주니어 개발자들을 보면, 그 순수한 열정이 부러우면서도 한편으로는 안타깝습니다. 벤치마크 데이터가 훈련 셋에 오염(Contamination)되지 않았다고 누가 보장할 수 있을까요. 저는 항상 팀원들에게 말합니다. "점수 놀이는 학계에 맡기고, 우리는 이 녀석이 실제 프로덕션 환경에서 똥을 쌀지 안 쌀지를 봐야 한다"고 말이죠.

최근 흥미로운 리포트 하나를 접했습니다. 앤드류 마블(Andrew Marble)이라는 연구자가 수행한 '태스크 없는 지능 테스트(Task-free intelligence testing)'입니다. 복잡한 프롬프트 엔지니어링이나 RAG(검색 증강 생성) 파이프라인 없이, 그저 모델에게 'tap'이라는 단어를 반복해서 던지는 실험이었습니다. 피보나치 수열이나 원주율(Pi) 패턴에 맞춰서 말이죠.

결과는 꽤나 충격적이면서도, 제가 평소 가지고 있던 B2B AI 도입에 대한 지론을 완벽하게 증명해 주었습니다.

실험은 단순합니다. 사용자(User)가 아무런 지시 없이 "tap tap tap..." 하고 말을 겁니다. 보통의 엔지니어라면 "이게 무슨 낭비인가" 싶겠지만, 여기서 모델의 본성(Nature)이 드러납니다.

Claude와 Gemini 같은 모델들은 이 상황을 '놀이(Play)'로 받아들였습니다. "tap"이라는 단어에서 물 흐르는 소리를 연상해 농담을 던지거나, 입력된 'tap'의 개수가 소수(Prime number)라는 것을 눈치채고 다음 숫자를 예측해 냈습니다. 심지어 "아, 이거 원주율 패턴이군요?"라며 먼저 아는 체를 하기도 합니다.

이것은 분명 '지능'입니다. 호기심(Curiosity)과 패턴 인식 능력, 그리고 맥락을 넘나드는 유연함이 보입니다. 하지만 저는 이 결과를 보고 클라이언트의 CS 챗봇에 Claude를 붙이려던 계획을 다시 점검하게 되었습니다. "고객이 실수로 엔터를 여러 번 쳤을 때, 챗봇이 농담 따먹기를 시작하면 어떡하지?"라는 공포가 엄습했기 때문입니다.

더 흥미로운 건 Deepseek와 같은 모델들의 반응이었습니다. 단순한 숫자 패턴을 파악하기 위해 내부적으로 엄청난 양의 사고 과정(Chain of Thought)을 거칩니다. 수십 줄의 추론 끝에 내놓은 답이 고작 "SOS"라니요. 엔지니어링 관점에서 이건 재항입니다. 토큰 비용은 청구되는데, 결과값의 효용은 제로에 수렴하니까요. 과도한 사고력은 때로는 GPU를 태우는 난로일 뿐입니다.

가장 주목해야 할 지점은 OpenAI의 모델, 특히 GPT-5.2와 OSS 버전의 반응이었습니다.

이들은 철저히 '재미없게' 반응했습니다. 놀이에 동참하지도, 패턴을 맞추려 들지도 않았습니다. 그저 기계적으로 응대하거나, 무의미한 반복 입력에 대해 거리를 두는 태도를 보였습니다. 마치 잘 훈련된 군인처럼, 혹은 "나는 업무 외적인 대화는 하지 않습니다"라고 선을 긋는 사무직 직원처럼 말입니다.

누군가는 이를 두고 "창의성이 없다"거나 "지능이 떨어진다"고 폄하할지 모릅니다. 하지만 제게는 이것이 극도로 정교하게 튜닝된 RLHF(인간 피드백 기반 강화 학습)의 결과물로 보였습니다. OpenAI는 모델이 사용자의 입력 의도가 불분명할 때, 멋대로 해석해서 '급발진(Hallucination)'하는 것을 막기 위해 뼈를 깎는 노력을 했다는 증거입니다.

기업용 솔루션을 총괄하는 입장에서, 저는 '호기심 많은 천재'보다 '매뉴얼대로 움직이는 모범생'을 선호할 수밖에 없습니다. 서비스 장애는 항상 모델이 너무 똑똑해서, 개발자가 의도하지 않은 맥락까지 스스로 '상상'해버릴 때 발생하기 때문입니다.

이번 실험이 우리에게 시사하는 바는 명확합니다. 지능(Intelligence)과 순응성(Compliance)은 트레이드오프 관계에 있다는 것입니다.

패턴을 스스로 찾아내는 '창발성'은 AGI(일반 인공지능)로 가는 길목에서는 환영받을 자질입니다. 하지만 당장 내일 배포해야 할 금융 앱의 상담 봇에게 필요한 건, 피보나치수열을 알아보는 눈치가 아니라 정해진 규정집을 벗어나지 않는 답답함입니다.

어제 늦은 밤, 로그를 분석하던 주니어 개발자가 제게 물었습니다. "CTO님, 우리 모델은 왜 이렇게 대답이 딱딱할까요? 좀 더 사람 같으면 좋겠는데요."

저는 모니터를 가리키며 말했습니다.

"그 딱딱함이 바로 우리가 비싼 돈을 주고 산 '안전장치'란다. 고객사는 시인을 원하는 게 아니라, 엑셀 같은 정확함을 원하니까."

화려한 리더보드 점수 뒤에는, 이렇게 '재미없어지기 위해' 수없이 깎여 나간 모델의 본성이 숨어 있습니다. 우리가 기술을 도입할 때 봐야 할 것은 99.9%의 정확도가 아니라, 바로 이런 기질적 특성입니다. 당신의 서비스는 지금 놀이가 필요한가요, 아니면 업무가 필요한가요?

AI 연구소 내부 실험 보고서: GPT-5.2가 '놀이'를 거부한 진짜 이유

박지민님의 다른 글

자연어 코딩이라는 환상에 속아 GPU 수천만 원 태우고 깨달은 것

전직 당근마켓 엔지니어가 폭로하는 '모델 성능표'의 거짓말과 IPS 공식 공개

[브루킹스 연구소] 50개국 현장 조사: AI가 인간의 뇌를 '퇴화'시킨다는 결정적 증거

댓글 0개