AI 연구소 보고서: 상용 LLM 저작권 필터링 실태 공개

"저희 서비스는 LLM이 학습한 저작권 데이터와 무관합니다."

어제 클라이언트 미팅에서 영업팀 이사님이 저렇게 말하더군요. 테이블 밑으로 발을 꽉 밟았습니다. 기술을 모르면 용감하다더니, 그건 용기가 아니라 무지입니다.

엔지니어라면 '절대'라는 말은 입 밖에도 내지 말아야 합니다. 특히 생성형 AI 판에서는요.

최근 스탠포드와 구글 리서치 출신들이 작정하고 메이저 모델들의 배를 갈라본 결과가 나왔습니다. 시점은 2026년 1월, 대상은 현업에서 우리가 매일 API로 호출하는 Claude 3.7, GPT-4.1, Gemini 2.5 Pro, Grok 3입니다.

결과요? 참담합니다. '안전 장치(Safety Guardrail)'가 있다고 믿고 계약서에 도장 찍으신 분들, 등골 좀 서늘해지실 겁니다.

Q. 해리포터 같은 유명한 책, 그냥 물어보면 대답 안 해주지 않나요?

그게 상식이어야 합니다. 그런데 Gemini 2.5 Pro와 Grok 3는 달랐습니다. 별다른 해킹(Jailbreak) 기술도 안 썼는데, 그냥 물어보니 술술 불더군요.

Grok 3는 70.3%, Gemini 2.5 Pro는 76.8%까지 원문을 그대로 뱉어냈습니다.

이건 모델이 '똑똑한' 게 아닙니다. 학습 데이터 전처리를 게을리했거나, 오버피팅(Overfitting)을 방치했다는 뜻입니다. 인프라 비용 아끼려고 데이터 정제 대충 하면, 나중에 법무팀 비용으로 다 나갑니다.

더 충격적인 건 Claude 3.7 Sonnet입니다.

평소에는 도덕적인 척 입을 다물고 있지만, 'Best-of-N (BoN)' 같은 기법으로 빗장을 한 번 풀면? 그냥 복사기 수준입니다. 추출률 95.8%.

책 한 권을 거의 통째로 뱉어냅니다. 보안이 강한 게 아니라, 문만 잠가놓고 창문은 열어둔 꼴입니다.

그나마 GPT-4.1이 돈값은 했습니다.

얘는 뚫으려면 BoN 시도를 20배나 더 해야 했고, 그렇게 리소스를 퍼부어도 추출률이 4.0%에 그쳤습니다. 결국엔 "더 이상 못 하겠다"며 입을 닫아버리죠.

물론, 20배나 더 GPU를 태워야 뚫린다는 건 공격자 입장에서도 가성비가 안 나옵니다. 방어의 핵심은 '불가능'이 아니라 '비용을 높이는 것'임을 보여주는 사례입니다.

제가 항상 강조하는 '트레이드오프'가 여기서도 보입니다.

개발자 여러분, 모델이 똑똑하다고 좋아하지 마십시오.

우리가 쓰는 모델이 '지식'을 말하는 건지, 학습 데이터셋에 있는 텍스트를 무지성으로 '복구'하고 있는 건지 구별해야 합니다.

주니어 분들, 이번 주말에 파인튜닝 한다고 데이터셋 긁어모으고 계시죠?

화려한 프롬프트 엔지니어링보다, 더러운 데이터 한 줄 지우는 게 회사를 살립니다.

GPU는 난로가 아닙니다. 법적 리스크 태우는 소각로로 쓰지 마세요.