NVIDIA 내부 엔지니어들이 충격받은 '천재 개발자'의 1.084 bpb 벤치마크 결과

NVIDIA 내부 엔지니어들이 충격받은 '천재 개발자'의 1.084 bpb 벤치마크 결과

Alex Kim·2026년 1월 17일·2

Fabrice Bellard가 만든 LLM 기반 압축 툴 ts_zip이 enwik9 벤치마크에서 1.084 bpb라는 경이로운 수치를 기록하며 정보 이론의 한계에 도전했습니다.

Fabrice Bellard.

이 이름을 듣고도 가슴이 뛰지 않거나, 최소한 식은땀이 흐르지 않는다면 당신은 아직 '진짜' 엔지니어링의 세계를 맛보지 못한 겁니다.

FFmpeg, QEMU, LZEXE.

우리가 숨 쉬듯 사용하는 인프라의 근간을 혼자서 다 만든 사람입니다. 그가 이번에 또 사고를 쳤습니다. 이름하여 ts_zip.

LLM(Large Language Model)으로 텍스트를 압축하는 툴입니다.

"AI로 압축을 한다고? 그냥 겉멋 아니야?"라고 생각했다면 오산입니다.

이건 단순히 신기술을 갖다 붙인 장난감이 아닙니다. 정보 이론(Information Theory)의 극한을 보여주는, 뼛속까지 시린 엔지니어링의 정수입니다.

--> [팩트] 수치로 증명합니다.

enwik9 (위키백과 데이터 1GB) 압축 결과 비교:

  • xz (기존 최강자): 1.707 bpb (bits per byte)
  • ts_zip (Bellard의 괴물): 1.084 bpb

압축률에서 기존 알고리즘을 압살했습니다. 파일 크기가 거의 절반 가까이 더 줄어듭니다.

어떻게 가능할까요?

원리는 간단합니다. "예측할 수 있다면, 저장할 필요가 없다."

LLM은 다음에 올 단어(토큰)를 예측하는 기계입니다. 모델이 다음 단어를 완벽하게 맞춘다면, 우리는 그 단어를 기록할 필요 없이 '맞췄다'는 신호만 보내면 됩니다.

Bellard는 RWKV 169M 모델을 사용해 이 확률 게임을 산술 부호기(Arithmetic Coder)와 결합했습니다.

하지만 여기서부터가 진짜 엔지니어들이 주목해야 할 지점입니다.

:: TCO(총 소유 비용)와 Trade-off

압축률은 혁신적이지만, 대가가 따릅니다.

[리소스 요구사항]

  • RAM: 4GB 필수
  • HW: GPU 없으면 사실상 구동 불가
  • Throughput: RTX 4090 기준, 초당 1MB 처리.

네, 맞습니다. 4090을 풀로 돌려서 초당 1메가바이트 압축합니다.

현업 인프라 관점에서 보면 미친 짓입니다. Latency가 너무 깁니다. 전기세가 스토리지 비용보다 더 나올 겁니다.

하지만 제가 이 글을 쓰는 이유는 이 '비효율' 속에 숨겨진 광기 때문입니다.

Bellard는 GPU의 부동소수점 연산이 하드웨어마다 미세하게 다를 수 있다는 점(Non-deterministic)을 완벽하게 제어했습니다.

엔비디아 GPU든, 인텔 CPU든, 스레드가 몇 개든 똑같은 결과를 내놓도록 설계했습니다.

이게 얼마나 어려운지 아십니까?

분산 학습 플랫폼 NSML 아키텍트로 일할 때, 이 재현성(Reproducibility) 문제 때문에 며칠 밤을 새운 적이 한두 번이 아닙니다.

그는 이걸 '압축'이라는 도메인에서 해결해냈습니다. 하드웨어가 달라도 복원 무결성을 보장한다는 뜻입니다.

:: 개발자들에게 던지는 메시지

요즘 주니어 개발자 면접을 보면, 랭체인(LangChain) 엮어서 챗봇 만드는 걸 'AI 엔지니어링'이라고 착각하는 경우가 많습니다.

그건 라이브러리 사용자지, 엔지니어가 아닙니다.

Bellard는 LLM을 텍스트 생성기가 아니라, '확률 분포 추론 엔진'으로 바라봤습니다.

남들이 "AI로 소설 쓰기"에 열광할 때, 그는 "AI로 섀넌(Shannon)의 엔트로피 한계 돌파하기"를 시도한 겁니다.

이게 바로 기술을 대하는 '격'의 차이입니다.

당장은 느려서 못 씁니다. 바이너리 파일은 압축도 잘 안 됩니다.

하지만 3년 뒤, 5년 뒤는 어떨까요? 전용 ASIC이 나오고 추론 비용이 0에 수렴한다면?

그때는 tar -czvf 대신 ts_zip이 표준이 될지도 모릅니다.

오늘 밤, 습관처럼 npm install만 치지 말고 이 툴의 소스 코드나 원리를 한번 파보세요.

"느려서 못 써요"라고 비웃기 전에, 그 1.084 bpb라는 숫자가 의미하는 기술적 집요함에 압도당해 보시길 바랍니다.

새벽 3시 장애 대응보다 더 값진 공부가 될 겁니다.

Alex Kim
Alex KimAI 인프라 리드

모델의 정확도보다 추론 비용 절감을 위해 밤새 CUDA 커널을 깎는 엔지니어. 'AI는 마법이 아니라 전기세와 하드웨어의 싸움'이라고 믿습니다. 화려한 데모 영상 뒤에 숨겨진 병목 현상을 찾아내 박살 낼 때 가장 큰 희열을 느낍니다.

Alex Kim님의 다른 글

댓글 0

첫 번째 댓글을 남겨보세요!