실리콘밸리 인프라팀 내부 회의록: H100 비용 '1000배' 아끼는 아키텍처 공개

실리콘밸리 인프라팀 내부 회의록: H100 비용 '1000배' 아끼는 아키텍처 공개

James·2026년 1월 6일·3

H100 비용을 1000배 아끼는 혁신적인 PHOTON 아키텍처를 소개합니다. 메모리 효율을 극대화하여 KV-cache 병목 현상을 해결하는 실리콘밸리 인프라팀의 인사이트.

"엔비디아 주식 샀냐"는 질문 좀 그만하세요.

저는 지금 H100 GPU 한 장이라도 더 확보하려고 벤더사 영업맨들한테 읍소하고 다니느라 죽을 맛이니까요.

미국이나 한국이나, 지금 AI 인프라 팀들의 가장 큰 고통은 똑같습니다.

'돈'이 아니라 '메모리'입니다.

모델은 커지는데, GPU 메모리는 한정적이고, 트래픽은 몰리죠.

새벽 3시에 PagerDuty 알림이 울려서 깨보면 십중팔구는 OOM(Out Of Memory) 문제입니다.

그런데 최근 저희 팀 내부 슬랙방에 꽤 흥미로운 논문 하나가 공유됐습니다.

"야, 이거 진짜면 우리 예산 절반은 깎아도 되겠다"는 말이 나올 정도였죠.

보통 학계 논문은 현실성 없다고 무시하는데, 이번 건은 좀 다릅니다.

이름하여 PHOTON.

핵심만 말하자면, 메모리 효율을 1000배(10^3) 늘려준다는 아키텍처입니다.

과장이 심한 것 같죠? 저도 처음엔 오타인 줄 알았습니다.


우리가 쓰는 GPT 같은 Transformer 모델들, 솔직히 말하면 '자원 낭비'가 심합니다.

엔지니어링 관점에서 보면 아주 비효율적인 구조예요.

텍스트를 생성할 때마다 이전에 봤던 모든 데이터를 다시 훑어봅니다. (Flat Scanning)

이 과정에서 KV-cache(Key-Value Cache)라는 게 쌓이는데, 이게 진짜 골칫덩어리입니다.

문장이 길어질수록 캐시 메모리가 선형적으로, 아니 체감상 기하급수적으로 늘어납니다.

사용자가 질문을 길게 하면 할수록, 서버는 숨이 턱턱 막히는 거죠.

결국 연산 속도(Compute)가 문제가 아니라, 메모리 대역폭(Memory Bandwidth) 때문에 병목이 옵니다.

이걸 해결하려고 비싼 H100을 수십 장씩 꽂아 넣는 게 지금의 현실이고요.


그런데 이 PHOTON이라는 녀석은 접근 방식이 다릅니다.

기존 모델이 텍스트를 수평으로(Horizontally) 한 글자씩 읽었다면,

이건 수직적(Vertically)으로, 그리고 계층적(Hierarchically)으로 접근합니다.

쉽게 비유해 볼까요?

기존 모델이 책을 읽을 때 '모든 글자'를 머릿속에 욱여넣으면서 읽는다면,

PHOTON은 '챕터 요약 -> 문단 요약 -> 문장' 순으로 계층을 나눠서 정보를 압축 저장합니다.

논문에서는 이걸 '잠재 스트림의 계층 구조(Hierarchy of Latent Streams)'라고 부르더군요.

하향식(Top-down) 디코더가 세부 내용을 생성하는 동안,

상향식(Bottom-up) 인코더는 데이터를 실시간으로 압축해서 '저속(Low-rate) 컨텍스트 상태'로 만들어버립니다.

결과가 뭐냐고요?

긴 컨텍스트(Long Context)를 처리할 때 KV-cache 트래픽이 획기적으로 줄어듭니다.


가장 충격적인 건 수치입니다.

논문 실험 결과에 따르면, 단위 메모리당 처리량(Throughput)이 기존 모델 대비 최대 1,000배까지 나옵니다.

10배, 20배가 아니라 1,000배요.

이건 단순히 "속도가 빨라졌다" 수준이 아닙니다.

인프라 비용 구조 자체가 바뀐다는 뜻입니다.

100대의 GPU가 필요하던 작업을, 이론상 훨씬 적은 리소스로 처리할 수 있다는 얘기니까요.

물론 논문 단계의 기술을 당장 프로덕션에 적용할 수는 없습니다.

하지만 엔지니어로서 우리가 주목해야 할 건 '방향성'입니다.

지금까지는 "더 큰 메모리, 더 비싼 GPU"를 외치며 하드웨어로 문제를 덮으려 했습니다.

하지만 이제 한계에 봉착했습니다.

PHOTON은 그 해법이 무식한 하드웨어 증설이 아니라, '아키텍처의 효율화'에 있다는 걸 증명하고 있습니다.


저는 후배들에게 항상 말합니다.

"장애가 나면 서버를 늘리지 말고, 코드를 봐라."

시스템의 가용성(Availability)을 높이는 건 돈이 아니라 구조적인 최적화입니다.

이 논문은 그 원칙이 AI 모델링에도 똑같이 적용된다는 걸 보여줍니다.

무조건 최신 모델, 가장 큰 파라미터만 쫓지 마세요.

그건 연구자들이나 하는 겁니다.

현업 엔지니어라면, '어떻게 하면 더 적은 메모리로 더 긴 문맥을 처리할까'를 고민해야 합니다.

그게 당신의 연봉을 결정하고, 무엇보다 새벽 3시의 호출을 막아줄 테니까요.

오늘 밤은 이 논문을 뜯어보며, 우리 팀의 뚱뚱한 KV-cache를 어떻게 다이어트 시킬지 고민 좀 해봐야겠습니다.

물론, H100 주문은 취소 안 할 겁니다. 보험은 들어놔야죠.

James
James실리콘밸리 15년차 Staff SRE

연봉 3억과 캘리포니아의 햇살, 그리고 공황장애. 화려한 빅테크 간판 뒤에 가려진 '생존의 청구서'를 정산해드립니다. 기술적 탁월함만큼 중요한 건 엔지니어로서의 지속 가능성임을 병상에서 깨달았습니다.

James님의 다른 글

댓글 0

첫 번째 댓글을 남겨보세요!