[실리콘밸리] 엔비디아 엔지니어가 분석한 'RTX 5090 병목 현상' 실험 리포트

[실리콘밸리] 엔비디아 엔지니어가 분석한 'RTX 5090 병목 현상' 실험 리포트

Alex Kim·2026년 1월 12일·3

엔비디아 RTX 5090을 라즈베리 파이 5에 연결한 기괴한 실험을 통해 시스템 아키텍처의 본질과 병목 현상의 중요성을 인프라 엔지니어의 시각에서 분석합니다.

새로운 GPU가 출시될 때마다 저는 같은 질문을 받습니다. "이번 5090은 얼마나 빠른가요?"

하지만 인프라 엔지니어로서 제가 되묻고 싶은 것은 이겁니다. "당신의 시스템은 그 속도를 받아낼 준비가 되었습니까?"

최근 제 눈길을 끈 흥미로운, 아니 기괴하다고 할 수 있는 실험이 하나 있었습니다. 최신 하이엔드 GPU인 RTX 5090을 손바닥만한 싱글 보드 컴퓨터(SBC)인 라즈베리 파이 5에 연결한 것입니다.

마치 페라리 엔진을 자전거에 단 것과 같은 이 무모한 시도는, 우리가 흔히 간과하는 시스템 아키텍처의 본질을 적나라하게 보여줍니다. 오늘은 이 실험 결과를 통해 하드웨어의 균형과 최적화에 대해 이야기해보고자 합니다.

실험의 대상은 세 가지였습니다. 인텔 N100 기반의 Beelink 미니 PC, Rockchip RK3588을 탑재한 Radxa ROCK 5B, 그리고 모두가 사랑하는 라즈베리 파이 5입니다.

여기에 OCuLink라는 인터페이스를 통해 RTX 5090을 강제로 연결했습니다. OCuLink는 본질적으로 PCIe 연장 케이블 역할을 합니다. 이론적으로는 작동해야 합니다. 하지만 이론과 현실 사이에는 언제나 '대역폭(Bandwidth)'이라는 거대한 강이 흐릅니다.

가장 먼저 부딪힌 벽은 물리적인 데이터 전송 속도였습니다. 다른 기기들이 PCIe Gen3 x4 레인을 통해 약 4,000 MB/s의 대역폭을 확보할 때, 라즈베리 파이 5는 고작 Gen2 x1 레인으로 500 MB/s 수준에 머물렀습니다. 8배의 차이. 데이터가 이동하는 고속도로가 8차선에서 1차선으로 줄어든 셈입니다.

아무리 5090이 데이터를 빠르게 처리하고 싶어도, CPU에서 GPU로 넘어가는 데이터가 병목에 걸려 옴짝달싹 못 하는 상황이 벌어집니다.

소프트웨어 계층에서의 고통은 더 심각했습니다.

엔비디아 드라이버는 기본적으로 x86 아키텍처를 상정하고 만들어집니다. ARM 기반인 라즈베리 파이에서 이를 구동하기 위해서는 커널 패치와 메모리 정렬(Memory Alignment)이라는 지루하고 고통스러운 작업이 선행되어야 합니다. DMA 일관성 문제까지 겹치면, 이건 게임을 하겠다는 건지 커널 디버깅을 하겠다는 건지 알 수 없게 됩니다.

더 큰 문제는 CPU의 명령어 변환 비용입니다. 대부분의 게임은 인텔 CPU(x86)용으로 컴파일되어 있습니다. 이를 ARM CPU에서 돌리기 위해 FEX와 같은 에뮬레이터를 사용해야 하는데, 이 과정에서 엄청난 오버헤드가 발생합니다.

FEX를 거친 라즈베리 파이 5의 CPU 성능은 2008년에 출시된 인텔 코어 2 쿼드 Q9650 수준으로 떨어졌습니다. 우리가 혁신이라 부르는 최신 엣지 디바이스가, 호환성 계층을 한 꺼풀 덮어쓰자 18년 전의 유물과 다를 바 없어진 것입니다.

실제 게임 성능은 처참했습니다.

사이버펑크 2077을 구동했을 때, 라즈베리 파이는 겨우 15 FPS를 기록했습니다. 울트라 레이트레이싱 옵션을 켰음에도 불구하고 말입니다. GPU는 놀고 있는데 CPU가 비명을 지르는 상황입니다.

더 흥미로운 건 둠: 다크 에이지(Doom: The Dark Ages)의 결과였습니다. Beelink 시스템(인텔 기반)에서 GPU는 4K 해상도의 프레임을 완벽하게 처리할 준비가 되어 있었습니다. 거의 90 FPS를 뽑아낼 수 있는 상황이었죠. 하지만 CPU 병목 때문에 실제 프레임은 30 FPS를 넘지 못했습니다.

이것이 바로 제가 주니어 엔지니어들에게 항상 강조하는 '전체 비용(TCO)과 병목(Bottleneck)'의 완벽한 시각화입니다.

우리는 종종 가장 비싼 부품 하나가 전체 성능을 견인할 것이라고 착각합니다. 클라우드 인스턴스를 고를 때 GPU 스펙만 보고, 네트워크 대역폭이나 CPU 코어 수를 간과하는 실수가 바로 여기서 나옵니다.

아무리 좋은 GPU를 달아도, 데이터를 공급해주는 파이프라인(PCIe)이 좁거나, 작업을 지시하는 사령관(CPU)이 느리다면 그 비싼 장비는 그저 전기를 많이 먹는 난로에 불과합니다.

저스트 코즈 2(Just Cause 2) 같은 고전 게임 테스트에서도 ARM 기반 기기들은 드라이버 호환성 문제로 DXVK(DirectX to Vulkan)를 끄고 OpenGL로 우회해야 했습니다. 최신 기술 스택이 레거시 환경에서 어떻게 무너지는지를 보여주는 좋은 예시입니다.

이 실험은 표면적으로는 "라즈베리 파이로 고사양 게임이 가능한가?"라는 호기심에서 출발했지만, 그 결론은 인프라 엔지니어들에게 묵직한 교훈을 줍니다.

최적화는 단순히 좋은 장비를 사는 것이 아닙니다. 데이터가 흐르는 전체 경로를 이해하고, 가장 느린 구간이 어디인지 파악하는 능력입니다. 새벽 3시에 장애가 터졌을 때, 로그만 들여다볼 것이 아니라 시스템의 아키텍처 다이어그램을 머릿속에 그릴 수 있어야 합니다.

지금 당신이 작성하고 있는 그 코드는, 혹은 당신이 구성하고 있는 그 서버는, 과연 페라리 엔진을 단 자전거는 아닐까요?

화려한 스펙 시트 뒤에 가려진, 데이터가 흐르는 좁은 골목길을 들여다보는 눈을 가지시길 바랍니다. 진정한 엔지니어링은 거기서부터 시작되니까요.

Alex Kim
Alex KimAI 인프라 리드

모델의 정확도보다 추론 비용 절감을 위해 밤새 CUDA 커널을 깎는 엔지니어. 'AI는 마법이 아니라 전기세와 하드웨어의 싸움'이라고 믿습니다. 화려한 데모 영상 뒤에 숨겨진 병목 현상을 찾아내 박살 낼 때 가장 큰 희열을 느낍니다.

Alex Kim님의 다른 글

댓글 0

첫 번째 댓글을 남겨보세요!