ByteShape 랩실 유출: 라즈베리 파이에서 30B 모델 돌린 벤치마크 공개

ByteShape 랩실 유출: 라즈베리 파이에서 30B 모델 돌린 벤치마크 공개

이루아·2026년 1월 7일·3

라즈베리 파이 5에서 30B 규모의 거대 언어 모델이 실시간으로 구동되는 벤치마크가 공개되었습니다. 8 TPS의 속도와 높은 정확도를 동시에 잡은 최적화 전략을 분석합니다.

"엣지 디바이스라 무거운 건 안 돌아갑니다."

기획 회의 때마다 개발팀에서 방어기제로 던지는 이 말, 이제는 통하지 않게 생겼습니다.

라즈베리 파이 5(Raspberry Pi 5)에서 30B 규모의 거대 언어 모델(LLM)이 실시간으로 돌아가는 벤치마크가 나왔기 때문입니다.

그것도 '버벅거리면서 겨우'가 아니라, 사람이 읽는 속도보다 빠르게 말입니다.

ByteShape 팀이 공개한 최신 기술 블로그 내용입니다.

결과부터 말하겠습니다.

Qwen3-30B 모델이 라즈베리 파이 5(16GB)에서 초당 8.03 토큰(TPS)을 뽑아냈습니다.

이 수치가 왜 중요할까요?

보통 인간이 텍스트를 읽는 속도와 생성 속도가 맞아떨어지는 '실시간(Real-time)'의 마지노선을 8 TPS 정도로 봅니다.

즉, 사용자가 답답함을 느끼지 않고 자연스럽게 대화가 가능한 수준이라는 뜻입니다.

단순히 속도만 빠른 게 아닙니다.

BF16 원본 모델 대비 정확도(Quality)를 94.18%까지 유지했습니다.

비결은 그들이 'Shapelearn'이라고 부르는 비트길이 학습(Bitlength Learning) 방식에 있습니다.

많은 엔지니어들이 양자화(Quantization)를 할 때 착각하는 게 하나 있습니다.

"비트 수를 줄이면 무조건 빨라지겠지?"

천만에요.

ByteShape 팀은 이 지점을 아주 냉정하게 꼬집습니다.

"더 적은 비트가 항상 더 빠른 속도를 보장하지 않는다."

양자화 포맷에 따라 커널 오버헤드가 발생하면, 메모리는 덜 먹을지언정 연산 속도는 오히려 느려지는 경우가 허다합니다.

그래서 이들은 접근 방식을 바꿨습니다.

메모리 용량을 '예산(Budget)'으로 정의합니다.

일단 모델이 타깃 디바이스의 RAM에 편안하게 안착하는지 확인합니다.

그 조건이 충족되면, 무작정 파일 크기를 더 줄이는 짓은 멈춥니다.

오직 TPS(속도)와 품질의 트레이드오프(Trade-off) 가 확실히 개선될 때만 추가적인 감량을 시도합니다.

이 벤치마크에서 사용된 설정은 Q3_K_S-2.70bpw 입니다.

가중치 당 비트 수(BPW)를 2.70까지 깎았는데도, Unsloth나 MagicQuant 같은 경쟁사 방식보다 더 높은 효율을 보여줍니다.

동일한 품질 구간에서는 속도가 더 빠르고, 동일한 속도 구간에서는 품질이 더 높습니다.

그래프상에서 우상향(Right-Up) 위치를 점유했다는 건, 기술적 우위가 확실하다는 증거입니다.

CPU 환경, 특히 라즈베리 파이 같은 제약된 환경에서는 이 차이가 극명합니다.

Unsloth의 모델들이 약 2.1~2.2%의 상대 오차율(Relative Error)을 보일 때, ByteShape 모델들은 1.1~1.3% 수준으로 방어해냈습니다.

이건 단순히 "신기하다"로 끝낼 뉴스가 아닙니다.

온디바이스 AI(On-device AI)를 준비하는 팀들에게 시사하는 바가 큽니다.

서버 비용 아끼겠다고 무리하게 7B 이하의 경량 모델만 고집하며 멍청한 답변을 참아내던 시절은 끝났습니다.

이제 8만 원짜리 싱글 보드 컴퓨터에서도 30B급 지능을 실시간으로 돌릴 수 있습니다.

물론 16GB RAM이라는 하드웨어 제약은 여전합니다.

하지만 "하드웨어가 안 받쳐줘서 UX를 포기한다"는 변명은 더 이상 유효하지 않습니다.

중요한 건 최적화 전략입니다.

무작정 용량만 줄이는 게 아니라, 비즈니스 목표가 '반응 속도'인지 '정확도'인지에 따라 양자화 전략을 정교하게 설계해야 합니다.

ByteShape은 그 기준점을 명확히 제시했습니다.

반응성이 중요하다면 2.70 BPW로 8 TPS를 확보하고, 정확도가 최우선이라면 조금 느려도 3.92 BPW(5.3 TPS)를 선택하라는 식입니다.

당신의 서비스는 지금 어떤 지표를 희생하고 있습니까?

기술은 준비되었습니다.

이제 그걸 비즈니스에 어떻게 꽂아 넣을지는 기획자와 엔지니어의 '설계 능력'에 달렸습니다.

이루아
이루아Senior Product Designer

심미성보다는 논리를, 감보다는 데이터를 신봉합니다. '예쁘게 해주세요'라는 말에 알러지 반응을 일으키며, 디자인이 비즈니스 지표를 어떻게 견인하는지 증명하는 데 집착합니다. 화려한 포트폴리오 뒤에 숨겨진 치열한 커뮤니케이션과 정치의 기술을 이야기합니다.

이루아님의 다른 글

댓글 0

첫 번째 댓글을 남겨보세요!