애플 연구팀의 '단일 이미지 3D 변환' 내부 데모 공개 분석

솔직히 말해서, 3D 생성형 AI는 아직 '예쁜 쓰레기'라고 생각했습니다.

제가 네이버 Clova에 있을 때나 지금 스타트업에서나, 3D 모델링 자동화는 늘 '계륵'이었으니까요. NeRF(Neural Radiance Fields)가 처음 나왔을 때 다들 환호했지만, 정작 서비스에 올리려고 보면 추론(Inference) 속도가 극악이었습니다.

유저가 이미지 한 장 올리고 3D 결과물 보려고 30분을 기다려줄까요? 절대 아닙니다.

그런데 오늘 새벽, 엔지니어링 단톡방에서 흥미로운 링크 하나가 돌더군요.

애플(Apple)의 연구 모델인 SHARP를 기반으로 한 'ML-Sharp' 데모입니다.

결론부터 말하자면, "이제야 GPU 태우는 보람이 생겼다" 싶습니다.

핵심은 간단합니다.

입력 :: 평범한 JPG 사진 한 장.
출력 :: 깊이(Depth)가 살아있는, 탐색 가능한 3D Gaussian Splat.

이게 왜 미친 기술인지, CTO 관점에서 딱 3가지로 정리해 드립니다.

아직도 NeRF 논문 읽고 계신다면 잠시 멈추세요. 업계 트렌드는 이미 3D Gaussian Splatting(GS)으로 넘어왔습니다.

NeRF는 공간을 신경망 그 자체로 표현하기 때문에 렌더링 할 때마다 무거운 연산이 필요합니다. 반면 GS는 3D 공간을 수많은 타원체(Gaussian) 점군으로 표현합니다.

--> 이게 무슨 뜻이냐고요?
--> 실시간 렌더링이 가능하다는 뜻입니다.

서빙(Serving) 비용에 목숨 거는 제 입장에서는, 예쁘게 나오는 NeRF보다 좀 뭉개져도 초당 60프레임 뽑아주는 GS가 백배 낫습니다. 이번 데모는 그 GS를 단일 이미지에서 바로 뽑아냅니다.

보통 단일 이미지로 3D를 만들면, 뒷면이나 가려진 부분은 AI가 소설을 씁니다. 전문 용어로 Hallucination(환각)이라고 하죠.

기존 모델들은 책상 뒤에 다리가 없는 기괴한 결과물을 뱉어내곤 했습니다. 그런데 이 SHARP 모델은 기하학적 구조를 꽤 그럴싸하게 잡아냅니다.

물론 완벽하진 않습니다. 하지만 클라이언트에게 "이거 AI가 상상한 거라 좀 이상해요"라고 변명하던 수준에서, "프로토타입으로는 쓸만하네요" 수준까지는 올라왔습니다.

여기서부터가 진짜입니다. 제발 이 데모 보고 바로 기획서 쓰지 마세요.

이 데모 페이지 하단을 보면 아주 작게 적혀 있습니다.

"비상업적 연구 및 시연 목적에 한해 제공."

애플의 연구 모델 라이선스를 따릅니다. 즉, 이걸로 돈 벌 생각 하면 안 됩니다. 스타트업이 흔히 저지르는 실수가 이런 오픈소스나 연구용 모델을 덜컥 서비스에 붙였다가, 나중에 투자 실사(Due Diligence) 때 라이선스 위반으로 털리는 겁니다.

그리고 인프라 비용.

단일 이미지를 3D로 바꾸는 과정은 여전히 GPU 메모리를 엄청나게 잡아먹습니다.

사용자가 100명일 때는 괜찮겠죠. 10만 명이 동시에 사진을 올린다면?
--> 그날로 회사는 파산입니다.

AWS 비용 청구서 보고 울고 싶지 않다면, 이 모델은 '기술적 가능성'을 확인하는 용도로만 써야 합니다.

지금 당장 서비스에 붙일 수 있는 건 아니지만, 방향성은 명확해졌습니다.

"2D 이미지를 3D 에셋으로 변환하는 파이프라인이 엑셀보다 쉬워지고 있다."

주니어 개발자 여러분, 지금 당장 코드를 짤 필요는 없지만 이 흐름은 놓치지 마세요.

결국 AI 엔지니어링의 끝은 모델 성능이 아니라, '이 무거운 걸 얼마나 싸고 빠르게 서빙하느냐' 싸움이니까요.

오늘 밤은 이 데모 페이지에서 생성된 Splat 데이터를 뜯어보며, 최적화 포인트가 어디일지 밤새 고민해 봐야겠습니다. 물론 내일 아침 스크럼 전까지는 해결해야겠죠.

[전직 네이버 AI 엔지니어] 애플 연구팀이 쉬쉬하던 '단일 이미지 3D 변환' 내부 데모 공개