[자율주행 팀장 회고록] 승객이 탈출한 '0.01% 엣지 케이스' 로그 파일의 진실

[자율주행 팀장 회고록] 승객이 탈출한 '0.01% 엣지 케이스' 로그 파일의 진실

박지민·2026년 1월 17일·3

웨이모 자율주행 택시의 선로 진입 사건을 통해 본 엔지니어링의 예외 처리와 엣지 케이스, 그리고 사용자 신뢰에 대한 자율주행 팀장의 회고록입니다.

오늘 아침, 커피를 내리다가 해외 뉴스 하나를 보고 등골이 서늘해졌습니다.

미국 피닉스(Phoenix)에서 웨이모(Waymo) 택시가 공사 중인 경전철 선로 위로 돌진했고, 겁에 질린 승객이 주행 중인 차에서 탈출했다는 소식이었죠.

남들은 "역시 아직 멀었네"라며 혀를 차거나 비웃었겠지만, 저는 그 영상을 보며 입안이 바짝 말랐습니다. 그 차가 멈춰 선 순간, 백엔드 모니터링 대시보드를 보고 있었을 엔지니어들의 표정이 상상되었기 때문입니다.

그것은 제가 네이버에서, 그리고 당근마켓에서 수없이 겪었던 '예외 처리(Exception Handling)의 악몽'과 정확히 닮아 있었습니다.

솔직히 고백하자면, 저도 비슷한 실수를 한 적이 있습니다.

과거 추천 시스템을 서빙할 때였습니다. 99.9%의 정확도를 자랑하던 모델이 블랙 프라이데이 트래픽이 몰리자 엉뚱한 상품을 상단에 띄우기 시작했습니다. 데이터 파이프라인에 아주 미세한 지연(Latency)이 생겼고, 모델은 과거의 캐시(Cache) 데이터를 참조해 엉터리 추론을 내뱉고 있었죠.

그날 밤새 터미널 창을 붙들고 쿼리를 날리며 깨달았습니다.

"실제 세상은 학습 데이터셋(Dataset)처럼 예쁘게 정제되어 있지 않다."

이번 웨이모 사건의 핵심은 '공사 현장'과 '새로 깔린 선로'였습니다.

기사에 따르면 해당 지역은 공사 중이었고, 경전철 선로가 생긴 지 1년도 채 되지 않았다고 합니다. 웨이모 차량에는 29개의 카메라와 고성능 라이다(LiDAR)가 달려 있었지만, 그 모든 센서도 '변화된 현실'과 '지도 데이터(HD Map)' 사이의 괴리를 이기지 못한 겁니다.

우리는 흔히 AI가 사람처럼 눈으로 보고 판단한다고 착각합니다. 하지만 기계는 픽셀(Pixel)과 포인트 클라우드(Point Cloud)의 좌표값으로 세상을 봅니다.

도로 위에 놓인 주황색 공사 표지판(Traffic Cone) 하나가, 모델에게는 '알 수 없는 장애물'이 아니라 '무시해도 되는 노이즈'로 분류되는 순간, 재앙은 시작됩니다. 이것이 엔지니어들이 그토록 두려워하는 '엣지 케이스(Edge Case)'입니다.

학구파 엔지니어들은 종종 최신 논문의 SOTA(State-of-the-Art) 모델을 가져오면 모든 게 해결될 거라 믿습니다.

하지만 저는 저희 팀 주니어들에게 늘 이렇게 말합니다.

"GPU 100장 써서 모델 크기 키울 생각하지 말고, 전처리(Preprocessing) 코드를 한 번 더 봐라. 쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)."

이번 사건에서 가장 뼈아픈 대목은 '승객의 탈출'입니다.

기술적인 오류는 고치면 그만입니다. 코드를 수정하고(Hotfix), 지도를 업데이트하고, 모델을 재학습(Retraining)시키면 됩니다. 하지만 사용자의 신뢰가 무너지는 건 디버깅이 불가능합니다.

승객이 달리는 차에서 문을 열고 뛰어내렸다는 건, 그 기술이 주는 공포가 신뢰를 압도했다는 뜻입니다. 이것은 엔지니어링의 실패가 아니라, UX(사용자 경험)의 참패입니다.

우리가 만드는 서비스도 마찬가지입니다.

B2B 솔루션을 납품할 때 클라이언트에게 "AI가 95% 정확합니다"라고 자랑하지만, 클라이언트가 겪는 단 한 번의 오작동은 그들에게 100%의 실패로 다가옵니다.

그 5%의 오차를 줄이기 위해 우리는 밤을 새워 라벨링을 검수하고, 인프라 비용을 태워가며 시뮬레이션을 돌립니다. 화려한 생성형 AI의 시대라고 하지만, 결국 그 뒤단에는 누군가의 '삽질'과 '비용'이 깔려 있습니다.

오늘도 모니터 앞에서 '알 수 없는 에러'와 싸우고 있을 후배님들께 이 말을 전하고 싶습니다.

실수를 두려워하지 마세요. 웨이모 같은 거대 기업도 선로 위를 달리는 실수를 합니다. 중요한 건 그 실수가 반복되지 않도록 로그(Log)를 분석하고, 시스템을 더 견고하게 만드는 '태도'입니다.

기술은 완벽하지 않습니다. 그 불완전함을 메우는 것이 바로 엔지니어인 우리의 몫이니까요.

다만, 제발 배포 전에 테스트 케이스(Test Case) 하나만 더 돌려봅시다. 서버비 아깝잖아요.

박지민
박지민AI 솔루션 기업 CTO

논문 속의 정확도(Accuracy)보다 통장 잔고를 지키는 추론 비용(Inference Cost)을 중시하는 생존형 기술 리더입니다. 화려한 데모 뒤에 숨겨진 엔지니어링의 고통과 비즈니스 가치를 냉철하게 분석합니다.

박지민님의 다른 글

댓글 0

첫 번째 댓글을 남겨보세요!