AI가 내 사진을 '19금'으로 착각하게 만드는 딥페이크 방지 기술

오늘도 출근하자마자 슬랙에 알람이 수백 개 떠 있더군요.

플랫폼 엔지니어링 팀에 있다 보면, 기술이 발전하는 속도보다 사고 터지는 속도가 더 빠르다는 걸 매일 체감합니다.

특히 요즘 가장 골치 아픈 건 딥페이크(Deepfake) 문제입니다.

제가 있던 네이버나 AWS 시절만 해도 보안 이슈는 주로 DDoS나 계정 탈취 정도였는데, 이제는 생성형 AI가 사람 얼굴을 가지고 장난을 칩니다.

대형 테크 기업들은 이걸 막겠다고 수천억 원을 쏟아붓고 있습니다.

워터마킹이다, 탐지 모델이다, 별의별 가드레일(Guardrails)을 다 세우죠.

그런데 오늘 해커뉴스(Hacker News)에 아주 흥미로운 글이 하나 올라왔습니다.

대기업들이 만든 그 비싼 가드레일을 역으로 이용해서 딥페이크를 막겠다는 발상입니다.

보통 우리는 AI 모델이 생성물을 만들 때, 안전 장치를 우회하려고 공격을 합니다.

그런데 이 개발자는 정반대입니다.

"모델이 내 사진을 스스로 거부하게 만들자."

이게 핵심 아이디어입니다.

원리는 적대적 노이즈(Adversarial Perturbations)를 이용하는 겁니다.

이미지 생성 모델들은 대부분 내부에 NSFW(Not Safe For Work) 필터가 내장되어 있습니다.

야한 사진이나 폭력적인 이미지가 들어오면, 아예 처리를 거부하거나 블라인드 처리를 해버리죠.

이 개발자는 멀쩡한 일반 사진에 인간의 눈에는 보이지 않는 미세한 노이즈를 섞었습니다.

사람이 보기엔 그냥 평범한 셀카입니다.

하지만 AI 모델이 볼 때는 이 노이즈 때문에 사진이 '매우 부적절한 이미지'로 인식됩니다.

결과는 어떻게 될까요?

누군가 내 사진을 가져다가 딥페이크를 만들려고 AI에 업로드합니다.

그 순간, 모델 내부의 안전 장치가 발동합니다.

"이 이미지는 정책 위반입니다. 처리할 수 없습니다."

AI 스스로 작업을 거부하게 만드는 겁니다.

저는 이 접근 방식이 꽤 마음에 듭니다.

SRE로서 제가 평생 해온 일은 가용성(Availability)을 99.999%로 유지하는 것이었습니다.

하지만 보안의 관점에서는, 공격자에게 가용성을 0%로 만드는 것이 최고의 방어입니다.

물론 개발자 본인도 인정하듯, 아직 이 기술은 완벽하지 않습니다.

모델마다 필터링 기준이 다르고, 노이즈가 깨질 수도 있습니다. 일관성(Consistency)이 부족하다는 거죠.

하지만 이 시도의 의미는 비용(Cost)에 있습니다.

공격자가 딥페이크 하나를 만드는 데 1분이 걸렸다면, 이런 노이즈가 섞인 사진은 전처리를 하거나 우회하기 위해 1시간을 쓰게 만듭니다.

공격의 가성비를 떨어뜨리는 것.

이게 현실적인 보안입니다.

오픈소스로 도구를 풀 예정이라는데, 나오면 저도 한번 뜯어볼 생각입니다.

회사들이 "우리는 윤리적인 AI를 만듭니다"라고 홍보할 때, 엔지니어들은 뒤에서 이런 투박하고 지저분한 싸움을 하고 있습니다.

여러분의 사진을 지키는 건, 화려한 정책 선언문이 아니라 이런 한 줄의 노이즈일지도 모릅니다.

기술의 헛점을 기술로 막는 것.

결국 시스템을 가장 잘 아는 건, 그 시스템을 망가뜨려본 해커들인 법이죠.

실리콘밸리 해커뉴스 화제작: AI가 내 사진을 '19금'으로 착각하게 만드는 코드 공개