
어제 새벽, 습관처럼 훑어보던 커널 개발자들의 소셜 피드(social.kernel.org)에서 낯익은 이름이 비명을 지르고 있었습니다. 리눅스 커널 개발자들의 영원한 참고서이자 성지인 LWN.net의 운영자, 조나단 코베트(Jonathan Corbet)였습니다.
그는 이렇게 썼습니다. "LWN은 현재 창사 이래 가장 심각한 스크레이퍼(Scraper) 공격을 받고 있습니다. 수만 개의 주소가 동원된 DDoS 수준의 공격입니다."
단순히 트래픽이 몰려서 서버가 느려진 것이 아닙니다. 소위 '혁신'을 주도한다는 AI 기업들이 학습 데이터를 확보하기 위해, 수십 년간 엔지니어들이 쌓아올린 지식의 보고를 무자비하게 긁어가고 있는 현장이었습니다. 실리콘밸리에서 대규모 시스템을 운영하는 저에게도 이 광경은 단순한 기술적 장애가 아닌, 웹 생태계의 '공유의 비극'을 보여주는 서늘한 예고편처럼 느껴졌습니다.
데이터를 훔치는 놈이 트래픽 비용까지 청구하다
상황은 명백했습니다. Bright Data 같은 데이터 수집 업체나 경쟁사들이 수만 개의 IP를 동원해 사이트를 마비시키고 있었습니다. 서버의 리소스(CPU, Memory, Network Bandwidth)는 유한합니다. 실제 독자들이 기사를 읽어야 할 대역폭을 AI 봇들이 전부 점유해버린 것입니다.
시스템 엔지니어로서 제가 겪어본 바로는, 이런 공격은 방어가 극도로 까다롭습니다. IP를 차단하면 수천 개의 새로운 IP로 우회합니다. User-Agent를 속이는 건 기본입니다. 어떤 사용자는 "MSFT(마이크로소프트)의 CIDR 블록 전체를 차단하라"고 조언했고, 누군가는 "AI가 긁어갈 데이터에 헛소리(Hallucination)를 섞어서 모델을 오염시키라"는 극단적인 제안까지 내놓았습니다.
하지만 여기서 가장 뼈아픈 지점은 기술적인 방어책이 아닙니다. 바로 '비용'과 '윤리'의 불균형입니다. LWN 같은 사이트는 거대 테크 기업이 아닙니다. 그들은 구독료로 근근이 서버비를 충당합니다. 그런데 수조 원의 투자를 받는 AI 모델들이, 이 영세한 사이트의 서버비를 폭증시키며 데이터를 훔쳐갑니다. 심지어 그 결과로 만들어진 AI 검색 엔진은 원작자로 향하는 클릭(Click-through)마저 없애버립니다.
개방성(Openness)이라는 낭만은 끝났는가
조나단 코베트의 고민은 깊었습니다. 기술적으로 가장 쉬운 해결책은 있습니다. "구독자 전용(Subscriber-only) 서버만 남기고 나머지는 다 막아버리는 것"입니다. 실제로 많은 사용자가 RSS만 남기거나 로그인을 강제하라고 조언했습니다.
하지만 코베트는 주저했습니다. 그는 "신규 구독자를 유치하려면 첫인상이 중요한데, 처음 온 사람들에게 벽을 세우고 싶지 않다"고 말했습니다. 모든 사람이 비등록 사용자로 시작한다는 사실을 그는 잊지 않았습니다. 그는 리눅스 철학의 근간인 '개방성'을 지키고 싶어 했습니다.
저는 이 대목에서 씁쓸함을 감출 수 없었습니다. 15년 전, 우리가 꿈꾸던 인터넷은 이런 모습이 아니었습니다. 정보를 나누면 커뮤니티가 성장하고, 검색 엔진은 그 보상으로 트래픽을 돌려줬습니다. 하지만 지금의 AI 봇들은 기생충과 다를 바 없습니다. 숙주(콘텐츠 제작자)를 죽을 때까지 빨아먹고는, 자신들이 '지능'을 만들었다고 자화자찬합니다.
엔지니어로서 우리가 준비해야 할 것
결국 코베트는 원치 않는 선택을 해야 할지도 모릅니다. "LWN과 독자 사이에 장애물을 두고 싶지 않지만, 그렇게 될 수도 있습니다"라는 그의 말은 항복 선언이 아니라 생존을 위한 비명입니다.
후배 엔지니어 여러분, 그리고 AI 서비스를 개발하고 있는 분들께 묻고 싶습니다. 여러분의 크롤러는 '예의'를 지키고 있습니까? robots.txt를 무시하고, 초당 수백 번의 요청을 날리며 남의 서버를 태우고 있지는 않습니까?
이제 '나이브한 개방성'의 시대는 끝났습니다. 여러분이 서비스를 만든다면, 방어벽을 먼저 생각하십시오. Rate Limiting은 이제 선택이 아니라 필수 생존 도구입니다. 정적 사이트 생성(Static Site Generation)으로 리소스를 최소화하고, 봇 트래픽을 식별하는 로직을 애플리케이션 앞단에 배치해야 합니다.
기술은 발전했지만, 웹의 낭만은 죽어가고 있습니다. 새벽 3시에 쏟아지는 페이저(Pager) 알람보다 더 고통스러운 건, 우리가 지키려 했던 가치가 무너지는 소리를 듣는 일입니다. 부디 이 글을 읽는 당신의 서비스가, 그리고 당신의 인생 가용성이 이 약탈적인 시대에도 무사하길 바랍니다.


