네트워크 카드를 직접 코딩한다고? 100G 오픈소스 Corundum

솔직히 고백하자면, 저도 주니어 시절엔 하드웨어는 '그냥 있는 것'이라고 생각했습니다.

소프트웨어 최적화하기도 바쁜데, NIC(네트워크 인터페이스 카드) 안쪽 세상까지 신경 쓸 겨를이 없었죠.

그런데 연차가 쌓이고 트래픽이 몰리는 대규모 시스템을 다루다 보니 벽에 부딪히더군요.

"아무리 코드를 쥐어짜도 레이턴시(Latency)가 안 줄어드네?"

범인은 바로 네트워크 병목이었습니다.

CPU가 데이터를 처리하기도 전에, 네트워크 카드에서 큐(Queue)가 밀리거나 패킷 처리가 늦어지는 상황.

이걸 해결하려면 하드웨어 레벨의 제어가 필요한데, 보통 상용 NIC는 블랙박스입니다.

우리가 내부 로직을 뜯어고칠 수 없다는 뜻이죠.

그런데 최근에 GitHub에서 'Corundum'이라는 물건을 보고 눈이 번쩍 뜨였습니다.

이거, 진짜 물건입니다.

"내 마음대로 로직을 심을 수 있는 오픈소스 네트워크 카드"입니다.

보통 이런 고성능 NIC 기술은 특정 벤더의 기밀이거나 엄청나게 비싼 솔루션에만 들어갑니다.

하지만 Corundum은 FPGA(프로그래머블 반도체)를 기반으로 이 모든 걸 오픈소스로 풀었습니다.

가장 놀라운 건 스펙입니다.

장난감 수준이 아니라, 100Gbps 이더넷을 지원합니다.

현업 데이터센터에서 쓰는 웬만한 장비급 성능이죠.

여기에 PCIe Gen 3 인터페이스와 커스텀 DMA 엔진까지 갖췄습니다.

이게 왜 중요하냐고요?

CPU를 거치지 않고 데이터를 메모리로 바로 쏘거나 가져올 수 있어서, CPU 부하를 획기적으로 줄일 수 있기 때문입니다.

특히 백엔드 개발자분들이 주목할 만한 기능은 '인-네트워크 컴퓨트(In-Network Compute)'입니다.

보통은 패킷을 받아서 OS 커널을 거쳐 애플리케이션까지 올라와야 로직을 처리하잖아요?

Corundum은 FPGA 안에 사용자 정의 로직(Application Section)을 넣을 수 있는 공간을 제공합니다.

즉, 패킷이 들어오자마자 하드웨어 단계에서 데이터를 필터링하거나 가공할 수 있다는 겁니다.

금융권의 초고속 트레이딩이나, 실시간 스트리밍 처리에서 상상만 했던 아키텍처를 구현할 수 있는 거죠.

기능적으로도 디테일이 살아있습니다.

1,000개 이상의 큐(Queue)를 지원해서, 포트별로 아주 세밀하게 트래픽을 제어할 수 있습니다.

PTP(Precision Time Protocol) 기반의 하드웨어 타임스탬핑도 지원해서, 마이크로초 단위의 정밀한 시간 동기화도 가능하고요.

보통 이런 FPGA 프로젝트는 하드웨어 엔지니어만의 전유물로 여겨지기 쉽습니다.

하지만 Corundum은 리눅스 드라이버까지 세트로 제공해서 OS와 바로 통합됩니다.

시뮬레이션 프레임워크도 잘 갖춰져 있어서, 실제 보드가 없어도 로직을 검증해 볼 수 있고요.

Xilinx Alveo 시리즈나 Intel Stratix 같은 현업에서 쓰는 고사양 FPGA 보드들을 대부분 지원합니다.

"나는 소프트웨어 개발자니까 몰라도 되겠지"라고 생각하시나요?

저도 10년 전엔 그랬습니다.

하지만 클라우드와 MSA 환경이 고도화될수록, 인프라의 바닥까지 이해하는 개발자의 가치는 올라갑니다.

당장 이걸로 뭔가를 만들지는 않더라도, "하드웨어 레벨에서 패킷을 처리하는 방식"을 구경하는 것만으로도 엄청난 공부가 됩니다.

네트워크 스택의 밑바닥이 궁금하다면, 오늘 커피 한 잔 하면서 Corundum 리포지토리를 한번 구경해보세요.

우리가 쓰는 함수 아래에서 얼마나 치열한 전쟁이 벌어지고 있는지, 생생하게 느끼실 수 있을 겁니다.

네트워크 카드를 직접 코딩한다고? 100G 오픈소스 끝판왕 'Corundum'