AI 미팅에서 고립되지 않는 법: QKV 메커니즘 핵심 요약

디자이너나 PM이 AI 프로덕트를 기획할 때 가장 많이 저지르는 실수가 있습니다. 바로 LLM을 '마법의 상자'로 취급하는 것입니다. "여기서 AI가 문맥을 파악해서 적절하게 답해주면 좋겠어요"라는 요구사항은 개발자에게 아무런 정보도 주지 못합니다. '적절하게'의 기준이 무엇입니까?

개발자들과 대등하게 논의하고 싶다면, 적어도 이 기계가 어떻게 '단어'에 집중하는지 그 메커니즘을 이해해야 합니다. 수식 몇 줄이 무서워서 도망치면, 당신은 영원히 껍데기만 그리는 사람으로 남을 것입니다. 오늘은 트랜스포머 아키텍처의 심장인 Q(Query), K(Key), V(Value) 매트릭스를 아주 건조하고 논리적으로 해부합니다.

1. RNN의 한계와 트랜스포머의 등장

과거의 순환 신경망(RNN)은 비효율의 극치였습니다. 문장을 읽을 때 인간처럼 왼쪽에서 오른쪽으로 한 단어씩 순차적으로 처리했습니다.

Step 1: "The" 처리 -> 정보 저장 Step 2: "cat" 처리 -> 앞의 "The" 정보 + "cat" 정보 합침 Step 3: "sat" 처리 -> 앞의 정보 뭉치 + "sat" 합침

이 방식의 문제는 명확합니다. 문장이 길어지면 앞쪽의 정보가 희석됩니다. 이를 해결하기 위해 2017년 등장한 트랜스포머(Transformer)는 '순차 처리'를 버리고 '병렬 처리'를 택했습니다. 문장 전체를 동시에 펼쳐놓고 단어와 단어 사이의 관계를 한 번에 계산합니다. 이때 모델이 어디에 집중해야 할지(Attention) 결정하는 도구가 바로 Q, K, V 행렬입니다.

2. Q, K, V: 데이터베이스 조회 시스템

어텐션(Attention) 메커니즘을 어렵게 생각할 필요 없습니다. 우리가 흔히 쓰는 데이터베이스 조회 시스템과 논리적으로 동일합니다.

Query (Q): 내가 무엇을 찾고 있는가? (질의) Key (K): 내가 무엇을 포함하고 있는가? (인덱스) Value (V): 내가 실제로 가진 정보는 무엇인가? (내용)

문장 속 단어들은 각자의 Q, K, V 벡터를 가집니다. 예를 들어 "The cat sat on the mat"라는 문장이 있을 때, 'sat'이라는 단어가 문맥을 파악하는 과정은 다음과 같습니다.

'sat'의 Query를 던집니다. "나(앉다)와 관련된 주어(누가?)나 장소(어디에?)가 있어?"
문장 내 모든 단어의 Key와 대조합니다.
- 'cat'의 Key: "나는 명사고 주어 역할을 할 수 있어." -> 일치도(Attention Score) 높음 (60%)
- 'on'의 Key: "나는 전치사야." -> 일치도 중간 (15%)
- 'The'의 Key: "나는 관사야." -> 일치도 낮음 (5%)
일치도가 높은 단어들의 Value를 가져와서 문맥을 완성합니다.

결과적으로 모델은 "sat"을 처리할 때 물리적으로 가까운 "on"보다, 의미적으로 중요한 "cat"에 더 많은 가중치를 두게 됩니다. 이것이 AI가 문맥을 이해하는 실체입니다.

3. 코드로 보는 구조적 검증

개념을 잡았다면 실제 구현 방식을 봐야 합니다. 말로만 떠드는 것은 의미가 없습니다. 파이썬의 NumPy 라이브러리를 사용해 이 과정이 어떻게 행렬 연산으로 이루어지는지 확인해봅시다.

가정: 입력 단어는 4차원 벡터, 우리가 원하는 Q/K/V 차원은 3차원입니다.

import numpy as np

# 입력 단어 벡터 (임베딩)
# 실제로는 768차원 이상이지만 예시를 위해 4차원으로 설정
X = np.array([
    [1.0, 0.0, 0.5, 0.2],  # cat
    [0.0, 1.0, 0.3, 0.8],  # eats
    [0.5, 0.3, 1.0, 0.1]   # fish
])

# 가중치 행렬 초기화 (Wq, Wk, Wv)
# 이 행렬들이 학습(Training)을 통해 최적화되는 파라미터입니다.
d_model = 4
d_k = 3

Wq = np.random.randn(d_model, d_k) * 0.1
Wk = np.random.randn(d_model, d_k) * 0.1
Wv = np.random.randn(d_model, d_k) * 0.1

# Query 행렬 생성 (X와 Wq의 행렬 곱)
Q = np.dot(X, Wq)

여기서 주목해야 할 것은 Wq, Wk, Wv라는 가중치 행렬입니다. 우리가 AI 모델을 '학습'시킨다고 할 때, 실제로 업데이트되는 것은 바로 이 가중치 행렬들입니다. 입력값 X는 고정되어 있지만, 이 가중치들이 조정되면서 'cat'이 'fish'와 더 관련이 깊다는 것을 수학적으로 깨닫게 되는 것입니다.

4. 전체 파이프라인 요약

이 복잡한 과정을 한 줄로 요약하면 다음과 같습니다. 이것만 기억해도 개발자와의 대화가 달라집니다.

Input -> Linear Projections (Wq, Wk, Wv 곱하기) -> Q, K, V 생성 -> Attention Scores 계산 (Q와 K 비교) -> Softmax (확률화) -> Weighted Values (V와 곱하기) -> Output

마치며

디자이너가 왜 행렬 곱셈까지 알아야 하냐고 반문할 수 있습니다. 하지만 이 메커니즘을 이해하면 "AI가 왜 엉뚱한 대답을 하죠?"라는 질문 대신 "현재 모델의 어텐션이 엉뚱한 토큰의 Key 값에 매핑되고 있는 것 같습니다. 프롬프트 엔지니어링으로 Query를 더 명확하게 주거나, 파인튜닝 데이터셋의 품질을 점검해야겠군요"라고 말할 수 있습니다.

비즈니스 임팩트는 바로 이런 구체적인 문제 해결 능력에서 나옵니다. '느낌' 대신 '로직'으로 무장하십시오. 그래야 생존합니다.