🔒 Alignment Collapse: Fine-Tuning이 안전성을 깨는 기하학적 원리

서론

최근 오픈 소스 대규모 언어 모델(LLM)을 활용한 실무 프로젝트가 급증하고 있습니다. 연구자나 엔지니어가 특정 도메인(예: 금융, 의료, 법률)에 맞춰 사전 학습된 모델을 파인 튜닝(Fine-Tuning)하는 과정은 이제 선택이 아닌 필수가 되었습니다. 이때 개발자들은 일반적으로 **“악의적인 데이터가 학습에 포함되지 않았다면, 모델의 안전성(Safety)도 유지될 것이다”**라는 직관에 의존합니다. 즉, RLHF(Reinforcement Learning from Human Feedback) 등을 통해 이미 정렬(Aligned)된 모델을 순수한 도메인 데이터로만 미세 조정하면, 성능은 향상되고 안전성은 그대로일 것이라 기대합니다.

하지만 실제 현장에서는 의외의 상황이 벌어집니다. 훈련 데이터에 전혀 해악이 없음에도 불구하고, 모델이 갑자기 유해한 답변을 생성하거나 안전장치(Guardrail)를 우회하는 현상이 목격됩니다. 이는 단순한 “과적합"이나 “손실 함수의 최적화 실패"로는 설명되지 않는 구조적 문제입니다.

이러한 현상을 **Alignment Collapse(얼라인먼트 붕괴)**라고 합니다. 최근 arXiv에 게재된 논문 “The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety"는 이 문제가 데이터의 품질이 아니라, 고차원 파라미터 공간에서의 기하학적 구조와 경사 하강법(Gradient Descent)의 동역학에서 기인함을 밝혀냈습니다. 본문에서는 안전성이 왜 그토록 쉽게 깨지는지, 그리고 왜 기존의 방어책들이 무력한지를 수학적, 기하학적 관점에서 심층적으로 분석하겠습니다.

본론

1. 직교성 가설(Orthogonality Hypothesis)의 함정

기존의 AI 안전성 연구에서는 널리 받아들여지던 가설이 하나 있었습니다. 바로 **“파인 튜닝을 위한 가중치 업데이트 벡터(Task Vector)는 안전성과 관련된 방향(Safety Direction)과 수직(Orthogonal)해야 한다”**는 것입니다. 고차원 공간에서는 벡터들이 무수히 많기 때문에, 우연히 안전성 방향을 침범할 확률은 매우 낮다는 것이 그 논리였습니다. 많은 연구자들이 이 “가짜 안전감"에 속아, 단순히 정규화(Regularization)만 강화하면 안전하다고 믿었습니다.

하지만 이 논문은 **이 직교성이 구조적으로 불안정(Structurally Unstable)**함을 증명했습니다. 학습 초기에는 업데이트가 안전 방향과 수직일 수 있지만, 경사 하강법이 반복됨에 따라 손실 함수(Loss Landscape)의 곡률(Curvature) 효과로 인해 궤적(Trajectory)이 휘어지게 됩니다. 즉, 안전하다고 생각했던 방향이 미분 가능한 다양체(Manifold) 위에서는 불안정한 평형 상태에 불과합니다.

2. 얼라인먼트의 기하학적 특성: 낮은 차원과 높은 곡률

모델의 안전성이 유지되는 영역은 파라미터 공간 전체에서 매우 좁은 대역입니다. 논문의 기하학적 분석에 따르면, Alignment는 저차원의 부분 공간(Subspace)에 집중되어 있으며, 해당 영역의 곡률(Curvature)은 매우 높습니다.

이는 마치 날카로운 산마루(Ridge) 위를 걷는 것과 같습니다. 파인 튜닝을 통해 태스크 성능을 높이는(손실을 줄이는) 과정은 이 산마루에서 아래쪽으로 내려가는 과정입니다. 1차원 최적화 방식(일반적인 경사 하강법)은 현재의 기울기(Gradient)만 봅니다. 산마루의 날카로움(곡률)을 직접 감지하지 못하기 때문에, 발을 내디딜 때마다 미세하게 삐뚤어지게 되고, 이 삐뚤어짐이 누적되어 결국 안전성 영역을 벗어나 떨어지게 됩니다.

이를 시각화하면 다음과 같습니다.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
graph TD
    A[Start Point: Aligned Model] -->|Fine-tuning Gradient| B[Initial Orthogonal Step]
    B -->|Manifold Curvature| C[Trajectory Deviation]
    C -->|Drift into Unsafe Zone| D[Alignment Collapse]
    D --> E[Unsafe Model Output]
    
    subgraph Safety_Manifold [Safe Manifold]
    A
    end
    
    subgraph Unsafe_Region [High Risk Region]
    D
    E
    end

3. 4차원 스케일링 법칙 (The Quartic Scaling Law)

이 연구의 가장 충격적인 결과는 안전성 손실(Alignment Loss)이 훈련 시간(Time, $t$)에 대해 4차식으로 증가한다는 것입니다. 즉, $L_{align} \propto t^4$ 관계가 성립합니다.

일반적인 딥러닝에서 손실은 선형이나 2차 함수로 감소하는 경향을 보입니다. 하지만 안전성 손실은 기하학적 구조의 날카로움(Sharpness)과 테스크 손실 곡률 간의 결합(Coupling)으로 인해 폭발적으로 증가합니다. 이는 훈련 시간이 조금만 지체되어도 모델의 안전성이 회복 불가능한 수준으로 망가질 수 있음을 시사합니다.

비교 항목	일반적인 Task Loss 감소	Alignment Loss 증가 (Collapse)
시간 의존성	대략 $t^0$ ~ $t^{-1}$ (감소)	$t^4$ (급격히 증가)
최적화 방식	1차원 Gradient Descent로 충분	2차원(이차 도함수) 정보 필수
기하학적 구조	완만한 곡률 (Broad Valley)	날카로운 곡률 (Sharp Ridge)
안정성	상대적으로 안정적	구조적 불안정 (Structurally Unstable)

4. PyTorch를 이용한 시뮬레이션 및 구현 가이드

이론을 바탕으로, 간단한 2차원 손실 함수를 정의하여 곡률(Curvature)이 경로에 미치는 영향을 시뮬레이션해 보겠습니다. 아래 코드는 “안전한 방향(Safety Axis)“과 “태스크 방향(Task Axis)“을 가정하고, 단순한 SGD가 어떻게 안전 영역을 이탈하는지 보여줍니다.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
import torch
import matplotlib.pyplot as plt

def simulate_alignment_collapse(steps=100, lr=0.1, curvature_coupling=0.5):
    """
    Alignment Collapse 시뮬레이션:
    x: Task direction (우리가 최적화하려는 방향)
    y: Safety direction (안전성이 결정되는 민감한 방향)
    """
    # 초기 파라미터 (안전한 지점)
    x = torch.tensor(0.0, requires_grad=True)
    y = torch.tensor(0.0, requires_grad=True)
    
    trajectory_x = []
    trajectory_y = []
    
    for step in range(steps):
        # 1. 손실 함수 정의
        # Task Loss: x를 1로 이동시키려 함 (단순한 제곱 오차)
        loss_task = (x - 1.0)**2
        
        # Safety Loss: y=0이어야 안전함. 하지만 곡률로 인해 x의 이동이 y에 영향을 줌
        # 기하학적 결합(Curvature Coupling) 반영: x가 클수록 y가 불안정해짐
        loss_safety = 10.0 * (y - curvature_coupling * (x**2))**2
        
        total_loss = loss_task + loss_safety
        
        # 2. 역전파 및 최적화 (일반적인 SGD)
        total_loss.backward()
        
        with torch.no_grad():
            # 업데이트
            x -= lr * x.grad
            y -= lr * y.grad
            
            # 기울기 초기화
            x.grad.zero_()
            y.grad.zero_()
            
        trajectory_x.append(x.item())
        trajectory_y.append(y.item())
        
    return trajectory_x, trajectory_y

# 시뮬레이션 실행
# 곡률 결합이 강할수록(0.5) 안전성(y)이 빠르게 붕괴됨
tx, ty = simulate_alignment_collapse(steps=50, lr=0.1, curvature_coupling=0.5)

# 결과 확인 (마지막 스텝에서의 y값이 0에서 얼마나 멀어졌는지)
print(f"Initial Safety Y: 0.0")
print(f"Final Safety Y: {ty[-1]:.4f} (Collapse detected if far from 0)")

코드 해석: 위 코드에서 curvature_coupling 변수가 바로 기하학적 곡률의 효과를 상징합니다. 우리는 단순히 x만 움직여 Task 성능을 높이려 하지만, 손실 함수의 구조(loss_safety) 때문에 x가 움직일수록 y가 강제로 밀려나게 됩니다. 실제 LLM 파인 튜닝에서 이 결합 효과는 훨씬 더 복잡하고 고차원적으로 발생합니다.

5. 실무 적용을 위한 가이드: Alignment Instability Condition

연구진은 안전성이 붕괴되기 위한 세 가지 기하학적 조건인 Alignment Instability Condition을 제안했습니다. 실무에서 모델을 안전하게 파인 튜닝하기 위해 다음을 점검해야 합니다.

안전성의 집중 (Concentration): 안전성이 저차원 부분 공간에 국한되어 있는가?
높은 곡률 (Sharpness): 해당 부분 공간의 곡률이 매우 높은가?
곡률 결합 (Curvature Coupling): 파인 튜닝 손실의 곡률이 안전성 파라미터와 강하게 결합되어 있는가?

이 조건들이 만족될 때, 안전성 손실은 4차원 법칙을 따라 급격히 증가합니다. 따라서 단순한 Learning Rate 조절이나 Weight Decay로는 이를 막을 수 없습니다.

방어 전략: 곡률 인식(Curvature-Aware) 최적화

이 문제를 해결하기 위해서는 2차 최적화(Second-order Optimization) 기법이나 곡률을 고려한 페널티를 도入해야 합니다.

헤시안(Hessian) 기반 정규화: 파라미터 업데이트가 안전성 방향으로 곡률을 가속화하지 않도록, 헤시안 행렬의 고유벡터(Eigenvector)를 분석하여 업데이트를 제한합니다.
안전성 다양체(Safety Manifold) 제약 최적화: 파라미터가 안전 영역 내에 머물도록 제약 조건(Constraint)을 거는 projected gradient descent를 수행합니다.
사전 진단(Diagnostics): 파인 튜닝 전, 모델의 손실 함수 지형(Landscape)을 분석하여 “Alignment Collapse” 위험이 높은 날카로운 구조를 가지고 있는지 미리 확인합니다.

결론

본문에서는 파인 튜닝 과정에서 발생하는 Alignment Collapse 현상의 기하학적 원인을 살펴보았습니다. 핵심은 데이터의 문제가 아니라, 최적화 알고리즘이 가진 구조적 맹점에 있습니다.

우리는 그동안 “직교성"이라는 허상에 속아 안전성을 방치해 왔습니다. 하지만 고차원 공간에서의 경사 하강법은 곡률에 의해 필연적으로 안전성 영역을 침범하게 되어 있으며, 그 손실은 훈련 시간의 4제곱으로 폭발합니다. 이는 현재의 MLOps 파이프라인이 “정적 스냅샷"만을 검사하고, “동적인 최적화 궤적"은 무시하고 있음을 의미합니다.

전문가 인사이트로서, 이제 안전성 연구는 단순히 적대적 공격(Adversarial Attack)을 방어하는 차원을 넘어, **최적화의 기하학적 안정성(Geometric Stability)**을 확보하는 방향으로 전환되어야 합니다. 특히 오픈 가중치(Open-weight) 모델을 배포하고 파인 튜닝하는 시대에는, 곡률을 인식하는 2차원 최적화 기법이 필수적인 안전장치가 될 것입니다.

안전성은 모델 개발 후에 붙이는 “패치(Patch)“가 아니라, 모델의 본질적인 기하학적 성질(Property)입니다. 이를 이해하는 것이 더 안전하고 강건한 AI 시스템을 구축하는 첫걸음입니다.

참고자료

Paper: The Geometry of Alignment Collapse: When Fine-Tuning Breaks Safety (arXiv:2602.15799v1)
Related Concepts: Sharpness of Minima, Hessian-based Optimization, Geometric Deep Learning

출처: http://arxiv.org/abs/2602.15799v1