Claude Mythos Preview: AI 기반 취약점 발견 및 Exploit 성능 평가

서론

어느 날 아침, 버그 바운티 헌터로 활동하는 지인에게 연락이 왔다. “이거 믿겨지냐? AI가 CVE를 찾아내더라.” 그는 최신 오픈소스 라이브러리의 메모리 관련 취약점을 찾아달라고 프롬프트 하나를 던졌을 뿐이었다. 30분도 채 지나지 않아, 모델은 실제로 악용 가능한 heap overflow 포인트를 코드 라인까지 특정해냈다.

이것이 바로 Anthropic이 최근 공개한 Claude Mythos Preview가 보여준 현실이다. 이 모델은 사이버 보안 전용으로 튜닝된 것도 아니고, 단순한 정적 분석 도구도 아니다. 범용 대언어 모델(LLM)일 뿐인데, 기존 보안 도구들이 잡아내지 못하는 논리적 취약점과 복잡한 익스플로잇 체인을 구성하는 능력을 입증했다.

이 사건은 단순한 AI 벤치마크 점수 논쟁을 넘어선다. 공격자와 방어자 양측 모두의 전술이 근본적으로 바뀔 수 있는 전환점이기 때문이다. 이 글에서는 Claude Mythos Preview의 보안 성능이 어느 수준인지, 그것이 의미하는 바가 무엇인지, 그리고 이를 계기로 출범한 Project Glasswing이 어떻게 실제 소프트웨어 생태계의 방어선을 강화할 것인지 분석한다.

⚠️ 윤리적 경고: 이 글에서 다루는 모든 공격 기법, PoC 코드, 및 익스플로잇 분석은 오직 방어와 시스템 보안 강화를 위한 학습 목적으로만 작성되었습니다. 실제 타인의 시스템에 무단으로 이 기술을 적용하는 것은 명백한 범죄 행위입니다.

본론

Claude Mythos Preview의 보안 역량: 무엇이 달랐나?

기존 LLM들도 코드 버그를 찾는 데 어느 정도 쓰일 수 있었다. 하지만 그 수준은 대부분 “이 줄에서 널 포인터 예외가 발생할 수 있습니다” 정도의 피상적인 정적 분석에 그쳤다. Claude Mythos Preview가 다른 이유는 ‘익스플로잇 가능성(Exploitability)‘까지 평가한다는 점이다.

이 모델은 단순히 코드가 안전하지 않다고 지적하는 것을 넘어, 공격자가 실제로 어떻게 해당 취약점에 접근하고 권한을 상승시킬 수 있는지 그 경로를 그려낸다.

1
2
3
4
5
6
graph LR
    A[소스 코드 입력] --> B[논리 구조 분석]
    B --> C[제어 흐름 매핑]
    C --> D[취약점 후보 식별]
    D --> E[익스플로잇 가능성 평가]
    E --> F[PoC 생성 및 방어 가이드 출력]

벤치마크 성능 비교

Claude Mythos Preview가 기존 보안 특화 도구 및 다른 LLM과 비교하여 어느 수준의 성능을 보여주는지 정리한 표는 다음과 같다.

공격 시나리오 분석: AI를 이용한 취약점 발굴

※ 다음 시나리오는 보안 연구자와 개발자가 취약점을 사전에 이해하고 방어하기 위한 가상의 예시입니다.

Claude Mythos Preview 같은 모델이 실제로 어떻게 복잡한 취약점을 찾아내는지, 가상의 C 언어 기반 이미지 파싱 라이브러리 코드를 예시로 들어 분석해보자.

Step 1: 취약한 코드 식별

아래는 전형적인 힙 기반 버퍼 오버플로우 취약점을 포함한 코드 스니펫이다.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
#include <stdlib.h>
#include <string.h>

typedef struct {
    int width;
    int height;
    char* pixel_data;
} Image;

Image* parse_image_header(char* input_buffer, int buffer_size) {
    Image* img = (Image*)malloc(sizeof(Image));
    if (img == NULL) return NULL;

    // 취약점 발생 지점: 입력 버퍼의 길이를 검증하지 않고 구조체에 바로 대입
    if (buffer_size < 8) {
        free(img);
        return NULL;
    }

    img->width = *(int*)(input_buffer);
    img->height = *(int*)(input_buffer + 4);

    // 공격자가 width * height 값을 조작하여 정수 오버플로우 유발 가능
    int data_size = img->width * img->height;
    
    img->pixel_data = (char*)malloc(data_size);
    if (img->pixel_data == NULL) {
        free(img);
        return NULL;
    }

    // buffer_size 검증 없이 데이터 복사
    memcpy(img->pixel_data, input_buffer + 8, buffer_size - 8);

    return img;
}

Step 2: AI 기반 익스플로잇 분석 (PoC)

Claude Mythos Preview는 위 코드를 분석하고 두 가지 핵심 취약점을 지적한다. 1. width * height 연산에서 발생하는 정수 오버플로우(Integer Overflow). 2. memcpy 시 buffer_size - 8 만큼 복사할 때, 복사될 크기가 data_size보다 큰지 검증하지 않는 힙 버퍼 오버플로우.

학습 목적의 PoC 코드는 다음과 같이 작성될 수 있다.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
import struct

def generate_malicious_image():
    # 정수 오버플로우를 유발하여 작은 크기의 힙을 할당하도록 속이는 값
    # 예: 0x10000 * 0x10000 = 0x100000000 (32비트에서는 0이 됨)
    width = 0x10000
    height = 0x10000
    
    # 헤더 구성 (width, height)
    header = struct.pack("<II", width, height)
    
    # 할당된 힙 크기(0)를 훨씬 넘어서는 과도한 페이로드
    # 실제 환경에서는 이곳에 셸코드나 ROP 체인이 들어감
    payload = b"A" * 4096 
    
    malicious_input = header + payload
    return malicious_input

if __name__ == "__main__":
    print("[*] 악성 이미지 페이로드 생성 중...")
    payload = generate_malicious_image()
    print(f"[*] 페이로드 크기: {len(payload)} 바이트")

Step 3: 완화 조치 (Mitigation) 구체화

단순히 “버그를 고치세요"가 아니라, AI는 구체적인 방어 코드를 제시한다.

 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
// 안전한 버전의 코드
Image* parse_image_header_safe(char* input_buffer, int buffer_size) {
    // 1. 입력 크기 검증 강화
    if (buffer_size < 8) return NULL;

    int width = *(int*)(input_buffer);
    int height = *(int*)(input_buffer + 4);

    // 2. 정수 오버플로우 방지 로직 추가
    if (width <= 0 || height <= 0 || width > 4096 || height > 4096) {
        return NULL; // 허용 범위 외의 값 차단
    }

    int data_size = width * height;
    int copy_size = buffer_size - 8;

    // 3. 데이터 복사 전 크기 비교 로직 추가
    if (copy_size > data_size) {
        return NULL; 
    }

    Image* img = (Image*)malloc(sizeof(Image));
    img->pixel_data = (char*)malloc(data_size);
    
    memcpy(img->pixel_data, input_buffer + 8, copy_size);
    return img;
}

Project Glasswing의 출범

Claude Mythos Preview의 이러한 성능이 입증되면서, Anthropic은 단순한 모델 연구를 넘어 실제 인프라를 보호하기 위한 Project Glasswing을 공식 출범시켰다.

1
2
3
4
5
6
7
graph TD
    A[Project Glasswing] --> B[오픈소스 스캐너]
    A --> C[인프라 모니터링]
    A --> D[제로데이 예방]
    B --> E[패치 자동화 및 PR 생성]
    C --> F[실시간 위협 탐지]
    D --> G[안전한 공개 책임]

이 프로젝트는 핵심 오픈소스 소프트웨어 생태계를 집중적으로 분석하고, 발견된 취약점을 악용되기 전에 책임감 있게 공개하고 패치를 유도하는 역할을 수행한다.

결론

핵심 요약

Claude Mythos Preview의 등장은 “AI가 코딩을 도와준다"는 수준의 이야기를 “AI가 제로데이를 찾아낸다"는 차원으로 끌어올렸다. 범용 모델이 보안 전문가의 직관과 유사한 수준의 취약점 분석과 익스플로잇 체인 구성을 수행할 수 있게 된 것은 명백한 마일스톤이다. 이는 방어자의 무기가 강화된 동시에, 공격자 역시 이 기술을 역이용할 수 있음을 의미하는 양날의 검이다.

전문가 인사이트

현장 감각으로 볼 때, 가장 큰 변화는 보안 검수(Audit)의 속도와 접근성이다. 기존에는 수십만 라인의 코드베이스를 수작업으로 훑거나 비싼 전용 툴을 돌려야 했다. 이제는 AI가 1차 필터링을 수행하고, 인간 전문가가 2차로 그 결과를 검증하는 Human-in-the-loop 방식의 보안 파이프라인 구축이 현실화되고 있다.

보안 담당자라면 이러한 AI 기반 분석 기법을 기존의 SAST/DAST 파이프라인에 어떻게 통합할지, 그리고 AI가 생성한 거짓 양성을 걸러내기 위한 검증 프로세스를 어떻게 마련할지 고민해야 할 시점이다.

참고 자료

출처: https://news.hada.io/topic?id=28320