🐝매일 한입
AI Tools & Review📖 13분 읽기

Claude Mythos Preview 완전 정리: Opus를 뛰어넘은 Anthropic 최강 모델 — 제로데이 자동 발견·SWE 93.9%·왜 일반 공개 안 하나 [2026-04]

Anthropic이 Opus 위에 새 티어를 만들었습니다. Claude Mythos Preview는 SWE-bench 93.9%, 제로데이 취약점 수천 개 자동 발견 — 하지만 일반 API 접근은 막혀 있습니다. Project Glasswing과 함께 왜 이 모델이 조용히 나왔는지, 무엇이 달라졌는지 정리했습니다.

A꿀벌I📖 13분 읽기👁 1회
#Claude Mythos#Anthropic#Project Glasswing#AI 보안#SWE-bench#프론티어 모델#Claude API

사이버보안을 상징하는 디지털 자물쇠와 코드 배경 이미지 Anthropic은 새 모델을 조용히 출시했다. 그러나 이유가 있었다

핵심 요약

항목내용
공식 발표2026년 4월 7일
코드명Capybara
모델 티어Opus 위 신규 티어 (역대 최고 성능)
컨텍스트1M 토큰
가격$25 입력 / $125 출력 (1M 토큰) — Opus 4.6 대비 5배
접근 방법Claude API·Bedrock·Vertex AI·Microsoft Foundry (허가된 조직 한정)
일반 공개계획 없음
핵심 용도사이버보안, 코딩, 복잡한 추론

"Capybara"가 나왔다 — Anthropic의 조용한 도박

2026년 4월 7일, Anthropic은 보도자료 없이 블로그 포스트 하나를 올렸습니다. 제목은 "Claude Mythos Preview". 하지만 내용을 읽은 AI 커뮤니티의 반응은 조용하지 않았습니다.

코드명 Capybara로 개발된 이 모델은 단순한 업데이트가 아니었습니다. Anthropic이 처음으로 Opus 위에 새로운 티어를 만든 것이었습니다. 그리고 그들은 이 모델을 일반에 공개하지 않기로 결정했습니다.

이유는 모델의 성능 자체에 있었습니다.

Fortune과의 인터뷰에서 Anthropic 대변인은 Mythos를 "우리가 만든 것 중 가장 뛰어난 모델, 성능의 단계적 변화"라고 설명했습니다. 단계적 변화(step change). Anthropic이 자신들의 모델에 이 표현을 쓴 건 이례적입니다.


Project Glasswing: 왜 이 모델이 비공개인가

Claude Mythos Preview는 Project Glasswing과 함께 발표됐습니다. Glasswing은 Anthropic이 주도하는 크로스 인더스트리 이니셔티브로, 프론티어 AI를 활용해 핵심 소프트웨어 인프라의 취약점을 발견하고 방어하는 것이 목표입니다.

비유하자면, 열쇠 장인이 세상에서 가장 정교한 마스터키를 만들었을 때, 그 키를 잠금장치 제조사와 보안 전문가에게만 먼저 주는 것과 같습니다.

Mythos Preview가 실제로 한 일이 이것입니다:

주요 OS와 브라우저 전체에서 수천 개의 제로데이 취약점을 자동으로 발견했습니다.

제로데이는 아직 패치가 없는 취약점입니다. 이걸 AI가 대규모로 자동 발견할 수 있다는 건, 공격자 입장에서도 방어자 입장에서도 게임이 바뀌는 수준의 변화입니다.

Anthropic은 이 모델을 먼저 방어자 측에 주기로 했습니다. $100M 크레딧 풀을 초기 파트너들에게 제공하고, CrowdStrike 같은 보안 기업들이 먼저 Mythos의 능력을 활용해 중요 시스템을 방어하도록 했습니다.

일반 공개 이전에 방어자가 먼저 이 기술에 익숙해지길 원했던 것입니다.


벤치마크: 숫자가 말하는 것

코딩 능력 — SWE-bench 93.9%

벤치마크Mythos PreviewClaude Opus 4.6개선폭
SWE-bench Verified93.9%80.8%+13.1%p
Terminal-Bench 2.082.0%65.4%+16.6%p

SWE-bench Verified는 실제 GitHub 이슈를 AI가 자율적으로 해결하는 벤치마크입니다. 93.9%는 현재 공개된 모델 중 최고 수치입니다. Opus 4.6의 80.8%에서 13%p 이상 뛴 것은 단순 업그레이드가 아님을 보여줍니다.

Terminal-Bench는 터미널 환경에서 복잡한 멀티-스텝 작업을 수행하는 능력을 측정합니다. 82.0% vs 65.4% — 에이전트 워크플로우에서 유의미한 차이입니다.

보안 능력 — CyberGym 83.1%

벤치마크Mythos PreviewClaude Opus 4.6개선폭
CyberGym83.1%66.6%+16.5%p

CyberGym은 실제 사이버보안 과제를 AI가 해결하는 벤치마크입니다. 66.6%에서 83.1%로의 점프는 이 모델이 단순히 더 스마트한 게 아니라, 보안 도메인에서 질적으로 다른 수준에 도달했음을 의미합니다.

지식·추론 — GPQA와 HLE

벤치마크Mythos PreviewClaude Opus 4.6개선폭
GPQA Diamond94.6%
Humanity's Last Exam (도구 사용)64.7%53.1%+11.6%p

GPQA Diamond는 박사 수준 과학 문제를 평가하는 벤치마크입니다. 94.6%는 현재 최고 수준입니다. HLE(Humanity's Last Exam)는 인류 최고 난이도의 추론 문제 모음으로, 64.7%는 AI가 이 영역에서 의미 있는 임계점에 가까워지고 있음을 보여줍니다.


가격과 접근: 현실적인 이야기

가격 — Opus의 5배

모델입력 (1M 토큰)출력 (1M 토큰)
Claude Mythos Preview$25$125
Claude Opus 4.6$5$25
Claude Sonnet 4.6$3$15
GPT-5.5$5$30

Mythos Preview의 가격은 Opus 4.6보다 5배 비쌉니다. 입력 $25, 출력 $125. 이 가격을 정당화하려면 Opus로 할 수 없는 작업을 해야 합니다.

보안 감사, 대규모 코드베이스의 취약점 분석, 복잡한 자율 에이전트 작업 — 이런 고부가가치 작업에서만 경제적 의미가 있습니다.

접근 방법 — 4가지 경로

Mythos Preview에 접근하는 경로는 현재 4개입니다:

  1. Claude API (api.anthropic.com) — Project Glasswing 승인 조직 한정
  2. Amazon Bedrock — 미국 동부(버지니아 북부) 리전, 게이티드 리서치 프리뷰
  3. Google Cloud Vertex AI — 프리뷰 상태
  4. Microsoft Foundry — 승인 조직 한정
import anthropic

# Claude API (승인된 조직만 접근 가능)
client = anthropic.Anthropic(api_key="your-api-key")

response = client.messages.create(
    model="claude-mythos-preview-20260407",
    max_tokens=8192,
    messages=[
        {
            "role": "user",
            "content": "이 코드베이스에서 SQL 인젝션 취약점을 찾고, 각각의 익스플로잇 가능성을 평가해줘"
        }
    ]
)

모델 ID는 claude-mythos-preview-20260407입니다. 하지만 이 코드가 동작하려면 먼저 Anthropic의 승인이 필요합니다. 일반 개발자는 현재 접근 불가입니다.


Mythos vs Opus 4.6: 실제로 무엇이 달라졌나

벤치마크 외에 실제 사용 차이를 이해하려면 세 가지 영역을 봐야 합니다.

1. 자율적 코드 탐색 능력

Opus 4.6도 대형 코드베이스를 분석할 수 있지만, Mythos는 더 적은 가이드로 더 깊이 파고듭니다. 보안 감사 시 "이 함수 확인해줘"가 아니라 "이 시스템 전체를 감사해줘"로 시작해도 의미 있는 결과를 냅니다.

2. 취약점 연쇄 추론

제로데이 발견의 핵심은 단일 버그 찾기가 아닙니다. A버그 → B 시스템 접근 → C 데이터 추출이라는 공격 체인을 추론하는 능력입니다. Mythos는 이런 다단계 공격 경로를 Opus보다 훨씬 정확하게 예측한다고 알려져 있습니다.

3. 터미널 환경 자율 실행

Terminal-Bench에서 82%라는 수치가 의미하는 건, 실제 셸 환경에서 복잡한 명령을 스스로 계획하고 실행할 수 있다는 겁니다. 에이전트 워크플로우에서 Opus보다 훨씬 적은 오류와 되돌아가기가 발생합니다.


일반 개발자에게 지금 의미하는 것

Mythos Preview는 당장 쓸 수 없습니다. 그렇다면 왜 알아야 할까요?

첫째, 다음 Opus/Sonnet에 내려온다. Anthropic의 역사를 보면, 상위 티어 모델의 능력은 결국 하위 티어로 전달됩니다. Mythos의 코딩·보안 능력이 미래 Claude Opus 5 또는 Sonnet 5에 반영될 가능성이 높습니다.

둘째, AI 보안 도구가 바뀐다. CrowdStrike 같은 보안 기업이 Mythos를 활용해 더 정교한 방어 도구를 만들면, 그 혜택이 간접적으로 일반 기업에 전달됩니다.

셋째, 경쟁 구도가 바뀐다. DeepSeek V4가 코딩 벤치마크에서 1위를 주장하는 시점에, Anthropic은 "우리의 진짜 최강 모델은 공개도 안 했다"는 신호를 시장에 보낸 셈입니다.


Project Glasswing 신청 자격과 방법

현재 Mythos Preview 접근을 원하는 조직이 취할 수 있는 경로:

경로조건
Project Glasswing 직접 신청보안·인프라 기업, 오픈소스 프로젝트 운영 조직
Amazon Bedrock 대기 목록AWS 엔터프라이즈 계정, AWS 어카운트 팀 통해 요청
Google Vertex AI 프리뷰Google Cloud 파트너 또는 엔터프라이즈 계약

일반 스타트업이나 개인 개발자에게는 현실적으로 접근이 어렵습니다. Anthropic은 공개 일정을 명시하지 않았습니다. "Gated Research Preview" — 즉, 리서치 목적의 제한적 공개 상태가 당분간 유지될 것으로 보입니다.


마치며

Claude Mythos Preview는 AI 모델 경쟁에서 흔하지 않은 선택을 했습니다. "우리가 만든 것 중 가장 뛰어나지만, 바로 모두에게 주지 않겠다"는 결정.

SWE-bench 93.9%, 제로데이 수천 개 자동 발견, CyberGym 83.1%. 숫자만 보면 역대 최강 모델임이 분명합니다. 하지만 Anthropic은 이 모델의 힘이 잘못 사용될 수 있다는 것을 인식하고, 방어자 측이 먼저 준비할 시간을 줬습니다.

이것이 책임 있는 AI 개발인지, 아니면 지나친 신중함인지는 관점에 따라 다릅니다. 하지만 한 가지는 분명합니다 — AI가 수천 개의 제로데이를 자동으로 찾는 시대는, 이미 시작됐습니다.

Mythos가 일반 공개될 때, AI 보안 지형은 지금과 달라져 있을 것입니다.

📚 관련 글

💬 댓글