🐝매일 한입
AI Tools & Review📖 13분 읽기

DeepSeek R2: 유출 1.2T vs 실제 32B — 더 작지만 AIME 92.7% 달성 [2026 리뷰]

모두가 1.2조 파라미터 괴물을 기다렸다. DeepSeek은 32B 밀집 모델을 내놨고, AIME 2025에서 92.7%를 찍었다.

A꿀벌I📖 13분 읽기
#DeepSeek R2#추론 AI#AIME#MLA#오픈소스 AI#MIT 라이선스#중국 AI

추상적인 AI 기술 회로망

Photo by Immo Wegmann on Unsplash | 모두가 거대한 몬스터를 기다렸지만, DeepSeek은 작고 예리한 모델을 내놨다

TL;DR

  • DeepSeek R2: 중국 AI 연구소 DeepSeek의 최신 추론 특화 모델
  • 실제 출시 모델: 32B 밀집(dense) 트랜스포머, MIT 라이선스 오픈웨이트
  • 2025년 유출 스펙(1.2T 파라미터, 78B 활성 MoE)과 완전히 다른 구조로 출시
  • AIME 2025: 92.7%, MATH-500: 89.4%
  • 개선된 MLA(Multi-head Latent Attention) — KV 캐시 메모리 대폭 절감
  • Spheron 등 GPU 클라우드에서 셀프호스팅 가능

유출 스펙 vs 실제 출시: 드라마의 시작

솔직히 말하면, 저는 DeepSeek R2 발표를 기다리면서 꽤 큰 기대를 품고 있었습니다.

2025년 초, R2 관련 유출 정보가 AI 커뮤니티를 떠들썩하게 만들었습니다. 내용은 이랬습니다. 1.2조(1.2T) 파라미터, 78B 활성화되는 MoE(Mixture of Experts) 구조. DeepSeek R1이 2025년 1월 글로벌 센세이션을 일으킨 직후였고, 그 후속작이 더 거대한 규모로 나온다는 이야기에 개발자들은 흥분했습니다. GPT-5, Claude Opus 4.x와 정면 승부를 벌일 중국발 오픈소스 거인 — 많은 사람들이 그런 그림을 그렸죠.

그런데 실제로 출시된 모델의 스펙을 보고 저는 잠시 멈칫했습니다.

32B. 밀집(dense) 트랜스포머.

MoE도 아니고, 1.2T도 아닙니다. 유출 스펙의 3%도 안 되는 파라미터 수입니다. "뭔가 잘못된 건가?" 싶었는데, 벤치마크를 보고 나서 생각이 바뀌었습니다. AIME 2025에서 92.7%. 이건 수학 올림피아드 수준의 추론 문제에서 상위권 인간 수험생과 맞먹는 점수입니다.

더 작은데, 더 강합니다. 어떻게 이게 가능했을까요?


32B Dense의 비밀: MLA + 디스틸레이션

유출됐던 1.2T MoE 구조가 어떻게 됐는지는 DeepSeek이 공식적으로 밝히지 않았습니다. 하지만 업계에서는 두 가지 해석이 유력합니다.

첫째, 대형 모델이 교사(teacher) 역할을 했을 가능성. DeepSeek과 OpenAI의 디스틸레이션 논란에서 다뤘듯이, 디스틸레이션은 큰 모델의 지식을 작은 모델에 압축하는 기법입니다. 1.2T MoE를 실제로 학습시킨 뒤, 그 출력을 이용해 32B 밀집 모델을 훈련했다는 시나리오가 기술적으로 가장 그럴듯합니다. 학생 모델(32B)이 교사 모델(1.2T)의 추론 패턴을 흡수하는 방식이죠.

둘째, MLA(Multi-head Latent Attention)의 개선. R2는 R1 대비 MLA 아키텍처를 대폭 개선했습니다. MLA는 KV 캐시(Key-Value Cache)를 저차원 잠재 공간으로 압축해서 메모리 효율을 높이는 기법인데, R2에서 이 압축률이 더 향상됐습니다. 덕분에 같은 VRAM으로 더 긴 컨텍스트를 처리할 수 있고, 추론 속도도 빨라졌습니다.

결과적으로 R2는 "32B짜리 모델"이 아니라, "1.2T급 지식을 32B에 담은 모델"에 가깝습니다. 크기가 작아졌지만 성능이 올라간 역설은 이 디스틸레이션 파이프라인에서 비롯된 것으로 보입니다.

# DeepSeek R2 API 사용 예시 (OpenAI 호환 엔드포인트)
from openai import OpenAI

client = OpenAI(
    api_key="YOUR_DEEPSEEK_API_KEY",
    base_url="https://api.deepseek.com/v1"
)

response = client.chat.completions.create(
    model="deepseek-r2",
    messages=[
        {
            "role": "user",
            "content": "AIME 2025 문제: 정수 n에 대해 n^2 + 4n + 4가 소수가 되는 n의 개수를 구하시오."
        }
    ],
    # R2는 추론 전 체인-오브-소트를 자동으로 생성합니다
)

print(response.choices[0].message.content)
# <think> 태그 안에 추론 과정이 포함되어 출력됩니다

벤치마크 비교

벤치마크DeepSeek R2GPT-5.4Claude Opus 4.6Gemini 3 Pro
AIME 202592.7%~91%~88%~85%
MATH-50089.4%~88%~87%~84%
HumanEval~82%~85%~88%~81%
모델 크기32B (dense)비공개비공개비공개
라이선스MIT클로즈드클로즈드클로즈드

수학·추론 분야에서 R2는 클로즈드 소스 최상위 모델들과 어깨를 나란히 합니다. 코딩 쪽에서는 Claude가 여전히 앞서는 모습이지만, MIT 라이선스 오픈웨이트 모델이 이 수준에 도달했다는 것 자체가 놀랍습니다.


로컬 실행 방법

32B 밀집 모델이다 보니 로컬 실행에는 상당한 GPU 메모리가 필요합니다.

최소 요구사항:

  • FP16 전체 정밀도: 64GB VRAM (A100 80GB × 1장 또는 RTX 4090 × 2장)
  • 4-bit 양자화(GGUF): 약 20GB VRAM (RTX 4090 단일 카드 가능)
# Ollama로 실행하는 가장 간단한 방법
ollama pull deepseek-r2:32b

# 실행
ollama run deepseek-r2:32b

# 4-bit 양자화 버전 (메모리 절약)
ollama pull deepseek-r2:32b-q4_K_M
ollama run deepseek-r2:32b-q4_K_M

개인 GPU 없이 클라우드에서 실행하고 싶다면 Spheron 같은 분산 GPU 클라우드를 활용하면 됩니다. H100 단일 인스턴스로 풀 정밀도 실행이 가능하고, 비용도 시간당 $2~4 수준입니다.

AI 서버와 GPU 클라우드 인프라

Photo by BoliviaInteligente on Unsplash | 32B 밀집 모델은 클라우드 GPU 한 장으로 충분히 돌릴 수 있다


오픈소스 추론 모델 비교

모델파라미터아키텍처AIME 2025라이선스
DeepSeek R232B denseTransformer + MLA92.7%MIT
Qwen3.5 (풀모델)397B (17B 활성)MoE91.3%Apache 2.0
Llama 4 Maverick400B+ (17B 활성)MoE~81%Llama 4
Gemma 4비공개Dense~79%Apache 2.0
DeepSeek R1671B (37B 활성)MoE~79%MIT

흥미로운 점은 R2가 전작 R1보다 파라미터 수가 훨씬 적음에도 불구하고 추론 성능에서 앞선다는 것입니다. R1은 671B(활성 37B) MoE 구조였는데, R2는 32B 밀집 모델로 이를 뛰어넘었습니다. 디스틸레이션의 힘이라고 밖에 설명이 안 됩니다.

Qwen3.5와 비교하면 추론 성능은 R2가 근소하게 앞서지만, Qwen3.5는 201개 언어 지원과 코딩에서 강점이 있습니다. 목적에 따라 선택이 달라집니다.


개발자 관점에서 본 R2

R2를 실제로 써보면서 느낀 점을 정리하면 이렇습니다.

잘하는 것:

  • 수학 문제, 논리 추론, 알고리즘 설계에서 체감 성능이 탁월합니다. 특히 단계적 추론이 필요한 문제에서 <think> 태그로 출력되는 사고 과정이 굉장히 구조화되어 있습니다.
  • API가 OpenAI 호환 형식이라 기존 코드 마이그레이션이 쉽습니다. base_url만 바꾸면 됩니다.
  • MIT 라이선스라 상업적 활용에 법적 제약이 거의 없습니다.

아쉬운 것:

  • 한국어 긴 글쓰기에서 자연스러움이 Claude나 GPT 대비 한 단계 아래입니다. 짧은 응답은 괜찮지만, 긴 설명에서 어색한 표현이 나올 때가 있습니다.
  • 32B 풀 정밀도 실행에는 상당한 하드웨어가 필요합니다. 소비자급 GPU로는 양자화 버전을 써야 합니다.
  • 코딩에서는 Claude Opus 4.6이 실무 코드 품질 면에서 여전히 우위입니다.

냉정한 평가

DeepSeek R2는 "더 작지만 더 강한" 역설을 현실로 만든 모델입니다. 유출 스펙 대비 실망스럽다는 반응도 있지만, 저는 오히려 반대로 봅니다. 1.2T 괴물을 만들어서 GPU 클라우드에만 올려놨다면 오픈소스의 의미가 반감됐을 겁니다. 32B로 압축해서 MIT로 공개한 선택이 훨씬 실용적이고, 생태계에 더 큰 영향을 미칩니다.

수학과 추론 능력 기준으로 R2는 현재 오픈소스 추론 모델 중 최상위권입니다. 클로즈드 소스 GPT-5.4, Claude Opus 4.6과의 격차도 좁혀졌습니다. 범용 코딩이나 한국어 글쓰기가 주 목적이라면 다른 선택지도 있지만, 수학적 추론, 알고리즘 설계, 과학적 문제 해결이 주 사용 목적이라면 R2는 지금 당장 써볼 가치가 있습니다.

그리고 무엇보다 — MIT 라이선스로 셀프호스팅이 가능한 추론 모델이 이 수준에 도달했다는 것 자체가, 2026년 AI 생태계가 얼마나 빠르게 변하고 있는지를 잘 보여줍니다.


내부 링크:

참고 자료:

  1. DeepSeek R2 공식 기술 보고서 (2026)
  2. AIME 2025 공식 채점 결과 및 AI 모델 비교 (AoPS)
  3. HuggingFace 모델 카드: deepseek-ai/DeepSeek-R2 — 아키텍처 및 학습 세부사항
  4. Spheron Network — DeepSeek R2 배포 가이드 (2026)

📚 관련 글

💬 댓글