정확히 1년 전 DeepSeek이 실리콘밸리를 뒤흔들었다. 그리고 그들이 돌아왔다
핵심 요약
| 항목 | 내용 |
|---|---|
| 출시일 | 2026년 4월 24일 |
| 모델 | V4-Pro (1.6T/49B 활성), V4-Flash (284B/13B 활성) |
| 컨텍스트 | 1M 토큰, 최대 출력 384K |
| 라이선스 | MIT 오픈웨이트 |
| 모드 | Thinking / Non-Thinking 듀얼 모드 |
| 가격 (V4-Pro) | $1.74 입력 / $3.48 출력 (1M 토큰) |
| 가격 (V4-Flash) | $0.14 입력 / $0.28 출력 (캐시 미스 기준) |
| 코딩 벤치마크 | LiveCodeBench 93.5 — 현재 오픈/클로즈드 전체 1위 |
1년 만의 귀환 — "스푸트니크 모멘트" 이후
2025년 1월, DeepSeek V3가 등장했습니다. NVIDIA 주가는 하루 만에 17% 폭락했고, 월스트리트는 충격에 빠졌습니다. 업계는 이 사건을 "AI의 스푸트니크 모멘트"라 불렀습니다 — 미국이 AI를 독점하던 시대가 끝났다는 신호였죠.
그리고 정확히 1년이 지난 2026년 4월 24일, DeepSeek이 조용히 두 개의 모델을 API와 오픈웨이트로 동시 배포했습니다. DeepSeek V4-Pro와 DeepSeek V4-Flash.
흥미로운 건 타이밍입니다. OpenAI가 GPT-5.5를 출시한 바로 그날, DeepSeek은 동급 코딩 성능을 가진 모델을 최대 107배 저렴하게 공개했습니다. 우연의 일치인지는 모르겠지만, 업계에 던지는 메시지는 분명했습니다.
이번 V4는 DeepSeek R2가 32B로 예상을 뒤집었던 것과 방향이 다릅니다. V4는 스케일을 키웠습니다 — 하지만 효율성도 함께 끌어올렸습니다.
V4-Pro vs V4-Flash: 두 모델의 포지셔닝
두 모델은 같은 아키텍처 철학을 공유하지만, 용도가 완전히 다릅니다.
| 항목 | V4-Pro | V4-Flash |
|---|---|---|
| 총 파라미터 | 1.6T (MoE) | 284B (MoE) |
| 활성 파라미터 | 49B | 13B |
| 사전학습 토큰 | 33T | 32T |
| 컨텍스트 | 1M 토큰 | 1M 토큰 |
| 최대 출력 | 384K 토큰 | 384K 토큰 |
| 모드 | Thinking / Non-Thinking | Thinking / Non-Thinking |
| 라이선스 | MIT 오픈웨이트 | MIT 오픈웨이트 |
| 입력 가격 | $1.74/1M | $0.14/1M |
| 출력 가격 | $3.48/1M | $0.28/1M |
| 포지셔닝 | 고성능 추론·복잡한 작업 | 빠른 응답·비용 민감 서비스 |
V4-Pro: "프론티어급 지능, 오픈웨이트"
V4-Pro는 1.6T 파라미터 MoE 구조이지만, 실제 추론 시에는 49B만 활성화됩니다. 이 덕분에 거대한 파라미터 수에서 오는 지식 용량은 유지하면서, 실제 연산량은 훨씬 적습니다.
특히 1M 컨텍스트 환경에서 V4-Pro는 V3.2 대비 단일 토큰 추론에 FLOPs의 27%만 사용하고, **KV 캐시도 10%**밖에 소모하지 않습니다. 긴 컨텍스트 작업에서 이전 세대보다 훨씬 효율적입니다.
V4-Flash: "속도와 비용의 균형"
V4-Flash는 284B 총 파라미터, 13B 활성 경량 구조로, 빠른 응답과 낮은 비용이 필요한 서비스에 최적화됐습니다. 캐시 히트 기준으로는 입력 토큰이 $0.028/1M — 거의 공짜에 가까운 수준입니다.
1M 컨텍스트 + 듀얼 모드: 실제로 어떻게 쓰나
Thinking vs Non-Thinking 모드
두 모델 모두 API에서 모드를 선택할 수 있습니다.
from openai import OpenAI
client = OpenAI(
api_key="your-deepseek-api-key",
base_url="https://api.deepseek.com"
)
# Thinking 모드 (복잡한 추론, 수학, 코딩 디버깅)
response = client.chat.completions.create(
model="deepseek-v4-pro",
messages=[{"role": "user", "content": "이 알고리즘의 시간 복잡도를 분석해줘"}],
extra_body={"thinking": True}
)
# Non-Thinking 모드 (빠른 응답, 간단한 질문)
response = client.chat.completions.create(
model="deepseek-v4-flash",
messages=[{"role": "user", "content": "파이썬에서 리스트 정렬하는 법?"}]
# thinking 파라미터 생략 = Non-Thinking
)
언제 어떤 모드를 써야 하나:
- Thinking: 수학 증명, 복잡한 코드 디버깅, 멀티-스텝 에이전트 작업
- Non-Thinking: 코드 자동완성, 번역, 요약, 간단한 Q&A
1M 토큰 컨텍스트의 실용성
1M 토큰은 약 75만 단어, 1,500페이지 분량입니다. 실무에서 이게 의미하는 것:
- 대형 코드베이스 전체 입력: 수만 줄 프로젝트를 한 번에 분석
- 긴 문서 체인 처리: 법률 계약서 수백 페이지, 논문 묶음
- 장기 대화 유지: 수천 턴의 대화 기록을 끊김 없이 유지
단, 1M 컨텍스트를 매번 풀로 쓰면 비용이 급증합니다. V4-Pro로 1M 토큰을 풀로 사용하면 입력만 $1.74입니다. 프롬프트 캐싱을 적극 활용해서 같은 시스템 프롬프트 반복 비용을 줄이는 것이 중요합니다.
벤치마크: 코딩 1위의 실체
V4-Pro의 벤치마크 결과는 선택적으로 해석해야 합니다.
코딩 — V4-Pro의 진짜 강점
| 벤치마크 | V4-Pro | Gemini-3.1-Pro | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | 91.7 | 88.8 | — |
| Codeforces 레이팅 | 3206 | — | — | 3168 |
| SWE-Verified | 80.6 | — | 80.8 | — |
코딩에서는 현재 오픈/클로즈드 모델을 통틀어 LiveCodeBench 93.5로 1위입니다. Gemini-3.1-Pro(91.7), Claude Opus 4.7(88.8)을 모두 앞섭니다.
SWE-Verified(실제 GitHub 이슈 해결)에서는 Claude Opus 4.7(80.8)에 0.2% 차이로 2위. 실무 코딩 작업에서는 사실상 동급입니다.
지식·추론 — 아직 격차가 있는 부분
| 벤치마크 | V4-Pro | Gemini-3.1-Pro | Claude Opus 4.7 | GPT-5.5 |
|---|---|---|---|---|
| MMLU-Pro | 87.5 | 91.0 | 89.1 | 87.5 |
| HLE (도구 없음) | 37.7% | — | 46.9% | 41.4% |
일반 지식(MMLU-Pro)에서는 Gemini-3.1-Pro(91.0)와 Claude Opus 4.6(89.1)에 뒤집니다. 최고난도 추론 벤치마크인 Humanity's Last Exam에서도 Claude Opus 4.7(46.9%), GPT-5.5(41.4%) 대비 낮은 37.7%를 기록했습니다.
결론: V4-Pro는 코딩 특화 작업에서 최강이지만, 복잡한 다분야 추론에서는 아직 서방 프론티어 모델과 격차가 있습니다.
API 가격 비교: 숫자가 말하는 것
| 모델 | 입력 (캐시 미스) | 출력 |
|---|---|---|
| DeepSeek V4-Flash | $0.14/1M | $0.28/1M |
| DeepSeek V4-Pro | $1.74/1M | $3.48/1M |
| GPT-5.5 | $5.00/1M | $30.00/1M |
| Claude Opus 4.7 | $5.00/1M | $25.00/1M |
V4-Flash 캐시 히트 시 입력은 $0.028/1M
V4-Pro vs GPT-5.5
- 입력: 2.9배 저렴
- 출력: 8.6배 저렴
V4-Flash vs GPT-5.5
- 입력: 35.7배 저렴
- 출력: 107배 저렴
이 가격 격차는 코딩 서비스나 AI 기반 제품을 만드는 입장에서 무시하기 어렵습니다. V4-Pro로 코딩 작업을 처리하면 GPT-5.5 대비 동일 성능에서 출력 비용만 87%를 아낄 수 있습니다.
Google Gemini API의 무료 Pro 티어가 사라진 지금, 비용 최적화는 AI 제품 개발의 핵심 변수입니다. V4-Flash는 고정비용을 최소화하면서 충분한 성능이 필요한 MVP·스타트업 단계에 특히 적합합니다.
V3.2 → V4 마이그레이션 가이드
기존에 deepseek-chat이나 deepseek-reasoner를 쓰고 있다면, 마이그레이션은 거의 모델명 변경이 전부입니다.
# Before (V3.2)
model="deepseek-chat" # → deepseek-v4-flash
model="deepseek-reasoner" # → deepseek-v4-pro (Thinking 모드)
# After (V4)
model="deepseek-v4-flash" # 비용 최적화, 빠른 응답
model="deepseek-v4-pro" # 고성능, 복잡한 추론
마이그레이션 체크리스트:
-
model파라미터를 새 모델명으로 변경 - Thinking 모드 필요 시
extra_body={"thinking": True}추가 - 컨텍스트 길이 상한 확인 — V4는 1M까지 허용하나 비용 주의
- 캐시 히트 전략 검토 — 시스템 프롬프트를 고정하고 반복 사용
-
deepseek-chat및deepseek-v3엔드포인트 지원 마감 일정 확인 (2026년 내 종료 예정)
MIT 오픈웨이트: 셀프호스팅 가능성
V4-Pro와 V4-Flash 모두 Hugging Face에서 오픈웨이트로 공개됐습니다. MIT 라이선스이므로 상업적 사용, 수정, 재배포 모두 자유입니다.
현실적인 셀프호스팅 요건:
| 모델 | 최소 VRAM (Q4 양자화) | 권장 환경 |
|---|---|---|
| V4-Flash | ~40GB | A100 40GB × 1 또는 RTX 4090 × 2 |
| V4-Pro | ~320GB | H100 80GB × 4 이상 |
V4-Pro의 셀프호스팅은 대규모 GPU 클러스터가 없으면 현실적이지 않습니다. V4-Flash는 중간 규모 인프라에서도 운영 가능합니다.
API 가격이 이미 충분히 저렴하기 때문에, 대부분의 경우 API 사용이 셀프호스팅보다 경제적입니다. 단, 데이터 주권이 중요한 엔터프라이즈나 규제 산업이라면 오픈웨이트의 의미가 커집니다.
언제 V4를 써야 하나? 의사결정 가이드
| 상황 | 추천 선택 |
|---|---|
| 코딩 어시스턴트, 코드 리뷰, PR 자동화 | V4-Pro (코딩 벤치마크 1위) |
| 빠른 자동완성, 간단한 Q&A, 챗봇 | V4-Flash (출력 107배 저렴) |
| 복잡한 수학·추론, 고난도 에이전트 | Claude Opus 4.7 / GPT-5.5 고려 |
| 비용 민감 프로덕션 서비스 | V4-Flash (캐시 히트 $0.028) |
| 데이터 주권, 오픈소스 필수 | V4-Flash 셀프호스팅 |
| 엔터프라이즈 SLA 최우선 | OpenAI / Anthropic 유지 |
한 가지 솔직한 조언: DeepSeek API는 서방 서비스 대비 SLA와 엔터프라이즈 지원이 아직 약합니다. 코딩 성능과 가격이 매력적이더라도, 중요한 프로덕션 서비스에 단일 의존하는 것은 리스크가 있습니다. GitHub Copilot처럼 갑자기 정책이 바뀌는 사례가 있는 만큼, 복수 공급자 전략이 현명합니다.
마치며
DeepSeek V4는 "작년의 충격을 반복할 수 있는가"라는 질문에 조용히 답했습니다.
1년 전엔 성능으로 충격을 줬다면, 이번엔 성능 + 가격 + 오픈웨이트 세 가지를 동시에 들고 나왔습니다. LiveCodeBench 1위, GPT-5.5 대비 최대 107배 저렴한 Flash, MIT 라이선스. 적어도 코딩 워크플로우에서는 무시하기 어렵습니다.
서방 프론티어 모델과의 격차가 완전히 사라진 건 아닙니다. 복잡한 다분야 추론과 엔터프라이즈 신뢰성에서는 아직 차이가 있습니다. 하지만 그 격차는 분명히 좁혀지고 있고, DeepSeek은 속도를 늦출 기미가 없습니다.
이번 V4 출시 이후 OpenAI와 Anthropic의 가격 정책에도 적지 않은 압박이 가해질 것입니다. 경쟁은 개발자에게 나쁜 일이 아닙니다.
참고 자료: