TL;DR: 2026년 4월 20일, 중국 LLM 두 개가 같은 날 출시됐습니다. **Kimi K2.6 (MoonshotAI)**과 Qwen 3.6 Max-Preview (Alibaba). 둘 다 약 1T 파라미터 sparse MoE, 둘 다 SWE-bench Pro 상위권, 둘 다 OpenAI 호환 API. 그런데 전략은 정반대입니다 — Kimi는 오픈웨이트 + $0.60/$4.00으로 GPT-5.5 대비 약 10배 저렴한 채택 전략을 택했고, Qwen은 Qwen 시리즈 사상 첫 폐쇄 가중치 + Alibaba 자체 플랫폼 독점으로 API 매출에 베팅했습니다. 같은 무대에서 같은 날 등장한 두 모델이 정반대 답을 낸 이 분기점이 — 한국 개발자가 어떤 모델을 골라야 하는가에 대한 가장 정직한 신호입니다.
한 줄로 깨버리겠습니다. 2026년 5월 시점의 SOTA 코딩 모델은 더 이상 미국에 있지 않습니다.
이게 통념을 뒤집는 발언이라는 건 압니다. 그런데 데이터를 펼쳐놓고 보면 어쩔 수 없는 결론입니다. 4월 20일 같은 날 출시된 Kimi K2.6과 Qwen 3.6 Max-Preview가 각각 SWE-bench Pro에서 GPT-5.5와 동률(58.6%) 그리고 1위(Alibaba 자체 발표) 자리를 차지했습니다. 두 모델 모두 약 1T 파라미터 sparse MoE 아키텍처입니다.
여기까지는 단순한 "중국 추격" 서사로 보일 수 있는데 — 핵심은 그게 아닙니다. 같은 시장에 같은 날 등장한 두 회사가 정반대 전략을 택했다는 것이 더 중요한 사실입니다.
출처: Kimi K2.6 공식 블로그 | 2026년 4월 20일 출시된 MoonshotAI의 오픈 가중치 1T 모델
공통점 빠르게 정리
두 모델의 공통 스펙부터 한 표로 깔끔하게 정리하면 — 사실 묘하게 닮아 있습니다.
| 항목 | Kimi K2.6 | Qwen 3.6 Max-Preview |
|---|---|---|
| 출시일 | 2026-04-20 | 2026-04-20 (같은 날) |
| 회사 | MoonshotAI | Alibaba Cloud |
| 아키텍처 | sparse MoE | sparse MoE |
| 총 파라미터 | 1T | 약 1T |
| 활성 파라미터 | 32B | 비공개(추정 30–40B) |
| 컨텍스트 윈도우 | 260K | 262K |
| API 호환 | OpenAI 호환 | OpenAI + Anthropic 호환 |
| SWE-bench Pro | 58.6% (GPT-5.5와 동률) | 1위 (Alibaba 자체 발표) |
| Terminal-Bench 2.0 | 미공개 | 1위 |
Artificial Analysis 및 LLM Stats Kimi K2.6 페이지 기준입니다.
여기서 흥미로운 점이 보이실 거예요 — 거의 같은 회사 두 곳이 다른 이름으로 모델을 낸 것처럼 생겼습니다. 그런데 그 다음 줄이 갈립니다.
차이점 1: 가중치 — 오픈 vs 폐쇄
| 항목 | Kimi K2.6 | Qwen 3.6 Max-Preview |
|---|---|---|
| 가중치 공개 | ✅ Hugging Face 다운로드 가능 | ❌ 공개 안 함 (첫 폐쇄 Qwen 플래그십) |
| 라이선스 | Apache 2.0 | 비공개 API |
| 로컬 실행 | 가능 (충분한 GPU 필요) | 불가능 |
| 파인튜닝 | 가능 | 불가능 |
| 검증·재현 | 학계·외부 가능 | 회사 자체 수치만 |
이 한 줄이 가장 큰 분기점입니다. Qwen은 DeepSeek V4 완전 정리에서 다룬 "Apache 2.0으로 푼다"는 오픈소스 노선을 — 같은 중국 회사인데도 — 명확히 거부했습니다.
이건 Xiaomi MiMo-V2.5-Pro에서 다룬 흐름과도 정반대입니다. MiMo, DeepSeek, Kimi가 "오픈 가중치 + 가격 경쟁"이라는 한 진영을 형성하는 동안, Qwen은 OpenAI/Anthropic의 폐쇄 API 진영으로 옮겨갔습니다.
Alibaba가 이걸 왜 했을까. 공식 입장은 없지만 업계 분석을 종합하면 네 가지로 정리됩니다:
- 컴퓨트 해자 보호 — 사전 학습 인프라가 핵심 자산이라는 인식
- API 매출 우선 — OpenAI/Anthropic 플레이북 복제
- 규제 헤지 — 2026년 4월 미·중 AI distillation 분쟁 이후 가중치 노출 리스크 회피
- 연구→프로덕션 파이프라인 가속 — 폐쇄 환경에서 더 빠른 반영
근데 솔직히 — 학계 입장에서는 아쉬운 결정입니다. Qwen 시리즈가 그동안 오픈소스 LLM 생태계의 한 축이었거든요.
차이점 2: 가격 — Kimi의 10배 저렴 폭탄
| 항목 | Kimi K2.6 | Qwen 3.6 Max-Preview | GPT-5.5 (참고) |
|---|---|---|---|
| 입력 (1M 토큰) | $0.60 | $1.04 | ~$5.00 |
| 출력 (1M 토큰) | $4.00 | $6.24 | ~$30.00 |
| 에이전트 1회 실행 | ~$0.50 | ~$0.50 (추정) | $5.00+ |
| 상대 가격 (GPT-5.5 대비) | 약 10배 저렴 | 약 5배 저렴 | 1x 기준 |
| Claude Opus 4.7 대비 | 약 25배 저렴 | 약 12배 저렴 | — |
출처: LLM Stats, Artificial Analysis, TokenMix Qwen 분석.
Kimi 진영의 "10배 싸다"가 인상적이지만 — 더 충격적인 건 Qwen조차도 GPT-5.5보다 5배가 싸다는 점입니다. 즉 폐쇄 모델 끼리의 가격 경쟁에서도 Qwen이 미국 빅3를 압박합니다.
CodeRouter 분석에 따르면 Kimi K2.6은 SWE-Bench Pro에서 GPT-5.5와 동률을 내면서 입력당 약 10배, 출력당 약 7배 저렴합니다. 에이전트 워크플로우처럼 출력 토큰이 길어지는 작업일수록 — 가격 차이가 누적되어 실비용은 25배까지 벌어집니다.
출처: Kimi K2.6 공식 블로그 | Kimi Code Bench 내부 벤치마크 — GPT-5.5·Claude Opus 4.7·Gemini 3.1 Pro 대비 비교
차이점 3: 에이전트 — Kimi의 Agent Swarm 카드
Kimi K2.6가 단순 "싼 모델"이 아닌 이유는 Agent Swarm 기능입니다. 공식 발표 기준으로:
- 300개 sub-agent까지 수평 확장
- 4,000 coordinated steps
- 12시간 이상 연속 자율 실행
- 도메인별 sub-task 동적 분해
- 문서·웹사이트·스프레드시트까지 단일 실행으로 산출
Qwen 3.6 Max-Preview는 "preserve_thinking" 멀티턴 reasoning 모드와 OpenAI/Anthropic 호환 함수 호출은 지원하지만, 공식 명시된 swarm 수준의 멀티 에이전트 오케스트레이션은 없습니다.
이건 사용 시나리오를 결정짓습니다. "13시간 자율로 굴리는 워크플로우"는 Kimi가 유일하게 명시적으로 광고하는 영역입니다. 반대로 "단발성 코딩 작업의 최고 정확도"는 Qwen이 더 강할 가능성이 있습니다.
출처: Kimi K2.6 공식 블로그 | Design Bench — 멀티 에이전트 워크플로우 성능 비교
같은 작업을 양쪽으로 돌려보면
코드 작업으로 두 모델을 시뮬레이션해보는 예시를 코드 스니펫으로 정리하면(공식 API 기준):
Kimi K2.6 (OpenRouter / Moonshot 호환 엔드포인트)
from openai import OpenAI
# Kimi는 OpenAI 호환, OpenRouter나 Moonshot 직접 endpoint 사용 가능
client = OpenAI(
base_url="https://api.moonshot.cn/v1",
api_key=os.environ["KIMI_API_KEY"],
)
resp = client.chat.completions.create(
model="kimi-k2-6",
messages=[
{"role": "system", "content": "You are a senior backend engineer."},
{"role": "user", "content": "Write a Python FastAPI endpoint that does rate limiting per IP."}
],
temperature=0.2,
)
print(resp.choices[0].message.content)
Qwen 3.6 Max-Preview (Alibaba Bailian)
from openai import OpenAI
# Qwen 3.6 Max-Preview는 현재 Alibaba 자체 플랫폼만 (OpenRouter 미지원)
client = OpenAI(
base_url="https://dashscope.aliyuncs.com/compatible-mode/v1",
api_key=os.environ["DASHSCOPE_API_KEY"],
)
resp = client.chat.completions.create(
model="qwen3.6-max-preview",
messages=[
{"role": "system", "content": "You are a senior backend engineer."},
{"role": "user", "content": "Write a Python FastAPI endpoint that does rate limiting per IP."}
],
temperature=0.2,
extra_body={"preserve_thinking": True} # Qwen 전용: thinking trace 유지
)
print(resp.choices[0].message.content)
체감 차이를 정리하면 — Kimi 쪽은 OpenAI SDK를 그대로 끼워 넣기 좋고 OpenRouter에도 올라와 있어 다중 모델 라우팅이 쉽습니다. Qwen 쪽은 OpenAI 호환은 맞지만 현재 Alibaba 자체 플랫폼(QwenStudio, BaiLian)에서만 접근 가능합니다. OpenRouter 미지원이 운영 관점에서 큰 단점입니다.
Photo by Igor Omilaev on Unsplash | 1T 모델 운영은 인프라 비용이 결정한다
단점·한계 — 양쪽 다 짚기
Kimi K2.6 단점:
- Intelligence Index 54로 GPT-5.5(60), Opus 4.7(58)에 미달 — 복잡 추론·에이전트 평가에서는 빅3보다 한 단계 아래
- 한국 IP/금융/지정학 리스크 — 중국 회사의 데이터 정책에 노출
- Hugging Face 가중치는 받지만 1T MoE를 자체 운영하려면 H100 8장 이상의 GPU가 필요 — 사실상 클라우드 API 의존
- Apache 2.0이지만 학습 데이터 출처는 부분 공개
Qwen 3.6 Max-Preview 단점:
- Preview 단계로 SLA 보장 약함, 가격·기능 변동 가능
- OpenRouter 미지원으로 multi-model routing 시 별도 통합 필요
- 가중치 비공개 → 외부 재현·평가가 불가능, Alibaba 자체 발표 수치에 의존
- Intelligence Index 52 — Kimi보다도 낮음
이 부분은 Xiaomi MiMo-V2.5-Pro나 Cursor 3.3 multitask에서 다룬 도구들과 함께 평가하시면 좋습니다.
누구에게 추천하나 — 상황별
| 사용 시나리오 | 추천 모델 | 이유 |
|---|---|---|
| 비용 최적화 우선 + 에이전트 워크플로우 | Kimi K2.6 | 25× 저렴 + Agent Swarm 명시 지원 |
| 자체 인프라 파인튜닝 | Kimi K2.6 | Apache 2.0 + Hugging Face 가중치 |
| 단발성 코딩 작업 + 정확도 최우선 | Qwen 3.6 Max-Preview | SWE-bench Pro 1위 자체 발표 |
| 학계 연구·재현 | Kimi K2.6 | 가중치 공개로 외부 검증 가능 |
| Alibaba Cloud 이미 사용 중 | Qwen 3.6 Max-Preview | 결제·인프라 통합 |
| 한국 엔터프라이즈·금융 (지정학 리스크 회피) | 둘 다 비추 → Claude Opus 4.7 / GPT-5.5 | 데이터 정책 |
Photo by Luke Chesser on Unsplash | 벤치마크 수치만으로 판단하지 말 것 — 실제 워크로드가 진실의 순간
결론: 둘 다 SOTA를 갱신했지만, 시장이 갈리고 있다
오늘 글을 한 줄로 다시 정리하면:
같은 날 같은 무대에 등장한 두 1T 모델이 정반대 전략을 택했고, 이 분기점이 향후 12개월 LLM 시장의 두 축을 결정한다.
Kimi 진영(MoonshotAI · DeepSeek · Xiaomi)이 "오픈 가중치 + 가격 폭탄"으로 채택률을 가져가는 동안, Qwen은 OpenAI/Anthropic 노선(폐쇄 API · 매출 우선)으로 옮겼습니다. 양쪽 모두 SOTA 코딩 성능을 입증했기 때문에 — 승부는 더 이상 성능이 아니라 비즈니스 모델 선택입니다.
한국 개발자 입장에서 솔직히 말하면 — 단기적으로는 Claude Opus 4.7 / GPT-5.5가 안정성·생태계에서 여전히 1순위입니다. 하지만 비용 민감 워크로드 또는 에이전트 자동화를 시도한다면 Kimi K2.6를 OpenRouter에서 한 번 돌려볼 만한 시점이 됐습니다. Qwen 3.6 Max-Preview는 — Alibaba Cloud를 이미 쓰지 않는 한 — 외부 의존성·검증 어려움 때문에 권하기 어렵습니다.
다른 AI Tools & Review 글들에서 Claude Opus 4.7, Mistral Medium 3.5 같은 다른 옵션들도 다루고 있으니 함께 비교해보시면 좋겠습니다.
여러분은 어떻게 선택하시겠습니까? "비싼 안정"과 "싼 자율" 사이에서 — 댓글로 의견 남겨주시면 다음 글에서 케이스를 따로 다뤄보겠습니다.
참고 자료
- Kimi K2.6 Tech Blog — MoonshotAI 공식 발표, 2026년 4월 20일
- Qwen3.6-Max-Preview: Smarter, Sharper, Still Evolving — Alibaba Qwen 공식 발표, 2026년 4월 20일
- Kimi K2.6 Review: The $0.60 Model That Matches GPT-5.5 on SWE-Bench Pro — CodeRouter, 2026년 4월
- Qwen3.6-Max-Preview Review: 6 Benchmark #1s, Closed-Weights Shift — TokenMix, 2026년 4월
- Qwen3.6 Max Preview · Intelligence, Performance & Price Analysis — Artificial Analysis, 2026년 5월 기준
함께 읽으면 좋은 글:
- DeepSeek V4 완전 정리: V4-Pro·V4-Flash — 1M 컨텍스트·오픈웨이트 - 같은 진영의 오픈 가중치 전략
- Xiaomi MiMo-V2.5-Pro 완전 정리: 오픈소스 1T LLM - 또 다른 중국 오픈웨이트 진영
- Mistral Medium 3.5: Vibe Agent vs Claude Code - 유럽 진영의 에이전트 전략
- Cursor 3.3 완전 정리: /multitask 서브에이전트 - 실제 모델을 쓰는 도구 쪽 흐름