TL;DR
Mistral AI가 2026년 5월 2일 Mistral Medium 3.5를 공개했습니다. 128B 파라미터 Dense 모델에 256k 컨텍스트, Modified MIT 라이선스(오픈웨이트), GPU 4장으로 자체 호스팅 가능 — 그리고 클라우드 비동기 코딩 에이전트 Vibe까지 묶어서 나왔습니다.
SWE-bench Verified 77.6%를 달성했고, Le Chat에 Work Mode(Preview)도 추가됐습니다.
단도직입적으로 말하면: Claude Code를 쓰고 있는 분들이 당장 갈아탈 이유는 없습니다. 하지만 보안 환경이 까다롭거나 오픈소스를 선호하는 팀이라면, 지금 진지하게 검토할 만한 선택지가 생긴 겁니다.
이 글에서 다루는 것:
- Mistral Medium 3.5 스펙 + 벤치마크 수치 해석
- Vibe 클라우드 에이전트 vs Claude Code 실제 차이점
- Le Chat Work Mode — 실무 적용 가능성
- 상황별 추천: 어떤 팀에게 맞는 선택인가
혹시 이런 상황 경험해보셨나요?
터미널에서 Claude Code를 켜놓고 대규모 리팩토링을 맡겼는데, 맥북 팬이 풀가동되고 두 시간이 지나도 작업이 안 끝납니다. 결과는 만족스러운데 그 사이에 다른 일을 못 하는 아이러니.
"클라우드에서 비동기로 돌려주는 코딩 에이전트가 있으면 어떨까?" 하는 생각을 해봤다면, Mistral이 딱 그걸 만들었습니다. 이름은 Vibe.
진짜 쓸 만한 물건인지, 아니면 이미 Claude Code를 쓰고 있다면 굳이 바꿀 필요가 없는 건지 — 그게 이 글의 핵심 질문입니다.
출처: Mistral AI 공식 블로그 | Mistral Medium 3.5 공식 발표 이미지
Mistral Medium 3.5 기본 스펙
| 항목 | Mistral Medium 3.5 | Claude Opus 4.7 (참고) |
|---|---|---|
| 아키텍처 | Dense 128B | 비공개 |
| 컨텍스트 | 256k 토큰 | 200k 토큰 |
| 라이선스 | Modified MIT (오픈웨이트) | 상용 API 전용 |
| 자체 호스팅 | GPU 4장 이상 | 불가 |
| SWE-bench Verified | 77.6% | 87.6% |
| API 입력 가격 | $1.5/M 토큰 | 공개 안 됨 |
| API 출력 가격 | $7.5/M 토큰 | 공개 안 됨 |
| 멀티모달 | O (커스텀 비전 인코더) | O |
"Dense 128B"라는 표현이 눈에 띕니다. 요즘 거대 모델들이 대부분 MoE(Mixture of Experts) 구조를 채택하는 추세인데, Mistral은 이번에 일부러 Dense를 택했습니다. 이유는 단순합니다 — 추론 일관성과 품질을 희생하지 않겠다는 선택이고, 그 덕분에 "4개 GPU로 자체 호스팅"이 가능해진 겁니다.
근데 여기서 흥미로운 점이 하나 있습니다. 비전 인코더를 CLIP 같은 기존 사전 학습 인코더를 쓰지 않고, 아예 처음부터 새로 만들었습니다. 가변 이미지 크기와 종횡비를 처리하기 위해서라고 하는데, 이건 멀티모달 품질에 진심이라는 신호로 읽힙니다.
추론 effort도 API 요청 단위로 조절 가능합니다. 빠른 채팅 응답에서 복잡한 에이전틱 추론까지, 같은 모델로 커버할 수 있다는 뜻입니다. 비용 관리 측면에서도 이 유연성은 실용적입니다.
Vibe 클라우드 에이전트 vs Claude Code: 핵심 차이점
이게 이번 발표의 진짜 핵심입니다.
출처: Mistral AI 공식 블로그 | Vibe 원격 에이전트 UI
실행 방식: 로컬 vs 클라우드
Claude Code 4월 업데이트에서도 다뤘지만, Claude Code는 철저히 로컬-퍼스트(Local-First) 방식입니다. 코드가 내 컴퓨터에 있고, 모델이 직접 읽고 씁니다. 실시간으로 흘러가는 코드를 보면서 중간에 방향을 바꿀 수 있는 것이 강점입니다.
Vibe는 반대입니다. 작업을 클라우드 샌드박스에 던져두면 알아서 실행하고, 끝나면 GitHub에 PR까지 자동으로 열어줍니다. 내 컴퓨터 팬이 돌아갈 일이 없죠. 그리고 여러 세션을 동시에 실행할 수 있습니다.
| 기능 | Vibe (Mistral) | Claude Code (Anthropic) |
|---|---|---|
| 실행 환경 | 클라우드 샌드박스 | 로컬 터미널 |
| 세션 방식 | 비동기 (완료 후 알림) | 실시간 대화형 |
| 병렬 실행 | O (여러 세션 동시) | X (순차적) |
| GitHub 자동 PR | O | X (수동) |
| Linear/Jira 연동 | O (이슈 할당 가능) | X |
| Slack/Teams 알림 | O | X |
| Sentry 연동 | O (인시던트 기반) | X |
| 로컬 → 클라우드 전환 | O (히스토리 유지) | N/A |
| 오픈소스 모델 | O (자체 호스팅) | X |
흥미로운 기능 하나: 로컬에서 CLI 세션을 돌리다가 클라우드로 "텔레포트"할 수 있습니다. 세션 히스토리와 태스크 상태가 그대로 유지된 채로요. 이건 꽤 실용적인 워크플로우입니다.
어떤 작업에 강한가
Vibe가 잘 맞는 작업:
- 모듈 단위 리팩토링 (여러 파일을 동시에)
- 테스트 코드 자동 생성
- 의존성 버전 업그레이드
- Sentry 이슈 기반 버그 픽스
- PR 리뷰 코멘트 반영
Claude Code가 잘 맞는 작업:
- 실시간 페어 프로그래밍
- 코드베이스 탐색과 이해
- 복잡한 아키텍처 설계 논의
- 즉각적인 피드백이 필요한 작업
- MCP 툴을 활용한 커스텀 워크플로우
솔직히, 이건 취향의 문제이기도 합니다. 저는 코드가 흘러가는 걸 보면서 중간에 "잠깐, 이 방향 아닌 것 같아요"라고 개입하는 스타일이라 Claude Code가 체질에 맞는데, 배치 작업이 많고 "맡겨두면 알아서 해줘" 방식을 선호하는 분들은 Vibe가 훨씬 편할 겁니다.
Le Chat Work Mode — 실무 적용 가능성
출처: Mistral AI 공식 블로그 | Le Chat Work Mode Preview
Le Chat에 Work Mode가 Preview로 추가됐습니다. 기능은 다음 세 가지입니다:
- 크로스-툴 워크플로우: 이메일, 메시지, 캘린더 데이터를 넘나들며 컨텍스트 유지
- 리서치 + 합성: 웹, 내부 문서, 연결된 시스템에서 정보를 끌어와 정리
- 받은 편지함 트리아지: 중요도 분류, 답장 초안 작성, Jira 이슈 자동 생성
좋은 점은 민감한 작업 전에 명시적 승인을 요구한다는 겁니다. 실제 툴 호출과 추론 과정이 화면에 그대로 보이고요. "에이전트가 내 허락 없이 뭔가를 해버렸다"는 상황은 없습니다.
Claude Opus 4.7 Auto Mode와 방향이 비슷해 보이지만 레이어가 다릅니다. Claude는 모델 레벨에서 추론 깊이를 자동으로 조절하는 방식이고, Mistral Work Mode는 에이전트 레벨에서 외부 툴을 병렬 호출하는 방식입니다. 근본적으로 다른 접근입니다.
아직 Preview 딱지가 붙어 있는 만큼, 실무 투입은 좀 더 지켜봐야 할 것 같습니다. 아쉬운 점 하나 — Le Chat Pro, Team, Enterprise 플랜 전용이라 무료로는 쓸 수 없습니다.
벤치마크 수치 제대로 읽기
SWE-bench Verified 77.6%를 어떻게 해석해야 할까요?
| 모델 | SWE-bench Verified | 접근 방식 |
|---|---|---|
| Claude Mythos Preview | 93.9% | 상용 (비공개 미출시) |
| Claude Opus 4.7 (Adaptive) | 87.6% | 상용 API |
| GPT-5.3-Codex | 85% | 상용 API |
| Mistral Medium 3.5 | 77.6% | 오픈웨이트 |
| Devstral 2 | 77.6% 미만 | 오픈웨이트 |
절대 수치만 보면 낮아 보이지만, 맥락을 보면 이야기가 달라집니다.
Claude Mythos Preview는 아직 일반 공개 전인 실험 모델이고, Claude Opus 4.7와 GPT-5.3-Codex는 API로만 접근 가능합니다. Mistral Medium 3.5는 오픈웨이트로, 수정·배포·자체 호스팅이 전부 가능합니다. 오픈소스 범주에서는 최상위권입니다.
τ³-Telecom 91.4라는 수치도 주목할 만한데, 이는 통신/복잡한 에이전틱 작업에서의 성능을 측정하는 벤치마크입니다. 다단계 에이전틱 워크플로우에 강하다는 방증입니다.
상황별 추천
Mistral Medium 3.5 + Vibe가 맞는 팀
보안이 최우선인 기업: 코드가 외부 서버에 올라가면 안 되는 환경에서 GPU 4장으로 자체 호스팅하면 됩니다. 코드 유출 걱정 없이 강력한 AI 코딩 보조를 쓸 수 있는 거의 유일한 선택지입니다.
GitHub-Jira-Slack 워크플로우가 확립된 팀: Vibe의 자동화 효과는 이 연동이 얼마나 잘 되어 있냐에 달려 있습니다. 이미 이 스택을 쓰는 팀이라면 도입 장벽이 낮습니다.
배치 작업이 많은 팀: 테스트 코드 자동 생성, 의존성 업그레이드, 레거시 리팩토링처럼 "던져두면 알아서 해줘" 방식이 잘 맞는 작업이 많다면 Vibe의 비동기 실행이 큰 효율 향상을 가져올 수 있습니다.
Claude Code가 여전히 맞는 개발자
실시간 피드백을 선호하는 분: 코드가 흘러가는 걸 보면서 중간에 방향을 바꾸는 스타일이라면 Claude Code의 대화형 접근이 훨씬 자연스럽습니다.
복잡한 설계를 함께 논의하고 싶은 분: Claude의 컨텍스트 이해와 대화 능력은 아직 차별점이 있습니다. 아키텍처 결정을 AI와 같이 고민하는 워크플로우라면요.
Anthropic 생태계를 이미 쓰는 분: MCP 통합, /ultrareview, Routines 같은 기능을 활용 중이라면 전환 비용이 더 클 수 있습니다.
비용 관점
Mistral Medium 3.5 API는 입력 $1.5/M 토큰, 출력 $7.5/M 토큰입니다. 대규모 사용 시 자체 호스팅으로 가면 비용 구조가 완전히 달라집니다. OpenAI Codex CLI와 비교해도, Vibe의 클라우드 샌드박스 + 자동 PR은 비슷한 가격대에서 차별화된 기능입니다.
총평
Mistral Medium 3.5는 "오픈소스 진영에서 가장 실용적인 코딩 에이전트 플랫폼"이라는 포지션을 명확히 했습니다.
SWE-bench 77.6%는 상용 최상위 모델에는 못 미치지만, 오픈웨이트·자체 호스팅·Modified MIT 라이선스라는 조합은 기업 환경에서 독보적입니다. Vibe의 비동기 실행과 GitHub 자동 PR은 아이디어 측면에서 진보적이고, Le Chat Work Mode는 방향성이 맞지만 아직 초기 단계입니다.
스코어카드:
| 평가 항목 | 점수 |
|---|---|
| 모델 성능 (SWE-bench) | ★★★★☆ |
| 오픈소스 접근성 | ★★★★★ |
| Vibe 에이전트 완성도 | ★★★☆☆ |
| Le Chat Work Mode | ★★★☆☆ |
| 가격 경쟁력 | ★★★★☆ |
| 자체 호스팅 용이성 | ★★★★★ |
Claude Code나 Cursor를 쓰는 분들에게 "당장 갈아타세요"라고 하기는 어렵습니다. 하지만 보안 요구사항이 까다롭거나, 오픈소스를 선호하거나, 배치 코딩 자동화를 원하는 팀이라면 — 이번 Mistral의 선택지는 진지하게 검토할 가치가 있습니다.
여담이지만, Mistral이 계속 이렇게 치고 올라오면 상용 모델들도 긴장해야 할 겁니다. 경쟁이 치열해질수록 개발자는 좋습니다.
참고 자료
- Remote agents in Vibe. Powered by Mistral Medium 3.5. — Mistral AI 공식 블로그, 2026년 5월 2일
- Mistral AI Launches Remote Agents in Vibe and Mistral Medium 3.5 with 77.6% SWE-Bench Verified Score — MarkTechPost, 2026년 5월 2일
- Mistral Medium 3.5 Folds Chat, Reasoning, and Code Into One 128B AI Model — Winbuzzer, 2026년 5월 2일
- Mistral Medium 3.5: 128B Open Weights and Vibe Agents — Creative AI News, 2026년 5월 2일
함께 읽으면 좋은 글:
- Claude Code 4월 업데이트 총정리: /powerup, MCP 500K, 세션 안정성 - 최신 Claude Code 기능 완전 정리
- Claude Opus 4.7 실전 가이드: xhigh 기본값·Auto Mode·/ultrareview 완전 정리 - Claude 최신 모델 실전 활용법