오픈소스 LLM 경쟁이 뜨거워지고 있다.
왜 Qwen3.5를 찾게 됐나
솔직히 말하면, 저는 오픈소스 LLM에 대해 약간의 편견이 있었습니다. "클로즈드 모델 대비 한 두 세대 뒤처져 있다"는 인식이요. 그런데 지난주 Llama 4 Scout를 써보면서 그 생각이 많이 바뀌었습니다. 1000만 토큰 컨텍스트 윈도우라니, 오픈소스가 이 정도까지 왔다는 게 놀라웠거든요.
그러다 2월 17일, 알리바바가 Qwen3.5를 공개했습니다. 397B 파라미터에 활성화는 17B만 한다는 MoE(Mixture of Experts) 아키텍처를 채택했고, 알리바바 측은 "GPT-5.2, Claude Opus 4.5, Gemini 3 Pro 대비 80%의 벤치마크에서 우위"라고 주장했습니다. 여기에 오픈웨이트로 공개되어 로컬에서 직접 돌릴 수 있다는 점이 결정적이었습니다.
"이거 진짜인가?" 궁금증을 참을 수 없어서, 바로 Ollama로 설치해봤습니다.
설치/설정 과정
설치는 놀랍도록 간단했습니다. Ollama가 이미 설치되어 있다면, 터미널에서 딱 두 줄이면 됩니다.
Ollama가 없다면 먼저 설치 curl -fsSL https://ollama.com/install.sh | sh # Qwen3.5 모델 다운로드 (8B 버전 기준, 약 4.9GB) ollama pull qwen3.5:8b # 바로 실행 ollama run qwen3.5:8b
터미널 두 줄이면 로컬 AI가 세팅된다.
제 맥북 프로(M3 Max, 36GB RAM) 기준으로 8B 모델 다운로드에 약 2분, 첫 로딩에 약 8초 걸렸습니다. 모델 사이즈별 VRAM 요구사항은 이렇습니다:
모델 파라미터 필요 VRAM 용도 qwen3.5:0.6b 6억 4GB 간단한 테스트용 qwen3.5:8b 80억 6GB 일반 사용 권장 qwen3.5:14b 140억 10-12GB 코딩/분석 작업 qwen3.5:32b 320억 20-24GB 고성능 추론 참고로 풀사이즈 397B 모델은 로컬에서 돌리기 어렵습니다. 양자화 없이는 수백 GB의 VRAM이 필요하거든요. 저는 실무 활용 가능성을 보기 위해 8B와 14B 두 가지를 테스트했습니다.
한 가지 팁을 드리자면, 기본적으로 Qwen3.5는 "Thinking Mode"가 켜져 있습니다. 모델이 답변 전에 추론 과정을 보여주는데, 이게 응답 시간을 꽤 늘립니다. 빠른 응답이 필요하면 이렇게 끄면 됩니다:
Thinking Mode를 끄고 실행 ollama run qwen3.5:8b --nowordwrap # 채팅 중에 /set parameter num_predict 1024 로 토큰 제한도 가능
실제 사용: 한국어, 코딩, 추론 테스트
한국어 성능
가장 궁금했던 건 한국어 성능이었습니다. Qwen3.5는 지원 언어가 201개로 늘었고, 토크나이저 어휘가 25만 토큰으로 확장되었습니다. 제가 던진 첫 질문은 이랬습니다:
"한국의 전세 제도를 외국인에게 설명해줘. 비유를 써서."
결과는 꽤 인상적이었습니다. 8B 모델임에도 "전세는 큰 금액의 보증금을 맡기는 것으로, 일종의 무이자 대출을 집주인에게 해주는 것과 비슷합니다"라는 식으로 자연스러운 비유를 만들어냈습니다. 존댓말/반말 전환도 자연스럽고, 한국 특유의 문화적 맥락도 어느 정도 이해하는 느낌이었습니다.
다만 긴 한국어 글쓰기에서는 가끔 문장이 어색해지는 경우가 있었습니다. "~한 것이 사실입니다"가 반복된다거나, 중국어 표현이 직역된 듯한 문장이 튀어나올 때가 있었어요. 체감상 Claude Sonnet 4.5의 한국어보다는 한 단계 아래, GPT-4o와 비슷하거나 살짝 아래라는 느낌이었습니다.
코딩 성능
코딩 테스트로는 실무에서 자주 쓰는 패턴을 던져봤습니다.
테스트 프롬프트: "FastAPI로 JWT 인증이 포함된 CRUD API를 만들어줘" # Qwen3.5 8B의 응답 (핵심 부분만 발췌) from fastapi import FastAPI, Depends, HTTPException, status from fastapi.security import OAuth2PasswordBearer from jose import JWTError, jwt from datetime import datetime, timedelta app = FastAPI() SECRET_KEY = "your-secret-key" ALGORITHM = "HS256" ACCESS_TOKEN_EXPIRE_MINUTES = 30 oauth2_scheme = OAuth2PasswordBearer(tokenUrl="token") def create_access_token(data: dict) -> str: to_encode = data.copy() expire = datetime.utcnow() + timedelta(minutes=ACCESS_TOKEN_EXPIRE_MINUTES) to_encode.update({"exp": expire}) return jwt.encode(to_encode, SECRET_KEY, algorithm=ALGORITHM) async def get_current_user(token: str = Depends(oauth2_scheme)): try: payload = jwt.decode(token, SECRET_KEY, algorithms=[ALGORITHM]) username: str = payload.get("sub") if username is None: raise HTTPException(status_code=401, detail="Invalid token") except JWTError: raise HTTPException(status_code=401, detail="Invalid token") return username
로컬에서 돌리는 AI가 이 정도 코드를 생성한다는 게 놀랍다.
8B 모델 기준으로 코드 품질은 "쓸 만하다"였습니다. 기본 구조는 정확했고, import 누락이나 문법 에러 없이 바로 실행 가능한 코드를 뱉어냈습니다. 다만 에러 핸들링이 좀 단순하고, Pydantic 모델 정의 같은 세부 사항은 추가 프롬프트가 필요했습니다. 14B로 올리면 확실히 한 단계 나아져서, 프로덕션에 가까운 코드 구조를 만들어줬습니다.
벤치마크 수치로 보면 Qwen3.5-397B-A17B 풀모델은 LiveCodeBench v6에서 83.6점으로, 경쟁 코딩 문제를 인간 수준으로 풀어냅니다. 물론 로컬에서 돌리는 8B 모델은 이보다 성능이 낮지만, "내 컴퓨터에서 API 비용 없이 이 정도 코드를 짜준다"는 점에서 충분한 가치가 있었습니다.
추론 성능
Thinking Mode를 켜고 수학 문제를 던져봤습니다. AIME 수준의 수학 문제는 아니었지만, "1부터 100까지의 소수 중 끝자리가 7인 것의 합"이라는 문제에 8B 모델이 정확하게 답을 내놨습니다. 추론 과정도 단계별로 보여줘서 디버깅하기 좋았고요.
풀모델 기준 AIME26에서 91.3점, Terminal-Bench 2.0에서 52.5점을 기록했는데, 특히 에이전틱 워크플로우 벤치마크인 Terminal-Bench에서 이전 세대(Qwen3-Max의 22.5점) 대비 2배 이상 향상된 점이 눈에 띕니다.
장점 3가지
1. MoE 아키텍처의 효율성이 체감된다
397B 파라미터 중 17B만 활성화한다는 게 단순한 스펙 얘기가 아니었습니다. 알리바바에 따르면 이전 세대 대비 디코딩 속도가 19배 빨라졌고, 비용은 60% 낮아졌습니다. 로컬 8B 모델도 M3 Max에서 초당 약 35토큰 정도로 꽤 쾌적하게 응답했습니다.
2. 201개 언어 지원, 한국어도 쓸 만하다
토크나이저 어휘가 25만 토큰으로 늘면서 한국어 토큰 효율이 개선됐습니다. 같은 한국어 문장을 GPT-4o와 Qwen3.5에 넣었을 때, Qwen3.5의 토큰 소비량이 약 15% 적었습니다. API로 쓸 때 비용 절감 효과가 있겠죠.
3. 오픈웨이트라서 커스터마이징이 자유롭다
Unsloth 같은 도구로 파인튜닝이 가능하고, 라이선스도 Apache 2.0 기반이라 상업적 사용에 제한이 거의 없습니다. 회사에서 민감한 데이터를 다루는 경우, 클라우드 API 없이 로컬에서 돌릴 수 있다는 건 큰 장점입니다.
단점 3가지
1. 한국어 길이가 늘어나면 품질이 떨어진다
짧은 응답은 괜찮지만, 2000자 이상의 한국어 글을 쓰게 하면 문장 반복, 어색한 접속사, 중국어 직역체가 나타납니다. 이건 8B, 14B 모두에서 발생했고, 중국 기업 모델의 한계일 수 있습니다.
2. 풀모델은 로컬 실행이 사실상 불가능하다
벤치마크에서 GPT-5.2를 이겼다는 건 397B 풀모델 얘기입니다. 로컬에서 실행 가능한 8B, 14B 모델은 당연히 그 수준에 미치지 못합니다. "Qwen3.5가 GPT를 이겼다"는 뉴스만 보고 기대하면 실망할 수 있어요.
3. 벤치마크 검증이 아직 부족하다
알리바바의 "80% 벤치마크 우위" 주장은 아직 독립적 검증이 진행 중입니다. 자체 벤치마크 결과만으로 판단하기엔 이른 감이 있고, 실제 사용자 리포트가 더 쌓여야 정확한 평가가 가능할 것 같습니다.
오픈소스 LLM의 매력은 내 손으로 직접 컨트롤할 수 있다는 것이다.
누구에게 추천하나
독자 유형 추천 여부 이유 오픈소스 LLM에 관심 있는 개발자 강력 추천 Llama 4와 함께 2026 최고의 오픈소스 모델. 비교 체험 필수 사내 데이터 보안이 중요한 기업 추천 API 없이 로컬/온프레미스 배포 가능. Apache 2.0 라이선스 최고 수준의 한국어 AI를 원하는 사용자 조건부 추천 짧은 응답은 괜찮지만, 긴 한국어 생성은 Claude가 낫다 코딩 보조로 쓰고 싶은 개발자 추천 (14B 이상) 8B는 보조용, 14B부터 실무 수준. GPU 메모리 확인 필요 AI를 처음 접하는 비개발자 비추천 ChatGPT나 Claude.ai 웹 인터페이스가 훨씬 접근성 높음
마무리: 오픈소스 LLM, 이제 진짜 무섭다
오픈소스 AI 생태계가 빠르게 진화하고 있다.
Llama 4에 이어 Qwen3.5까지, 2026년 초반 오픈소스 LLM의 발전 속도가 무섭습니다. 몇 년 전만 해도 "로컬 LLM은 장난감 수준"이었는데, 지금은 제 맥북에서 API 비용 없이 프로덕션급 코드를 생성해주는 수준에 도달했습니다.
물론 아직 Claude Opus 4.5나 GPT-5.2 같은 최상위 클로즈드 모델과 동등하다고 말하긴 어렵습니다. 특히 한국어 긴 글쓰기나 복잡한 멀티턴 대화에서는 차이가 느껴집니다. 하지만 "무료로, 내 컴퓨터에서, 내 데이터를 외부에 보내지 않고" 쓸 수 있다는 가치는 그 어떤 벤치마크 점수보다 큽니다.
혹시 Llama 4와 Qwen3.5 중 어떤 걸 먼저 써봐야 할지 고민된다면? 제 체감으로는 코딩 목적이면 Qwen3.5, 범용 대화 목적이면 Llama 4 Scout를 추천합니다. 둘 다 Ollama에서 바로 돌릴 수 있으니, 직접 비교해보시는 걸 추천드립니다.
내부 링크:
- Llama 4 Scout vs Maverick 완전 분석: 오픈소스 LLM의 새 기준, 실무에서 바로 쓸 수 있나? (같은 오픈소스 LLM 비교 시리즈)
- DeepSeek은 정말 OpenAI를 베꼈을까? — AI 모델 디스틸레이션 논란 총정리 (중국 AI 모델의 경쟁력 관련)