작년에 회사 프로젝트에서 좀 답답한 일이 있었습니다. 고객 데이터가 섞인 코드를 AI한테 리뷰시키고 싶은데, 보안 정책상 외부 API로 코드를 내보낼 수가 없더라고요. 결국 그 부분만 손으로 했습니다. 그때 처음으로 "로컬에서 도는 모델이 있으면 좋겠다"고 진지하게 생각했어요.
2026년 현재, 이 고민의 답이 꽤 현실적이 됐습니다. GLM-5.2 같은 오픈웨이트 모델이 일부 프로프라이어터리 모델을 앞서고, Ollama 덕분에 셋업도 명령어 몇 줄로 끝나거든요. 이번 글에서는 중고 RTX 3090 한 장으로 코딩용 LLM을 로컬에 올리는 과정을 실전 기준으로 정리했습니다.
Photo by Florian Krumm on Unsplash | 중고 RTX 3090 한 장이면 32B급 코딩 모델을 로컬에서 돌린다
TL;DR
- 왜 셀프호스팅? 데이터가 외부로 안 나감(프라이버시), 토큰 요금 0, 오프라인 동작. 조직의 44%가 프라이버시를 LLM 도입 최대 걸림돌로 꼽습니다.
- 최소 사양: 중고 RTX 3090(24GB VRAM, $700~900) + 64GB RAM + 2TB NVMe + Linux. 32B급 모델까지 소화.
- VRAM 공식: Q4_K_M 기준 파라미터 10억당 약 0.6GB + 컨텍스트 여유분.
- 도구: 입문은 Ollama(명령 두 줄), 동시성·프로덕션은 vLLM.
- 모델 추천(2026): 로컬은 Qwen 3.6 27B·Devstral Small 2로 시작, 최상위 에이전트 성능은 GLM-5.2(MIT 라이선스).
- 주의: 포트 11434는 인증이 없습니다. 절대 인터넷에 그대로 노출 금지.
사전 준비: 어떤 GPU가 필요한가
결론부터 말하면, 쓰려는 모델 크기가 VRAM을 결정합니다. Q4_K_M 양자화 기준 표입니다.
| 모델 크기 | VRAM(2K 컨텍스트) | 대표 GPU |
|---|---|---|
| 7~8B | 5~6 GB | RTX 4060 (8GB) |
| 13~14B | 9~10 GB | RTX 3060 (12GB) |
| 32B | 22~24 GB | RTX 3090 / 4090 |
| 70B | 38~48 GB | RTX 6000 Ada (48GB) |
가성비 스윗스팟은 중고 RTX 3090(24GB) 입니다. 32B 모델까지 무난하고, 64GB 시스템 램·2TB NVMe·1000W 파워와 함께 쓰면 됩니다. 풀시스템 소비전력은 약 550W, 전기료는 $0.12/kWh 기준 월 $48 정도예요. 전력이 부담이면 Mac Studio M4 Max(128GB 통합메모리)가 40~60W로 월 $3 수준이라 대안이 됩니다.
참고: 32GB짜리 RTX 5090으로도 70B는 안 됩니다. 32B급이 상한이에요. 70B를 제대로 돌리려면 48GB급(RTX 6000 Ada)이 필요합니다.
1단계: Ollama 설치·실행
가장 빠른 길은 Ollama입니다. 리눅스 기준 설치와 실행이 이게 전부예요.
# 설치 (Linux)
curl -fsSL https://ollama.com/install.sh | sh
# 모델 내려받고 바로 실행 (Qwen 3.6 27B 예시)
ollama run qwen3.6:27b
# 백그라운드 서버로 띄우기
ollama serve
Ollama가 모델 다운로드·양자화·GPU 메모리 관리를 알아서 해주고, OpenAI 호환 REST API를 http://localhost:11434/v1로 열어줍니다.
2단계: 에이전트·IDE용 설정 (이거 안 하면 헛수고)
기본값 그대로 쓰면 컨텍스트가 2048토큰이라 코딩 에이전트엔 턱없이 부족합니다. 환경변수 두 개는 꼭 잡으세요.
# 컨텍스트 길이 확대 (에이전트용 필수)
export OLLAMA_CONTEXT_LENGTH=65536
# 외부 IDE(Cursor 등)에서 접근 허용
export OLLAMA_ORIGINS="*"
그리고 JSON 툴 호출을 지원하는 모델을 골라야 에이전트가 제대로 돕니다(Qwen3, Llama 3.3 70B, Mistral Nemo 등).
3단계: 기존 코드 그대로 붙이기
OpenAI 호환이라, 쓰던 OpenAI 클라이언트에서 base_url만 바꾸면 끝입니다. 코드 나머지는 손 안 대도 돼요.
from openai import OpenAI
# 클라우드 대신 로컬 Ollama를 가리키기만 하면 된다
client = OpenAI(base_url="http://localhost:11434/v1", api_key="ollama")
resp = client.chat.completions.create(
model="qwen3.6:27b",
messages=[{"role": "user", "content": "이 함수 리팩터링해줘: ..."}],
)
print(resp.choices[0].message.content)
/v1/chat/completions, /v1/embeddings, /v1/models 등 표준 엔드포인트를 그대로 제공합니다.
Photo by Nathan Anderson on Unsplash | base_url만 바꾸면 기존 코드가 로컬 모델로 붙는다
4단계: 원격 접근은 안전하게
집 서버를 밖에서 쓰고 싶을 때가 문제입니다. 포트 11434는 인증이 전혀 없습니다. 그대로 열면 남이 내 GPU를 공짜로 씁니다.
- 권장: Tailscale(개인 플랜 무료)로 테일넷 안에서만 접근. Tailscale Serve(비공개) 사용, Funnel(공개)은 금지.
- 굳이 공개해야 하면 Nginx + HTTP Basic Auth 같은 인증 리버스 프록시를 앞에 두세요.
Ollama vs vLLM: 언제 뭘 쓰나
- Ollama: 한 번에 한 모델, 즉시 셋업, 개인·개발용에 최적.
- vLLM: PagedAttention 기반 동시성, continuous batching, 멀티 GPU 텐서 병렬(
--tensor-parallel-size N). 여러 사용자·프로덕션 서빙용.
혼자 코딩 보조로 쓸 거면 Ollama, 팀에 API로 뿌릴 거면 vLLM이라고 생각하면 편합니다. 모델 자체가 궁금하면 DeepSeek V4 완전 정리와 Kimi K2.6 vs Qwen 3.6 Max-Preview에서 오픈웨이트 진영을 정리해 뒀습니다.
자주 겪는 문제
- 컨텍스트가 짧게 잘린다 →
OLLAMA_CONTEXT_LENGTH안 잡은 것. 기본 2048이 범인. - IDE에서 접속 안 됨 →
OLLAMA_ORIGINS="*"누락, 또는 방화벽/바인딩 문제. - VRAM 부족(OOM) → 모델 크기가 GPU 초과. 더 낮은 양자화(Q4)나 작은 모델로 내리기.
- 툴 호출이 안 먹는다 → JSON 툴콜 지원 모델인지 확인(Qwen3 등).
Photo by Kevin Ache on Unsplash | 팀 서빙은 vLLM으로 확장한다
솔직한 한계
셀프호스팅이 만능은 아닙니다. 정직하게 짚을게요.
- 최상위 성능은 아직 프런티어를 못 따라갑니다. GLM-5.2가 인상적이지만, 초고난도 에이전트 작업에선 Claude·GPT 최상위 모델이 여전히 앞섭니다.
- 초기 비용·유지보수 부담. GPU $700~900 + 전기료 + 드라이버·모델 관리 시간이 듭니다. 가끔만 쓸 거면 클라우드 API가 더 쌉니다.
- 소음·발열. 24시간 켜두면 방이 은근히 덥고 시끄럽습니다. 이건 겪어봐야 압니다.
- 32B가 사실상 상한(3090 기준). 70B급을 원하면 하드웨어 투자가 확 커집니다.
즉 "민감 데이터 + 꾸준한 사용량" 조합일 때 셀프호스팅이 빛납니다. 반대면 클라우드가 편해요.
마무리
핵심은 이겁니다. 2026년의 오픈웨이트 모델과 Ollama 조합이면, 데이터를 한 발짝도 내보내지 않고 코딩 보조 LLM을 로컬에서 돌릴 수 있습니다. 작년의 저처럼 "보안 때문에 AI를 못 쓰는" 상황이라면 충분히 시도해볼 만해요.
저는 중고 3090으로 Qwen 3.6 27B부터 붙여봤는데, 일상 리팩터링·코드 설명 수준은 체감상 충분했습니다. 다른 AI Tutorial 글도 함께 보시면 워크플로우 구성에 도움이 될 거예요. 여러분은 클라우드 API파인가요, 아니면 로컬 셀프호스팅파인가요?
참고 자료
- Build a Home AI Server in 2026: Self-Hosted LLM Guide — Digital Applied, 2026년
- Best Open Source Self-Hosted LLMs for Coding in 2026 — Pinggy, 2026년
- Best Open-Source LLM Models in 2026 — Hugging Face, 2026년
- Best Open Source LLM 2026 Ranking + Ollama Guide — WhatLLM, 2026년
함께 읽으면 좋은 글:
- DeepSeek V4 완전 정리: V4-Pro·V4-Flash — 1M 컨텍스트·오픈웨이트 - 셀프호스팅으로 올릴 만한 오픈웨이트 모델
- Kimi K2.6 vs Qwen 3.6 Max-Preview: 1T 모델 두 개, 정반대 전략 - 로컬 후보 Qwen이 어떤 모델인지