TL;DR
- OpenAI가 2026년 5월 5일 GPT-5.5 Instant를 ChatGPT 모든 플랜의 기본 모델로 교체했습니다.
- 환각 감소: 고위험 영역(의학·법률·금융)에서 GPT-5.3 Instant 대비 52.5% 감소
- 사용자가 플래그한 오류 대화: 부정확한 주장 37.3% 감소
- 수학 벤치마크: AIME 2025에서 81.2점 (GPT-5.3: 65.4점) — 24% 향상
- 메모리 소스: 어떤 이전 대화·파일·Gmail을 참조했는지 투명하게 공개하는 신기능
- API 가격: $5/1M 입력, $30/1M 출력 — GPT-5.4 대비 2배 인상
- 컨텍스트 창: 922K 입력 토큰 (실질적 1M context window)
단도직입으로 말하면 — 환각 수치는 인상적이지만, "어떤 종류의 환각"이 줄었는지가 핵심입니다. 코딩 에이전트 작업에서는 여전히 Claude 계열이 앞서고 있고요.
Photo by Unsplash | GPT-5.5 Instant, 2026년 5월 5일 ChatGPT 기본 모델로 정식 투입됐습니다
지난주에 회사 법무팀에서 저한테 연락이 왔습니다. "ChatGPT로 계약서 내용 확인해도 됩니까?" 솔직히 이전 같으면 선뜻 대답하기 어려웠습니다. GPT-5.3 Instant가 특정 법 조항을 "이러이러한 내용으로 규정되어 있습니다"라고 자신 있게 설명하다가, 알고 보니 없는 조항이었던 경험이 있었거든요. 그 사건 이후로 업무 목적으로 ChatGPT를 쓸 때마다 늘 별도로 검증을 돌렸습니다. 번거로웠지만 어쩔 수 없었습니다.
근데 5월 5일, OpenAI가 ChatGPT 기본 모델을 GPT-5.5 Instant로 조용히 교체했습니다. 조용히라고 했지만 — 실제로는 꽤 큰 변화입니다.
GPT-5.3 Instant 때 실제로 겪은 문제
GPT-5.3 Instant는 나쁜 모델이 아니었습니다. 일상적인 작업 — 문서 요약, 코드 설명, 이메일 초안 — 에서는 충분히 쓸 만했습니다. 문제는 고위험 영역에서 확신을 갖고 틀리는 경우였습니다.
제가 사이드 프로젝트에서 GDPR 관련 문서를 정리할 때 GPT-5.3을 쓴 적이 있습니다. 특정 규정의 적용 범위에 대해 자신 있게 설명해줬는데, 나중에 유럽 법무 검토를 받다가 틀린 내용이 포함됐다는 걸 알게 됐습니다. AI가 틀렸다는 것보다, 틀린 내용을 아무 경고 없이 단정적으로 말했다는 게 문제였습니다.
OpenAI 자체 평가 데이터에서도 같은 패턴이 나옵니다. 사용자들이 "팩트 오류"로 플래그한 대화들을 분석한 결과, GPT-5.3 대비 GPT-5.5에서 부정확한 주장이 37.3% 줄었습니다. 저만의 경험이 아니었던 거죠 (OpenAI 공식 블로그, 2026년 5월 5일).
GPT-5.5 Instant가 구체적으로 무엇을 바꿨는가
핵심 수치: 환각 감소
| 지표 | GPT-5.3 Instant | GPT-5.5 Instant | 개선폭 |
|---|---|---|---|
| 고위험 영역 환각 | 기준치 | −52.5% | ↑52.5% |
| 플래그된 대화 오류 | 기준치 | −37.3% | ↑37.3% |
| AIME 2025 (수학) | 65.4점 | 81.2점 | +24% |
| MMMU-Pro (멀티모달) | 69.2점 | 76점 | +9.8% |
여기서 중요한 단서가 있습니다. "고위험 영역(의학·법률·금융)에서"라는 조건이 붙습니다. 일반적인 작업에서의 환각 감소폭은 이 수치보다 작을 수 있습니다. 실제로 The Decoder 보도에 따르면, SWE-bench Pro 같은 코딩 벤치마크에서는 Claude Opus 4.7 대비 환각률이 아직 높은 측면이 있습니다 (The Decoder, 2026년 5월).
즉, "어느 작업에서 환각이 줄었는가"가 관건입니다.
Photo by Unsplash | LLM 성능 향상은 미세한 튜닝의 결과입니다. GPT-5.5도 마찬가지
신기능 1: 메모리 소스 투명성
개인적으로 가장 마음에 드는 변화입니다. GPT-5.5 Instant는 답변을 생성할 때 과거 대화, 저장 파일, 연결된 Gmail 중 어느 것을 참조했는지 구체적으로 표시합니다.
이전에는 "개인화된 답변"이라고만 했지 어떤 맥락을 썼는지 알 방법이 없었습니다. 이제는 "지난 3월 대화에서 언급하신 A 프로젝트를 참고했습니다" 형태로 출처가 나오고, 그 맥락을 삭제하거나 수정할 수 있습니다. 메모리 소스 기능은 Plus·Pro에 먼저 제공되고 이후 Free 플랜으로 확대 예정입니다.
Gmail 연동이 불안했던 분들에게 특히 의미 있는 변화입니다. "내 메일을 AI가 읽는다"는 막연한 불안보다, "이 답변은 이 메일을 참조했다"는 구체적인 정보가 오히려 신뢰를 높입니다.
신기능 2: 모델 피커 개편
Plus·Pro 사용자는 이제 메시지를 입력하는 컴포저 안에서 직접 모델을 전환할 수 있습니다. Instant(빠른 응답)와 Thinking(심층 추론) 사이를 대화 도중에 바꿀 수 있게 됐습니다. 이전에는 설정 메뉴에서 바꿔야 했던 게, 이제는 대화 흐름을 끊지 않고 즉시 전환됩니다.
복잡한 다단계 추론이 필요한 상황에서 Instant → Thinking으로 바꿔 쓰는 워크플로우가 자연스러워졌습니다.
컨텍스트 창: 922K 입력
API 기준으로 922K 입력 토큰, 128K 출력 토큰을 지원합니다. 실질적으로 1M 컨텍스트 창이라고 보면 됩니다. 이 주제와 관련해서 예전에 GPT-5.2의 40만 토큰 컨텍스트 시대를 다룬 적 있는데요, 그 때만 해도 "40만 토큰이 어마어마하다"고 했었는데 두 배 이상이 됐습니다. 격세지감입니다.
ChatGPT UI에서는 이 용량이 일부 제한되지만, API 직접 호출 시 장문 문서 처리가 눈에 띄게 넓어졌습니다.
GPT-5.5 Instant API: 실전 사용법
API는 2026년 4월 24일부터 사용 가능했습니다. 모델 ID는 gpt-5.5입니다.
from openai import OpenAI
client = OpenAI()
# 고위험 영역 질의 시 "불확실성 명시" 지시를 시스템 프롬프트에 추가
response = client.chat.completions.create(
model="gpt-5.5",
messages=[
{
"role": "system",
"content": (
"당신은 법률·의학·금융 분야의 AI 어시스턴트입니다. "
"확실하지 않은 내용은 반드시 '확인이 필요합니다' 또는 "
"'전문가 검토를 권장합니다'로 명시해주세요."
)
},
{
"role": "user",
"content": "GDPR 제17조 삭제권의 적용 예외 사항을 요약해주세요."
}
],
max_tokens=512
)
print(response.choices[0].message.content)
가격 정리 (API 기준):
gpt-5.5(Instant): 입력 $5/1M 토큰, 출력 $30/1M 토큰gpt-5.5-pro: 입력 $30/1M 토큰, 출력 $180/1M 토큰- Batch/Flex 모드: 표준 가격의 절반
- 272K 토큰 초과 시 장문 할증 적용 (2× 입력, 1.5× 출력)
GPT-5.4 대비 2배 인상된 가격입니다. 대용량 처리라면 Batch 모드 활용을 권장합니다.
GPT-5.5 Instant vs GPT-5.3 Instant: 직접 비교
같은 프롬프트를 두 모델에 돌려봤습니다. 법률·의학 관련 복잡한 시나리오를 동일하게 넣어봤을 때의 체감 차이입니다.
Before (GPT-5.3 Instant):
- 법률 조항 요약 시 존재하지 않는 조항을 "이러이러한 조항에 따르면"이라며 인용
- "연구에 따르면"이라는 표현 뒤에 출처 불명 데이터 제시
- 응답이 길고 포맷 과다 — 헤더·볼드·리스트가 불필요하게 많음
After (GPT-5.5 Instant):
- 동일 시나리오에서 "이 부분은 법률 전문가 확인이 필요합니다" 명시
- 불확실한 내용을 단정 짓지 않고 "제가 확인할 수 없는 영역입니다"로 처리
- 응답이 간결해짐 — 덜 verbose하고 핵심 위주
완전히 환각이 사라진 건 아닙니다. 하지만 확신의 정도가 달라졌습니다. GPT-5.3이 틀린 정보를 단정적으로 말했다면, GPT-5.5는 "확실하지 않다"는 신호를 더 자주 보냅니다. 실무에서 이게 더 중요한 차이입니다. 모르는 걸 모른다고 하는 AI가 훨씬 쓸 만하니까요.
Claude Opus 4.7과 비교: 어떤 상황에 어떤 모델?
이 블로그에서 Claude Opus 4.6 vs GPT-5.3 Codex 비교를 다룬 적 있습니다. GPT-5.5 출시로 그 비교가 어떻게 달라졌을까요?
| 상황 | GPT-5.5 Instant | Claude Opus 4.7 |
|---|---|---|
| 고위험 팩트 확인 (의학·법·금융) | ✅ 52.5% 환각 감소 | ✅ Terminal-Bench 환각률 36% |
| 코딩·에이전트 작업 | 보통 | ✅ SWE-bench Pro 우위 |
| 개인화 일상 대화 | ✅ 메모리 소스 기능 | 보통 |
| API 비용 | △ $5/1M (GPT-5.4 대비 2배) | △ 유사 수준 |
| 무료 사용 | ✅ 모든 플랜 기본 | △ 무료 제한 |
| 컨텍스트 창 | ✅ 922K 입력 | ✅ 1M context |
| 수학·STEM | ✅ AIME 81.2 | 보통 |
공정하게 말하면: 코딩 에이전트 및 SWE-bench 기준에서는 아직 Claude Opus 4.7이 앞섭니다. GPT-5.5의 환각 감소는 주로 자연어 기반 고위험 질의에서 두드러집니다. 두 모델을 용도에 따라 나눠 쓰는 게 현재로선 가장 합리적인 선택입니다.
Photo by Unsplash | GPT-5.5와 Claude Opus 4.7, 단일 모델보다 상황별 조합이 더 강합니다
실전 팁: GPT-5.5 Instant 잘 쓰는 법
1. 고위험 질의엔 시스템 프롬프트에 "불확실성 명시" 지시 추가 "확실하지 않은 내용은 반드시 명시해주세요"라는 지시를 앞에 붙이면 환각 억제 효과가 배가됩니다. GPT-5.5는 이 지시에 GPT-5.3보다 훨씬 잘 반응합니다.
2. 메모리 소스 주기적 정리 ChatGPT 설정 → 메모리에서 어떤 컨텍스트가 쌓였는지 정기적으로 확인하세요. 예전 직장·프로젝트 정보가 새 작업에 영향을 줄 수 있습니다. 불필요한 맥락은 삭제해두는 게 좋습니다.
3. 코딩 에이전트는 여전히 Claude 계열 고려 순수 코딩 자동화 작업은 저는 여전히 Claude Code를 위주로 씁니다. GPT-5.5가 코딩에서 나쁘지 않지만, SWE-bench Pro 기준으로는 Claude 계열이 앞서는 상황입니다. 다른 AI Tools & Review 글에서도 이 주제를 계속 다룰 예정입니다.
4. API 비용 최적화 대용량 배치 처리라면 Batch API를 활용하세요(표준 가격의 절반). 272K 토큰 초과 장문 처리엔 할증이 붙으니, 긴 문서는 청킹 전략을 미리 설계하는 게 비용 효율적입니다.
5. Thinking 모드 활용 시점 구분 GPT-5.5 Instant는 일상적인 작업에 충분합니다. 하지만 다단계 수학 추론, 복잡한 법적 시나리오 분석 같은 경우엔 모델 피커에서 Thinking 모드로 전환해보세요. 속도를 희생하지만 정확도가 다르게 나옵니다.
아, 그리고 TMI인데 — GPT-5.5부터 응답에 이모지를 덜 쓰게 됐다는 보고가 있습니다. 저는 개인적으로 그게 꽤 반가웠습니다.
총평 — 스코어카드
| 항목 | 점수 | 코멘트 |
|---|---|---|
| 환각 감소 | ★★★★☆ | 고위험 영역에서 인상적. 코딩 벤치마크는 여전히 개선 여지 |
| 응답 품질 | ★★★★☆ | 간결해지고 과잉 포맷이 줄어든 점 긍정적 |
| 메모리 투명성 | ★★★★★ | 업계 선도적 기능. 프라이버시 신뢰도 확실히 향상 |
| 수학·STEM | ★★★★☆ | AIME 81.2 — 유의미한 향상 |
| API 비용 효율 | ★★★☆☆ | GPT-5.4 대비 2배 인상. 성능 대비 합리적이지만 부담 |
| 코딩 에이전트 | ★★★☆☆ | 일반 코딩은 충분, 에이전트 작업은 Claude Opus 4.7 우위 |
| 종합 | ★★★★☆ | 법률·의학·금융 팩트체킹을 자주 하는 분께 강력 추천 |
환각이 두려워 고위험 질의를 피해왔다면, GPT-5.5 Instant는 그 장벽을 낮춰줍니다. 완벽하진 않지만, 확신의 방향은 올바르게 바뀌고 있습니다. 이전 편 GPT-5.4 환각 33% 감소 분석과 비교해보면 OpenAI의 방향성이 일관됨을 알 수 있습니다.
참고 자료
- GPT-5.5 Instant: smarter, clearer, and more personalized — OpenAI, 2026년 5월 5일
- OpenAI releases GPT-5.5 Instant, a new default model for ChatGPT — TechCrunch, 2026년 5월 5일
- GPT-5.5 tops benchmarks but still hallucinates frequently — The Decoder, 2026년 5월
- GPT-5.5 Benchmarks, Pricing & Context Window — LLM Stats, 2026년 5월 기준
함께 읽으면 좋은 글:
- GPT-5.4 '가장 정확한 모델' 활용법: 환각 33% 감소 - GPT 환각 감소 이전 편과 비교해보세요
- Claude Opus 4.6 vs GPT-5.3 Codex — 같은 날 출시된 두 AI - Anthropic vs OpenAI 코딩 성능 비교