OpenAI GPT-Realtime-2 완전 정리: 음성 추론·번역·전사 API 개발 가이드 [2026-05]

Q: 세 모델이 뭐가 다른가

OpenAI는 이번에 모델 하나가 아니라 목적별로 분리된 세 가지를 냈습니다. 이 방향성이 중요합니다. "음성 AI"를 단일 모델로 만들지 않고, 추론·번역·전사 각각을 최적화한 별도 모델을 제공하는 겁니다.

Q: GPT-Realtime-2: 뭐가 달라졌나

이전 gpt-realtime-1.5는 컨텍스트 창이 32K였습니다. 128K로 늘어나면서 달라지는 게 뭐냐면:

Q: GPT-Realtime-Translate: 한국어도 지원하는 실시간 통역

이게 저한테 개인적으로 굉장히 흥미로운 모델입니다. 별도 전용 모델(gpt-realtime-translate)로 분리됐다는 게 핵심인데, 엔드포인트도 다릅니다.

TL;DR

2026년 5월 7-8일, OpenAI가 Realtime API를 GA(정식 출시)하며 세 가지 새 모델 공개
GPT-Realtime-2: GPT-5급 추론 탑재, 컨텍스트 창 32K → 128K로 4배 확장, Big Bench Audio 기준 전 버전 대비 +15.2%
GPT-Realtime-Translate: 70개 이상 입력 언어 → 13개 출력 언어 실시간 통역 (한국어 포함), 분당 $0.034
GPT-Realtime-Whisper: 스트리밍 전사, 분당 $0.017
WebSocket API, PCM16 24kHz 오디오 포맷, 공식 Python·Node.js SDK 모두 지원
GPT-Realtime-2 가격: 입력 $32/1M 토큰 (캐시 $0.40), 출력 $64/1M 토큰

지난 3월, 음성 AI 어시스턴트를 사이드 프로젝트로 만들기 시작했습니다. 기술 스택 문서를 읽어주고 용어를 즉각 설명해주는 '개발용 음성 도우미'였는데, OpenAI Realtime API 베타를 붙였더니 꽤 쓸 만하게 돌아갔습니다.

문제는 하나였습니다. 컨텍스트 제한.

32K 토큰이면 코드 파일 몇 개 올리고 10분쯤 대화하면 벌써 위태위태했거든요. 긴 API 레퍼런스 문서를 넣으면 대화 초반에 이미 절반쯤 차 버리는 느낌. 그 좌절감을 3개월 동안 안고 살았습니다.

그런데 지난주 목요일 아침, 팀 Slack 채널에 링크 하나가 올라왔습니다.

"Realtime API GA — GPT-Realtime-2 출시"

처음엔 솔직히 이름만 바꾼 마케팅 업데이트겠거니 했습니다. 그런데 스펙 시트를 열고 '128,000 tokens'을 보는 순간, 저도 모르게 "아" 하는 소리가 나왔습니다.

GPT-Realtime-2 공식 소개 — OpenAI 음성 AI 모델 업데이트 2026년 5월 출처: YouTube — GPT-Realtime-2: OpenAI's MOST Intelligent Voice Model Yet! | GPT-Realtime-2 릴리스 데모

세 모델이 뭐가 다른가

OpenAI는 이번에 모델 하나가 아니라 목적별로 분리된 세 가지를 냈습니다. 이 방향성이 중요합니다. "음성 AI"를 단일 모델로 만들지 않고, 추론·번역·전사 각각을 최적화한 별도 모델을 제공하는 겁니다.

모델명	핵심 용도	가격	출시일
`gpt-realtime-2`	GPT-5급 음성 추론 에이전트	$32/1M input · $64/1M output	2026-05-08 GA
`gpt-realtime-translate`	실시간 통역 (70+→13개 언어)	$0.034/분	2026-05-08 GA
`gpt-realtime-whisper`	스트리밍 전사 (낮은 레이턴시)	$0.017/분	2026-05-08 GA

여기서 GPT-Realtime-2의 캐시 입력 가격은 $0.40/1M 토큰이라는 점도 챙겨야 합니다. 반복 컨텍스트가 많은 에이전트 워크플로우라면 실제 청구액이 꽤 달라집니다.

GPT-Realtime-2: 뭐가 달라졌나

컨텍스트 창 4배 확장 — 실제로 체감이 다릅니다

이전 gpt-realtime-1.5는 컨텍스트 창이 32K였습니다. 128K로 늘어나면서 달라지는 게 뭐냐면:

긴 문서 참조 가능: API 레퍼런스 전체를 컨텍스트에 넣고도 1시간 대화 가능
멀티턴 에이전트: 복잡한 툴 호출 체인을 잃어버리지 않음
롤플레이·고객 상담 시나리오: 이전 발화를 정확히 기억하며 응답

저는 이걸 실제로 테스트해봤는데, 30분짜리 기술 세션을 그냥 통으로 대화해도 컨텍스트가 끊기지 않았습니다. 이전 버전에선 15분쯤부터 "방금 뭐 말했더라?"를 반복했거든요.

추론 품질 향상 — Big Bench Audio +15.2%

OpenAI 공식 발표에 따르면 GPT-Realtime-2(high)는 Big Bench Audio 벤치마크에서 GPT-Realtime-1.5 대비 15.2% 높은 점수를 기록했습니다. Big Bench Audio는 오디오 이해 능력을 측정하는 표준 벤치마크로, 말의 억양·감정·맥락 이해 등을 평가합니다.

실제로 쓰다 보면 차이가 느껴집니다. 특히 말을 끊었다가 이어가거나, "아 그게 아니라"로 수정할 때 더 자연스럽게 흐름을 이어받습니다. 예전엔 가끔 "이해했습니다" 하고선 다른 방향으로 가버리는 경우가 있었는데, 그런 상황이 확실히 줄었습니다.

툴 호출 신뢰도 향상

GPT-Realtime-2는 **강화된 함수 호출(tool use)**을 지원합니다. 음성 에이전트가 중간에 외부 API를 호출하고, 결과를 받아 자연스럽게 대화를 이어가는 패턴에서 신뢰도가 올라갔습니다. OpenAI 문서에서 "stronger instruction following and more reliable tool use for complex voice-agent workflows"라고 명시하고 있습니다.

빠른 시작: GPT-Realtime-2 WebSocket 연결

GPT-Realtime-2는 WebSocket 기반으로 동작합니다. 브라우저에서는 WebRTC, 서버 미디어 파이프라인(전화 시스템, 방송 인제스트 등)에서는 WebSocket을 권장합니다.

Node.js 기본 연결 예제

import WebSocket from "ws";

const ws = new WebSocket(
  "wss://api.openai.com/v1/realtime?model=gpt-realtime-2",
  {
    headers: {
      Authorization: `Bearer ${process.env.OPENAI_API_KEY}`,
      "OpenAI-Beta": "realtime=v1",
    },
  }
);

ws.on("open", () => {
  // 세션 설정 — 한국어 응답, VAD 활성화
  ws.send(
    JSON.stringify({
      type: "session.update",
      session: {
        modalities: ["audio", "text"],
        voice: "alloy",
        turn_detection: {
          type: "server_vad",
          threshold: 0.5,
          silence_duration_ms: 600,
        },
        tools: [
          {
            type: "function",
            name: "search_docs",
            description: "내부 문서에서 정보를 검색합니다",
            parameters: {
              type: "object",
              properties: {
                query: { type: "string", description: "검색 쿼리" },
              },
              required: ["query"],
            },
          },
        ],
      },
    })
  );
});

ws.on("message", (data) => {
  const event = JSON.parse(data);
  if (event.type === "response.audio.delta") {
    // PCM16 24kHz 오디오 청크 수신
    const audioChunk = Buffer.from(event.delta, "base64");
    // 스피커로 스트리밍 재생
    playAudioChunk(audioChunk);
  }
  if (event.type === "response.function_call_arguments.done") {
    // 툴 호출 결과 처리
    handleToolCall(event.name, JSON.parse(event.arguments));
  }
});

오디오 입력 포맷은 PCM16, 24kHz, 모노, Base64 인코딩이어야 합니다. 이벤트당 최대 15MB까지 허용됩니다.

// 마이크 오디오 → Realtime API 전송
function sendAudioChunk(pcm16Buffer) {
  ws.send(
    JSON.stringify({
      type: "input_audio_buffer.append",
      audio: pcm16Buffer.toString("base64"),
    })
  );
}

GPT-Realtime-2 음성 에이전트 실시간 데모 출처: YouTube — OpenAI's NEW Voice Agent Model - GPT-RealTime 2 is dope! | 음성 에이전트 실전 데모

GPT-Realtime-Translate: 한국어도 지원하는 실시간 통역

이게 저한테 개인적으로 굉장히 흥미로운 모델입니다. 별도 전용 모델(gpt-realtime-translate)로 분리됐다는 게 핵심인데, 엔드포인트도 다릅니다.

/v1/realtime/translations

기존 /v1/realtime과 다릅니다. 세션 설정 시 output.language를 지정하면 입력 언어를 자동 감지해서 해당 언어로 변환해 줍니다.

지원 언어

입력: 70개 이상 언어 (자동 감지)
출력 13개 언어: 스페인어, 포르투갈어, 프랑스어, 일본어, 러시아어, 중국어, 독일어, 한국어, 힌디어, 인도네시아어, 베트남어, 이탈리아어, 영어

한국어가 출력 언어에 포함돼 있습니다. 한국어 강연을 영어로 실시간 통역하거나, 반대로 영어 콘텐츠를 한국어로 번역하는 서비스를 만들 수 있습니다.

실시간 번역 Python 예제

import asyncio
import websockets
import json
import base64
import os

async def translate_voice():
    url = "wss://api.openai.com/v1/realtime/translations?model=gpt-realtime-translate"
    headers = {
        "Authorization": f"Bearer {os.environ['OPENAI_API_KEY']}",
        "OpenAI-Beta": "realtime=v1",
    }

    async with websockets.connect(url, extra_headers=headers) as ws:
        # 세션 설정: 영어 입력 → 한국어 출력
        await ws.send(json.dumps({
            "type": "session.update",
            "session": {
                "audio": {
                    "output": {
                        "language": "ko"  # 한국어로 번역 출력
                    }
                },
                "transcription": {
                    "model": "gpt-realtime-whisper"  # 전사도 동시에
                }
            }
        }))

        print("번역 세션 시작. 영어로 말하면 한국어로 번역됩니다.")
        # 오디오 스트리밍 및 번역 결과 수신 처리...

흥미로운 특징 중 하나가 Dynamic Voice Adaptation입니다. 고정된 목소리를 쓰는 게 아니라, 원본 화자의 피치·톤·말투를 어느 정도 반영한 번역 음성을 생성합니다. 다중 화자 세션에서는 화자가 바뀔 때 번역 음성도 자연스럽게 달라집니다.

비용 측면에서 보면 $0.034/분이라 1시간 방송 번역에 약 $2.04입니다. 전문 동시통역 서비스 비용과 비교하면 어마어마한 차이입니다. 물론 아직 번역 품질이 전문 통역사 수준은 아닙니다. 기술 세션이나 비즈니스 미팅 수준의 정확도는 충분히 나오지만, 뉘앙스가 중요한 협상 자리에서 단독으로 쓰기엔 주의가 필요합니다.

GPT-Realtime-Whisper: 스트리밍 전사

말하는 즉시 텍스트가 나타나는 경험을 구현하고 싶다면 GPT-Realtime-Whisper입니다. 기존 Whisper API의 배치 처리 방식과 달리, 음성이 들어오는 순간순간 부분 전사를 스트리밍으로 내보냅니다.

GPT-Realtime-Translate와 함께 쓰면 번역 + 전사를 동시에 받을 수 있습니다. 라이브 캡션 + 실시간 번역 자막이 단일 API 호출로 가능한 셈입니다.

분당 $0.017, 1시간이면 약 $1.02입니다. 미팅 전사 도구나 고객 상담 실시간 분석 시스템에 얹기에 충분히 합리적인 가격입니다.

실전에서 겪은 오류와 해결법

며칠간 실제로 마이그레이션하면서 몇 가지 발목을 잡는 부분이 있었습니다.

1. 오디오 포맷 불일치

Error: Audio format mismatch. Expected PCM16 mono 24kHz

가장 흔한 오류입니다. 마이크에서 바로 뽑은 오디오는 스테레오거나 샘플링 레이트가 다른 경우가 많습니다. Node.js에서는 @breejs/sox 같은 라이브러리로 변환하거나, 브라우저에서는 AudioWorklet으로 PCM 변환 후 전송해야 합니다.

// AudioContext로 16kHz → 24kHz 변환 예시
const audioContext = new AudioContext({ sampleRate: 24000 });
const source = audioContext.createMediaStreamSource(mediaStream);
// ... PCM16 변환 처리

2. 연결 타임아웃

활동이 없으면 약 30초 후 서버가 연결을 끊습니다. 장시간 세션이라면 주기적으로 ping을 보내거나, 음성 감지(VAD) 설정을 활용해 활성 상태를 유지해야 합니다.

3. 128K 컨텍스트도 무한은 아닙니다

컨텍스트가 커졌다고 무한정 쌓아두면 비용이 급격히 올라갑니다. 대화 요약 + 컨텍스트 롤링 전략이 여전히 중요합니다. OpenAI 문서에도 "longer workflows"를 지원한다고 하지, 컨텍스트 관리를 안 해도 된다고 하지는 않습니다.

비용 계산: 실제 서비스 시나리오

"1일 1,000건의 5분짜리 음성 고객 상담"을 가정해봤습니다.

항목	계산	월 비용 (30일)
GPT-Realtime-2 입력	1,000건 × 5분 × 약 3,000 토큰/분	~$450
GPT-Realtime-2 출력	출력 토큰 입력의 약 30% 가정	~$270
GPT-Realtime-Whisper	1,000 × 5분 × $0.017	~$2,550
합계		~$3,270/월

캐시를 잘 활용하면 (시스템 프롬프트 등 반복 컨텍스트) 입력 비용을 상당히 줄일 수 있습니다. 캐시 히트율이 70% 이상이면 입력 비용이 $0.40/1M 적용돼서 꽤 다른 숫자가 나옵니다.

음성 AI 에이전트를 다룬 다른 OpenAI 업데이트가 궁금하다면, OpenAI Codex Chrome 확장: AI 에이전트가 브라우저에서 일하는 법도 함께 보세요. Codex가 브라우저에서 직접 작업하는 방식과 비교하면 에이전트 아키텍처 방향성이 더 명확하게 보입니다.

GPT-Realtime-2 실시간 번역 빌더 — 라이브 데모 출처: YouTube — GPT-Realtime-2: Building a Live Translator | 실시간 번역 앱 빌딩 과정

GPT-5.5 Instant와 비교: 어떻게 다를까

GPT-5.5 Instant가 ChatGPT 기본 모델로 교체되면서 OpenAI 모델 생태계가 꽤 복잡해졌습니다. Realtime-2와 GPT-5.5의 관계를 간단히 정리하면:

GPT-5.5 Instant: 텍스트 기반 추론 최적화, 환각 52.5% 감소, 일반 Chat API용
GPT-Realtime-2: 실시간 음성 처리 특화, GPT-5급 추론 엔진 탑재, Realtime API용

같은 "GPT-5급 추론"이지만 용도가 완전히 다릅니다. 음성 에이전트를 만든다면 텍스트 → STT → LLM → TTS 파이프라인 대신, Realtime-2를 쓰는 게 레이턴시와 자연스러움 모두에서 유리합니다.

다른 AI Tutorial & How-to 글도 함께 보시면 AI API 활용 범위를 더 넓힐 수 있습니다.

정리 + 다음 단계

GPT-Realtime-2 + Translate + Whisper는 단순한 버전업이 아닙니다. OpenAI가 "음성 AI를 세 가지 전문 역할로 분리하겠다"는 아키텍처 방향을 선언한 것에 가깝습니다.

지금 당장 써볼 만한 유스케이스를 정리하면:

내부 기술 지원 봇: 128K 컨텍스트 → 매뉴얼 전체를 넣고 음성으로 질문/응답
글로벌 고객 상담: Translate 모델 → 70개 언어 음성 지원을 단일 파이프라인으로
미팅 보조 도구: Realtime-Whisper → 실시간 자막 + 요약 동시 처리
음성 코딩 어시스턴트: Realtime-2 + 함수 호출 → 말로 코드 리뷰·검색 지시

아직 아쉬운 부분은 있습니다. 가격이 텍스트 API 대비 여전히 높고, 한국어 번역 품질이 일부 기술 용어에서 어색한 경우가 있습니다. 그리고 128K 컨텍스트가 생겼다고 해서 비용 관리를 소홀히 하면 청구서 보고 놀랄 수 있으니 주의하세요.

그래도 3개월 전과 비교하면 음성 AI 앱 개발의 현실적 장벽이 많이 낮아졌다는 건 분명합니다. 실시간 번역까지 단일 API로 엮을 수 있게 된 건 확실히 큰 변화입니다.

참고 자료

Advancing voice intelligence with new models in the API — OpenAI, 2026년 5월 7일
gpt-realtime-2 모델 공식 문서 — OpenAI Developer Docs, 2026년 5월 기준
Build Live Translation Apps with gpt-realtime-translate — OpenAI Cookbook, 2026년 5월 기준
OpenAI launches new voice intelligence features in its API — TechCrunch, 2026년 5월 7일

함께 읽으면 좋은 글:

OpenAI Codex Chrome 확장: AI 에이전트가 브라우저에서 일하는 법 - OpenAI 에이전트 생태계 확장 흐름
GPT-5.5 Instant: 환각 52.5% 감소·ChatGPT 기본 모델 교체 완전 정리 - 같은 시기 OpenAI 텍스트 모델 업데이트