Google Cloud TPU 8세대: 훈련은 8t, 추론은 8i — AI 칩을 둘로 쪼갠 이유 [2026-04]

Q: 결론: "하나로 다 하던 시대"의 끝

_출처: Google Cloud Blog | TPU 8t와 TPU 8i 핵심 비교_

TL;DR: Google이 2026년 4월 22일 Google Cloud Next에서 8세대 TPU를 공개했습니다. 기존처럼 하나의 칩이 아니라 훈련 전용 TPU 8t와 추론 전용 TPU 8i 두 종류입니다. TPU 8t는 9,600칩 슈퍼팟에서 121 ExaFlops를 냅니다. TPU 8i는 이전 세대 대비 추론 비용을 최대 80% 절감합니다. Anthropic도 멀티기가와트 규모로 사용 계약을 맺었고, JAX·PyTorch·vLLM 모두 지원합니다.

"AI 칩 하나로 훈련도 하고 추론도 하면 안 되나요?"

솔직히 저도 처음엔 그렇게 생각했습니다. GPU 하나 잡아서 파인튜닝하고, 그 GPU로 바로 서빙하면 되는 거 아닌가. 근데 Google이 8세대 TPU를 두 개로 나눈 걸 보고 나서야 제가 얼마나 단순하게 생각하고 있었는지 깨달았습니다.

Google Cloud Next 2026 행사 메인 이미지 출처: Google Cloud Blog | Google Cloud Next 2026에서 공개된 TPU 8세대

훈련과 추론은 왜 다른 칩이 필요한가

이걸 이해하려면 훈련과 추론이 뭘 요구하는지부터 봐야 합니다.

훈련은 쉽게 말해 '산을 오르는 작업'입니다. 수백억 개의 파라미터를 업데이트하면서 모델의 가중치를 최적화합니다. 연산량이 어마어마하게 많고, 여러 칩이 서로 빠르게 통신하면서 동기화해야 합니다. 즉, 컴퓨팅 처리량(compute throughput)과 칩 간 대역폭(scale-up bandwidth)이 핵심입니다.

추론은 '내려오는 작업'입니다. 이미 완성된 모델에 질문을 던지면 답을 내놓는 과정이죠. 여기서 병목은 연산량이 아니라 메모리 대역폭입니다. 모델의 파라미터를 메모리에서 얼마나 빠르게 읽어오느냐, KV 캐시를 얼마나 효율적으로 다루느냐가 지연시간(latency)을 결정합니다.

근데 지금까지는 이 두 가지 요구를 하나의 칩으로 타협해서 처리해왔습니다. NVIDIA의 A100, H100, Blackwell도 마찬가지입니다. Google도 7세대 Ironwood TPU까지는 그랬고요.

8세대에서 Google은 "이 타협을 끝내자"는 결정을 내렸습니다.

TPU 8t: 초대형 훈련을 위한 칩

TPU 8t의 't'는 Training입니다.

TPU 8t와 TPU 8i — 두 칩의 분리 아키텍처 출처: Google Blog | 에이전틱 AI 시대를 위한 두 칩

스펙을 보면 숫자들이 상당히 인상적입니다.

항목	TPU 8t 스펙
슈퍼팟 규모	최대 9,600칩
공유 HBM	2 페타바이트
최대 성능	121 ExaFlops
스토리지 속도	7세대 Ironwood 대비 10배
훈련 비용 효율	Ironwood 대비 2.7배 향상
확장성	최대 100만 칩까지 선형 확장

핵심은 3D 토러스(Torus) ICI 토폴로지와 Virgo 네트워크입니다. 9,600칩짜리 슈퍼팟을 하나로 묶어서 총 47페타비트/초의 비차단 이분 대역폭을 제공합니다. 칩 수를 늘려도 성능이 선형적으로 증가한다는 점이 특히 중요합니다. JAX와 Pathways 프레임워크로 100만 칩까지 테스트했고, 실제로 ~97%의 "goodput"(유효 컴퓨팅 시간)을 달성했다고 합니다.

아 그리고, TPU 8t에는 네이티브 FP4(4비트 부동소수점) 지원이 들어갔습니다. 이게 은근히 중요한데, 훈련 중 메모리 대역폭 요구량을 절반으로 줄여주면서 MoE(Mixture of Experts) 모델 훈련에 유리합니다.

AI 인프라 경쟁의 맥락에서 보면, 이건 단순한 칩 업그레이드가 아닙니다. 제가 이전에 다뤘던 Anthropic 연매출 190억 달러 + Google TPU 기가와트 계약 글에서도 언급했지만, Anthropic은 이미 멀티기가와트 규모의 Google TPU 사용 계약을 맺었습니다. TPU 8t가 그 계약의 주인공이 될 가능성이 높습니다.

TPU 8i: 에이전틱 AI 시대의 추론 전용 칩

TPU 8i의 'i'는 Inference입니다.

출처: Google Cloud Blog | TPU 8i 기술 상세

TPU 8i의 설계 철학은 한 마디로 "메모리, 더 많이, 더 빠르게"입니다.

항목	TPU 8i 스펙
HBM 용량	288 GB
온칩 SRAM	384 MB (이전 세대 대비 3배)
HBM 대역폭	8,601 GB/s
ICI 대역폭	19.2 Tb/s
추론 비용 효율	Ironwood 대비 최대 80% 향상
최대 팟 크기	1,024칩

제가 특히 흥미롭게 본 건 **Collectives Acceleration Engine(CAE)**입니다. 기존 SparseCores 4개를 없애고 그 자리에 CAE를 넣었는데, 이게 온칩 Collective 연산 지연시간을 5배 줄여줍니다. 멀티에이전트 AI 시스템에서 여러 에이전트가 동시에 추론하면서 결과를 조율할 때 이 지연시간이 병목이 되거든요. 에이전틱 AI 시대에 맞춰 설계한 게 눈에 보입니다.

또 Boardfly 토폴로지도 눈여겨볼 만합니다. 기존 3D 토러스 대신 계층적 구조를 써서 최대 네트워크 직경을 50% 이상 줄였습니다. All-to-All 통신 지연시간이 50% 개선됐고, 384 MB 온칩 SRAM은 KV 캐시를 칩에 올려놓을 수 있어서 대형 MoE 모델 서빙에 유리합니다.

NVIDIA Rubin과의 경쟁 구도

거의 같은 시기에 NVIDIA도 Rubin 플랫폼을 발표했습니다. 클라우드 제공업체들이 2026년 하반기에 Rubin 기반 인스턴스를 배포할 예정이고, NVIDIA는 Blackwell 대비 추론 토큰 비용 10배 절감, 훈련에 필요한 GPU 수 4배 감소를 내세우고 있습니다.

그러면 Google TPU 8세대 vs NVIDIA Rubin, 어떻게 봐야 할까요?

솔직히 말하면 직접 비교가 어렵습니다. NVIDIA는 단일 칩으로 훈련/추론 양쪽을 커버하고, Google은 두 칩으로 각각 최적화하는 전략을 택했습니다. 에코시스템도 다릅니다. NVIDIA는 CUDA 생태계가 압도적이고, Google TPU는 JAX와 Pathways 쪽이 강합니다.

다만 명확한 건, AI 칩 스타트업들도 역대 최대 펀딩을 받으며 경쟁에 뛰어들고 있는 상황에서 Google이 자체 칩으로 독자 노선을 강화하는 건 NVIDIA 의존도를 낮추려는 전략적 선택입니다. Cerebras, AMD, 인텔까지 가세한 이 경쟁은 결국 개발자들에게 더 낮은 추론 비용으로 돌아올 가능성이 높습니다.

개발자 입장에서 알아야 할 것

Google Cloud 사용자라면 두 가지를 기억하면 됩니다.

1. 소프트웨어 스택 호환성

TPU 8t와 8i 모두 현재 주류 프레임워크를 지원합니다:

JAX (기본, 권장)
PyTorch (네이티브 프리뷰 지원)
vLLM (추론 서빙)
MaxText, SGLang

CUDA 기반 코드는 바로 돌릴 수 없습니다. 이미 JAX나 XLA 기반으로 작업 중이라면 마이그레이션 부담이 상대적으로 적지만, CUDA 코드를 그대로 가져오려면 포팅 작업이 필요합니다.

2. 가용성 일정

두 칩 모두 2026년 하반기 GA(일반 가용) 예정입니다. 지금은 Google Cloud TPU 관심 등록 페이지에서 얼리 액세스를 신청할 수 있습니다. Anthropic처럼 대규모 수요가 있는 고객들이 먼저 사용하게 될 가능성이 높고, 일반 개발자들이 접근하기까지는 시간이 좀 걸릴 것 같습니다.

결론: "하나로 다 하던 시대"의 끝

TPU 8세대 출시 요약 출처: Google Cloud Blog | TPU 8t와 TPU 8i 핵심 비교

Google이 TPU 8세대를 두 가지로 분리한 결정은 AI 워크로드의 성숙도를 보여줍니다. 훈련과 추론이 요구하는 것이 근본적으로 다르다는 걸 인정하고, 각각에 최적화된 하드웨어를 만든 거니까요.

에이전틱 AI 확산으로 추론 규모가 급격히 커지는 지금, TPU 8i의 등장은 타이밍이 좋습니다. 수백만 개의 AI 에이전트가 동시에 추론해야 하는 세상에서, 지연시간과 비용은 서비스 품질을 직접 결정하는 요소니까요.

물론 NVIDIA가 그냥 당하진 않을 겁니다. Rubin도 쟁쟁한 경쟁자입니다. 근데 개발자 입장에서는 이 경쟁 덕분에 추론 비용이 내려가고 선택지가 늘어나는 게 결국 좋은 일 아닐까요.

2026년 하반기 GA 전에 얼리 액세스 기회가 생긴다면 한 번 테스트해볼 의향이 있습니다. 여러분은 어떻게 생각하시나요?

참고 자료

Our eighth generation TPUs: two chips for the agentic era — Google Blog, 2026년 4월 22일
TPU 8t and TPU 8i technical deep dive — Google Cloud Blog, 2026년 4월 22일
Google dual tracks TPU 8 to conquer training and inference — The Register, 2026년 4월 22일
Google unveils chips for AI training and inference in latest shot at Nvidia — CNBC, 2026년 4월 22일

함께 읽으면 좋은 글:

Anthropic 연매출 190억 달러 + Google TPU 기가와트 계약: OpenAI 추격전 - Google TPU와 Anthropic의 전략적 파트너십
Cerebras WSE-3 스펙 총정리: 트랜지스터 4조 개·2026년 4월 IPO vs NVIDIA - AI 칩 경쟁의 다른 도전자