AI 추론·학습 칩 경쟁 치열···엔비디아 독주에 구글·AWS·MS 클라우드 3사 '자체 칩' 반격

[테크수다 기자 도안구 eyeball@techsuda.com] 2026년 AI 추론칩 생태계 구축 싸움이 뜨겁다. 엔비디아의 독주에 구글 클라우드와 아마존웹서비스(AWS), 마이크로소프트가 반격에 나서고 있다. AMD와 인텔도 어느 정도 이 경쟁 대열에 합류할 수 있을지, 또 퓨리오사, 리벨리온 같은 한국 NPU 칩 회사 뿐 아니라 전세계 NPU 칩 스타트업들이 이 거대 사업자들과 테크 자이언트간 고래 싸움의 형국에서 어떻게 살아 남을 수 있을지 기대되는 해이기도 하다.

핵심 요약

  • 폭발적 시장 성장: AI 추론 칩 시장은 2024년 310억 달러에서 2032년 1,674억 달러로 연평균 28.25% 성장 전망. 추론 워크로드는 2026년 전체 AI 컴퓨팅의 3분의 2를 차지하며, 추론 최적화 칩 시장만 500억 달러 이상 규모로 급성장 예상(Deloitte)
  • 클라우드 3사의 동시 반격: 구글 아이언우드(2025.11), AWS 트레이니움3(2025.12), MS 마이아 200(2026.1) 등 클라우드 3사가 수개월 내 자체 추론 칩을 연이어 출시하며 엔비디아 독주 체제에 본격 도전. 각사는 이전 세대 대비 3~10배 성능 향상과 30~50% 비용 절감 달성
  • 생태계 전쟁 본격화: 엔비디아는 쿠다(CUDA) 생태계로 범용성 확보, 클라우드 3사는 선도 AI 기업(앤트로픽, 오픈AI)과 전략적 파트너십으로 맞춤형 최적화 강화. 시장은 '범용 GPU'와 '특화 추론칩'으로 이원화되며, 향후 2~3년이 생태계 주도권 확보의 결정적 분수령

AI 칩 시장이 전례 없는 성장세를 보이는 가운데, 추론(Inference) 분야가 새로운 성장 동력으로 부상하고 있다. 시장조사기관 Precedence Research에 따르면, 글로벌 AI 칩 시장 규모는 2025년 944억 달러에서 2026년 1,217억 달러로 성장하며, 2035년까지 1조 1,047억 달러에 달할 전망이다(연평균 성장률 27.88%).

특히 추론 칩 시장의 성장세가 두드러진다. Verified Market Research는 AI 추론 칩 시장이 2024년 310억 달러에서 2032년 1,674억 달러로 연평균 28.25% 성장할 것으로 전망했다. MarketsandMarkets는 AI 추론 시장 전체가 2025년 1,062억 달러에서 2030년 2,550억 달러로 확대될 것으로 예측했다(연평균 19.2%).

Deloitte의 2026년 TMT 전망 보고서는 더욱 주목할 만한 분석을 제시한다. 추론 워크로드가 2023년 전체 AI 컴퓨팅의 3분의 1, 2025년 절반에서 2026년에는 3분의 2를 차지하며, 추론 최적화 칩 시장만 500억 달러 이상 규모로 성장할 것으로 전망했다. 이는 AI 산업의 무게중심이 '모델 훈련'에서 '대규모 추론'으로 빠르게 이동하고 있음을 의미한다. Deloitte 2026 Technology, Media & Telecommunications Predictions: Narrowing the gap between the promise of AI and its reality | Deloitte Global

2025년 하반기부터 2026년 초까지 불과 몇 개월 사이, AI 칩 시장의 경쟁 지형이 급격히 재편되고 있다. 엔비디아가 CES 2026에서 차세대 루빈(Rubin) 플랫폼을 공개하며 AI 인프라 시장의 지배력을 과시한 가운데, 구글·AWS·마이크로소프트 클라우드 3사가 각각 자체 개발 추론 칩과 학습 칩을 잇따라 선보이며 정면 대응에 나섰다.

구글은 2025년 11월 7세대 TPU '아이언우드(Ironwood)'를 정식 출시했고, AWS는 AWS reInvet 2025가 열리던 12월 3일 '트레이니움3 울트라서버'를 발표했다. 그리고 마이크로소프트가 2026년 1월 27일 '마이아 200(Maia 200)'을 공개하며 클라우드 3사 모두가 자체 추론칩 라인업을 완성했다. 이는 단순한 기술 경쟁을 넘어, AI 인프라의 헤게모니를 둘러싼 생태계 전쟁이 본격화됐음을 의미한다.

엔비디아 루빈: 범용성과 생태계 지배력

엔비디아, 루빈 플랫폼 기반 시스템 위한 DGX SuperPOD

엔비디아의 루빈 플랫폼은 AI 컴퓨팅 시장에서의 독보적 위치를 재확인시켰다. 6개의 신규 칩(베라 CPU, 루빈 GPU, NV링크 6 스위치, 커넥트X-9 슈퍼NIC, 블루필드-4 DPU, 스펙트럼-6 이더넷 스위치)으로 구성된 통합 시스템은 훈련부터 추론까지 전 AI 라이프사이클을 아우른다.

특히 주목할 점은 이전 세대 대비 추론 토큰 비용을 최대 10배 절감했다는 점이다. DGX 베라 루빈 NVL72는 72개의 루빈 GPU를 단일 랙에 통합해 260TB/s의 NV링크 처리량을 구현하며, DGX 루빈 NVL8은 블랙웰 시스템 대비 5.5배의 FP4 연산 성능을 제공한다. 28.8 엑사플롭스의 FP4 성능과 600TB의 고속 메모리를 탑재한 시스템은 에이전틱 AI와 MoE 모델, 긴 컨텍스트 추론에 최적화됐다.

엔비디아의 강점은 단순히 칩 성능만이 아니라 CUDA 기반의 방대한 소프트웨어 생태계에 있다. 미션 컨트롤(Mission Control)을 통한 AI 팩토리 자동화, 네모트론(Nemotron)-3 오픈 모델, NIM 마이크로서비스 등 전체 스택이 완성된 AI 하이퍼컴퓨터로 작동한다.

구글: AI 하이퍼컴퓨터 통합과 앤트로픽 파트너십

구글 아이언우드 TPU v7

구글의 7세대 TPU 아이언우드는 TPU v5p 대비 최대 10배, 트릴리움(TPU v6e) 대비 칩당 최대 4배 향상된 성능을 자랑한다. 최대 9,216개의 칩으로 구성된 슈퍼포드(superpod)는 9.6Tb/s의 초고속 인터칩 인터커넥트(ICI)로 연결되며, 1.77PB의 공유 HBM에 액세스해 데이터 병목을 최소화한다.

구글의 차별화 전략은 'AI 하이퍼컴퓨터' 통합 접근이다. 컴퓨팅·네트워킹·스토리지·소프트웨어를 단일 시스템으로 통합해, IDC에 따르면 3년간 평균 353%의 ROI와 28%의 IT 비용 절감 효과를 제공한다. 광회로 스위칭(OCS) 기술을 통한 실시간 경로 재구성으로 서비스 중단 없는 장애 복구도 가능하다.

앤트로픽과의 전략적 파트너십도 주목할 만하다. 앤트로픽은 향후 최대 100만 개의 TPU 사용을 계획하고 있으며, 클로드 모델 학습과 수백만 사용자 서비스 환경 구축을 가속화하고 있다. 이는 구글이 단순히 칩을 공급하는 것을 넘어, 선도 AI 기업과의 긴밀한 협업을 통해 실전 검증과 최적화를 동시에 진행하고 있음을 보여준다.

또한 Arm 네오버스 기반 맞춤형 CPU '액시온(Axion)' 제품군(N4A, C4A, C4A 메탈)으로 일상 워크로드 효율을 극대화하며, 동급 x86 기반 VM 대비 최대 2배 우수한 가격 대비 성능을 제공한다.

특히 구글 TPU는 한국과도 인연이 깊다. 브로드컴과 협력해 개발한 이 TPU를 구글이 공개해 전세계에 널리 알린 게 2016년 봄에 열렸던 구글 알파고와 이세돌 9단의 바둑 대결이었다. 구글은 인공지능 서비스를 위해 GPU 기반으로 학습했지만 비용 이슈나 기술 이슈로 별도 추론 칩이 필요하다고 보고 오랫동안 연구하고 협력해 구글 TPU를 만들었고 그걸 대중에게 이벤트를 통해 공개했었다.

추론 칩이 뜬다고 이제 난리난 듯 보이지만 이미 사업자들은 10여년 전부터 준비를 하고 대응해 왔다는 점에서 장기적인 안목과 투자를 빼놓을 수 없다. 그런 면에서 구글의 행보는 단연 돋보이는 상황이다. AI 제국에 맞게 모든 준비를 하나씩 해왔다고 볼 수 있다.

AWS: 수직 통합과 프런티어급 규모

AWS 트레이니움(trainium) 3 칩과 이게 찹재된 랙 그리고 랙들이 연결된 슈퍼컴

AWS는 인퍼런시아라는 추론 칩이 있지만 이번에는 엔비디아의 주무대인 학습을 겨냥한 칩을 선보였다. 바로 트레이니움3. 이 칩을 탑재한 울트라서버는 3nm 공정으로 제작된 144개의 트레이니움3 칩으로 구성되며, 최대 362 FP8 페타플롭스의 성능을 제공한다. 트레이니움2 울트라서버 대비 4.4배 향상된 컴퓨팅 성능과 4배 높은 에너지 효율성, 약 4배 많은 메모리 대역폭을 갖췄다.

AWS의 핵심 전략은 칩 아키텍처부터 소프트웨어 스택까지 수직 통합이다. 새로운 뉴런스위치-v1은 각 울트라서버 내에서 2배 많은 대역폭을 제공하며, 향상된 뉴런 패브릭 네트워킹은 칩 간 통신 지연을 10마이크로초 미만으로 줄였다.

EC2 울트라클러스터 3.0은 최대 100만 개의 트레이니움 칩을 연결할 수 있으며, 이는 이전 세대 대비 10배 향상된 규모다. 프로젝트 레이니어를 통해 앤트로픽과 협력해 50만 개 이상의 트레이니움2 칩을 세계 최대 AI 컴퓨팅 클러스터로 구축한 경험이 이를 뒷받침한다.

오픈AI의 GPT-OSS 모델 테스트 결과, 트레이니움2 대비 3배 향상된 칩당 처리량과 4배 빠른 응답 속도를 기록했다. 앤쓰로픽, 디카트(Decart) 등 선도 AI 기업들은 GPU 대비 최대 50% 비용 절감 효과를 실현 중이며, 아마존 베드록은 이미 트레이니움3에서 프로덕션 워크로드를 운영하고 있다.

AWS는 이미 트레이니움4 개발에 착수했으며, FP4 처리 성능 6배, FP8 성능 3배, 메모리 대역폭 4배 개선을 목표로 하고 있다. 특히 엔비디아 NV링크 퓨전 기술 지원을 통해 트레이니움4, 그래비톤, EFA가 공통 MGX 랙 내에서 원활하게 작동하도록 설계 중이다. 추론 칩 경쟁에서 학습 칩을 꺼내들며 엔비디아 아성도 본격 공략하겠다는 의도다.

마이크로소프트: 오픈AI 최적화와 엔드투엔드 설계

마이크로소프트의 마이아 200은 TSMC 3nm 공정 기반으로, 1,400억 개 이상의 트랜지스터를 집약했다. 216GB HBM3e 메모리(7TB/s 대역폭), 네이티브 FP8/FP4 텐서 코어, 데이터 이동 엔진을 유기적으로 결합해 거대 모델 추론에 최적화됐다.

성능 면에서 FP4 기준 3세대 아마존 트레이니움 대비 3배 높은 처리량을 기록했으며, FP8에서도 구글 7세대 TPU를 상회한다. 마이크로소프트는 자사 인벤토리 내 최신 하드웨어 대비 달러당 성능을 30% 개선했다고 밝혔다.

마이크로소프트의 차별화는 오픈AI GPT-5.2 모델 최적화와 엔드투엔드 설계 방법론이다. 설계 초기부터 LLM의 연산 및 통신 패턴을 모델링하는 프리 실리콘 환경을 구축해, 실제 칩 제작 전 이미 실리콘·네트워킹·시스템 소프트웨어를 하나의 체계로 최적화했다. 그 결과 첫 부품 입고 수일 만에 실제 모델 구동에 성공했으며, 칩 입고부터 데이터 센터 배치까지의 기간을 기존 대비 절반 이하로 단축했다.

표준 이더넷 기반의 새로운 2계층 스케일업 네트워크를 도입하고, 맞춤형 전송 계층과 통합 NIC를 통해 독점 패브릭 없이도 성능과 비용 이점을 확보했다. 각 가속기는 2.8TB/s의 양방향 전용 스케일업 대역폭을 지원하며, 최대 6,144개의 가속기를 연결하는 대규모 클러스터에서 일관된 성능을 유지한다.

마이크로소프트 슈퍼인텔리전스팀은 차세대 사내 모델 개선을 위한 합성 데이터 생성 및 강화 학습에 마이아 200을 투입할 계획이며, 마이크로소프트 파운드리와 Microsoft 365 코파일럿의 가격 대비 성능 효율을 제공한다.

경쟁 구도 분석: 성능·비용·생태계

엔비디아의 독주에 클라우드 3사가 모두 자체 추론 칩과 학습 칩 생태계를 키울 무기들을 전진 배치하고 있는 상황에서 성능과 비용 그리고 이 칩 생태계 전쟁이 그 어느 때보다 치열해지고 있다.

추론 성능 측면에서 각 칩은 서로 다른 벤치마크를 강조하고 있어 직접 비교는 어렵지만, 공통적으로 이전 세대 대비 3~10배의 성능 향상을 달성했다. 엔비디아 루빈은 범용성과 확장성에서, 클라우드 3사는 특정 워크로드 최적화에서 각각 강점을 보인다.

  • 엔비디아 루빈: 블랙웰 대비 5.5배 FP4 성능, 추론 토큰 비용 최대 10배 절감
  • 구글 아이언우드: TPU v5p 대비 최대 10배, 트릴리움 대비 칩당 최대 4배 성능
  • AWS 트레이니움3: 트레이니움2 대비 4.4배 컴퓨팅 성능, 4배 에너지 효율
  • MS 마이아 200: 3세대 트레이니움 대비 FP4 처리량 3배, 달러당 성능 30% 개선

클라우드 3사의 공통 전략은 '가격 대비 성능'과 'TCO(총소유비용) 절감'이다. 앤쓰로픽과 리코 등 고객사들은 트레이니움을 통해 학습 및 추론 비용을 최대 50% 절감했으며, 디카트는 GPU 대비 절반의 비용으로 4배 빠른 프레임 생성을 달성했다.

구글 AI 하이퍼컴퓨터 고객은 3년간 평균 353% ROI와 28% IT 비용 절감 효과를 경험했다. 마이크로소프트는 최신 하드웨어 대비 달러당 성능을 30% 개선했다고 밝혔다.

마이크로소프트는 토큰 팩토리라는 개념을 들고 나왔고 와트당 달러당 토큰 이라는 용어를 꺼내들면서 경제성 이슈를 본격화하고 있다.

성능과 비용 효율성 경쟁 못지 않게 중요한 건 생태계 전쟁이다. 특히 엔비디아는 두번 다시 오지 않을 이 기회에 생태계 주도 기업으로 탈바꿈하기 위해 전력을 다하고 있다.

엔비디아는 쿠다(CUDA)와 방대한 소프트웨어 생태계로 압도적 우위를 점하고 있다. 반면 클라우드 3사는 각자의 플랫폼 생태계와 통합해 차별화를 추구한다.

  • 구글: GKE 클러스터 디렉터, 맥스텍스트(MaxText) LLM 프레임워크, vLLM TPU 지원 강화, GKE 추론 게이트웨이(TTFT 최대 96% 감소)
  • AWS: 뉴런 SDK, 아마존 베드록 통합, 프로젝트 레이니어 규모 실증
  • 마이크로소프트: 마이아 200 SDK(Triton 컴파일러, PyTorch 지원, NPL 프로그래밍), 마이아 시뮬레이터와 비용 계산기, Azure 제어 플레인 네이티브 통합

이들의 경쟁은 엔비디아 GPU가 범용 AI 워크로드의 표준으로 자리잡은 가운데, 클라우드 3사의 자체 칩은 특화된 추론 워크로드와 학습에서 비용 효율적 대안으로 부상하고 있기에 더욱 주목받는다. 시장은 '범용성의 엔비디아'와 '최적화된 맞춤형 칩'으로 이원화되는 양상이다.

클라우드 3사가 자체 칩 개발에 적극적인 이유는 엔비디아 GPU에 대한 의존도를 낮춰 하드웨어 비용을 절감하고 마진을 방어하기 위함이다. 특히 추론 워크로드는 학습 대비 예측 가능하고 반복적인 특성이 강해 맞춤형 최적화가 용이하다.

구글-앤쓰로픽, AWS-앤쓰로픽, 마이크로소프트-오픈AI 파트너십은 단순한 고객 관계를 넘어 칩 최적화와 워크로드 검증을 위한 전략적 협력으로 진화하고 있다. 선도 AI 기업들의 실전 피드백이 차세대 칩 설계에 직접 반영되는 선순환 구조가 형성되고 있다. 특히 구글은 TPU를 메타를 비롯해 다른 고객사 데이터센터에 제공하면서 엔비디아와 직접 경쟁도 예고하고 있다.

AWS는 앤쓰로픽에 신규 투자하는 조건으로 자사의 트레이니움 칩과 인퍼런스아 칩에 최적화를 요구했다.

AI 모델이 점점 더 대형화되고 에이전틱 AI, MoE 모델, 긴 컨텍스트 처리가 중요해지면서, 학습과 추론 비용과 효율이 AI 사업의 경쟁력을 좌우하는 시대가 도래했다. 구글의 마크 로메이어 부사장이 "에이전트 워크플로와 컴퓨팅 수요의 기하급수적 증가가 추론의 시대를 새롭게 정의하고 있다"고 언급한 것처럼, 추론 최적화가 AI 인프라의 핵심 화두가 됐다.

AWS는 이미 트레이니움4 개발에 착수했으며, 마이크로소프트는 다세대 로드맵을 기반으로 마이아 가속기 프로그램을 설계했다고 밝혔다. 엔비디아도 루빈 이후 차세대 아키텍처 개발을 지속하고 있어, AI 칩 경쟁은 더욱 치열해질 전망이다. 물론 루빈 이후 카드를 공개하지 않아 궁금증은 더해가고 있다.

차세대 AI 추론칩과 학습 칩 경쟁은 단순한 성능 경쟁을 넘어, AI 인프라 생태계의 헤게모니를 둘러싼 전쟁이다. 엔비디아는 범용성과 생태계 지배력으로, 클라우드 3사는 맞춤형 최적화와 비용 효율로 각자의 영역을 공고히 하고 있다.

주목할 점은 클라우드 3사가 모두 앤쓰로픽, 오픈AI 같은 선도 AI 기업과의 전략적 파트너십을 통해 실전 검증과 최적화를 동시에 진행하고 있다는 것이다. 이는 단순히 칩을 공급하는 것을 넘어, AI 모델 개발부터 배포까지 전체 라이프사이클에서 긴밀히 협력하는 수직 통합 생태계로 진화하고 있음을 의미한다.

결국 승자는 더 나은 칩을 만드는 기업이 아니라, 더 강력한 생태계를 구축하는 기업이 될 것이다. 엔비디아의 CUDA 생태계와 클라우드 3사의 플랫폼 통합 전략 중 어느 쪽이 시장을 지배할지, 아니면 둘 다 공존하며 시장이 이원화될지는 앞으로 2~3년이 결정적 분수령이 될 전망이다.

이런 틈바구니 속에서 퓨리오사와 리벨리온 같은 한국 NPU 칩 개발 기업들이 어떤 틈새를 찾고 어떤 뽀족한 무기를 들어 차별화에 성공할 수 있을지 주목과 걱정을 함께 하는 해가 되고 있다.

[테크수다 기자 도안구 eyeball@techsuda.com]