퀄컴, AI200·AI250으로 추론 시장에 본격 진입…'모바일 효율성'을 데이터센터로 확장
[테크수다 기자 도안구 eyeball@techsuda.com] 퀄컴이 AI 데이터센터 시장을 정조준하면서 선발 주자들에 대해 반격에 나섰다. 퀄컴은 ‘AI200’과 ‘AI250을 공개했다. 이 제품은 랙(rack) 단위에서 동작하는 AI 추론 전용 칩으로, 엔비디아가 주도해온 생성형 AI 시장 판도에 ‘효율 중심의 추론 경쟁’으로 전환시키려는 시도로 평가된다.
두 제품은 메모리 대역폭과 전력 효율을 극대화한 랙 스케일 AI 솔루션으로, 2026년과 2027년 각각 상용화된다. 퀄컴은 이를 통해 “와트당 성능, 총소유비용(TCO), 확장성”이라는 세 축을 전면에 내세운다. 아마존웹서비스(AWS)가 이미 도입해 서비스에 나섰다. 하드웨어 파트너는 HPE, 레노버, IBM, 코그니션 등이다.

두르가말라디, 퀄컴테크날러지스 수석 부사장 겸 기술기획, 엣지 솔루션 및 데이터센터 본부장은 “퀄컴 AI200 과 AI250 으로 우리는 랙스케일 AI 추론의 가능성을 새롭게 정의하고 있다. 이번 혁신적인 AI 인프라 솔루션은 뛰어난 총소유비용 (TCO)으로 생성형 AI를 배포할 수 있도록 지원하며, 데이터센터가 필요로하는 유연성과 보안성을 동시에 보장한다” 고 언급하며 “퀄컴의 풍부한 소프트웨어 스택과 개방형 생태계 지원을 통해, 개발자와 기업은 이미 학습된 AI 모델을 당사의 최적화된 AI 추론 솔루션을 통해 손쉽게 통합·관리·확장할 수 있다. 또한 주요 AI 프레임워크와의 완벽한 호환성, 원클릭 모델 배포기능을 통해, 퀄컴 AI200과 AI250은 손쉬운 도입과 빠른 혁신을 위한 완벽한 기반을 제공한다.”고 덧붙였다.
배경: 학습에서 추론으로 중심 이동
AI 인프라 시장의 무게중심은 빠르게 이동 중이다. 엔비디아의 H100·B200 등은 대규모 모델 학습에 최적화돼 있지만, 실제 서비스 단계에서는 전력·비용 부담이 커지는 구조다. 반면 생성형 AI의 상용화가 본격화되면서, 기업들은 모델 학습보다 추론(inference) 성능을 최적화해야 할 필요가 커졌다.
퀄컴은 이 지점을 정확히 겨냥했다. 모바일과 엣지 디바이스에서 다져온 저전력 NPU 기술을 데이터센터로 확장하면서, AI 추론을 위한 ‘TCO 효율형’ 플랫폼으로 AI200과 AI250을 제시했다.
퀄컴 AI200은 대규모 언어모델(LLM)과 멀티모달 모델(LMM) 추론을 위한 랙 수준 AI 전용 솔루션이다. 카드당 768GB LPDDR 메모리를 탑재해 고용량 데이터를 빠르게 처리하며, 비용 대비 성능을 극대화한다. AI250은 ‘근접 메모리 컴퓨팅(near-memory computing)’ 구조를 새롭게 도입했다.
이 방식은 메모리와 연산을 물리적으로 가까이 배치해 데이터 이동 병목을 최소화하며, 기존 대비 10배 이상의 메모리 대역폭 향상과 전력 소모 절감을 달성했다. 또한 자원을 분리형(disaggregated) 구조로 구성할 수 있어, 고객의 성능·비용 요구를 동시에 맞추는 유연성을 확보했다.
두 모델은 모두 직접 액체 냉각과 PCIe·이더넷 확장성을 지원하며, 랙 단위 전력 소비는 약 160kW 수준이다.
보안이 강화된 추론 환경을 위한 기밀 컴퓨팅(confidential computing) 기능도 포함됐다.
현재 AI 인프라 시장은 학습용 GPU와 추론용 NPU로 이원화되고 있다. AI200·AI250의 등장으로 퀄컴은 구글의 TPU, 아마존 Inferentia2, 인텔 Gaudi3, Groq 등과 함께 ‘데이터센터 추론’ 경쟁의 본선에 합류했다.
퀄컴의 기술적 접근은 모바일 효율성을 데이터센터로 확장하는 것이다. 자체 NPU 아키텍처를 기반으로 메모리 효율, 전력 효율, 냉각 효율을 통합적으로 최적화했다. 특히 ‘근접 메모리 컴퓨팅’은 퀄컴이 강조하는 핵심이다.
이는 데이터 이동을 최소화해 메모리 대역폭과 처리량을 동시에 늘리는 구조로, AI 추론의 병목 지점인 메모리 접근 지연(latency)을 근본적으로 해결하 하는 걸
퀄컴이 생성형 AI 시대 데이터센터 시장도 정조준하고 있고 고객들의 선택지는 넓어지고 있다. 모바일 강자 퀄컴이 시장에서 유의미한 성과를 낼 수 있을지 기대된다.
[테크수다 기자 도안구 eyeball@techsuda.com]