Maia 200, AI 추론 성능의 혁신

Share

마이크로소프트 Maia 200: AI 추론의 새로운 지평을 열다

마이크로소프트가 AI 추론 가속기인 Maia 200을 발표하며 AI 반도체 시장에 혁신적인 변화를 예고했습니다. 단순한 토큰 생성량을 넘어 최적의 효율성을 추구하는 방향으로 AI의 미래가 나아가고 있음을 시사하는 발표입니다. 이번 발표는 AI 인프라 구축에 대한 마이크로소프트의 전략적 방향을 보여주며, 경쟁사들과 차별화되는 접근 방식을 강조합니다.

Maia 200, 압도적인 성능으로 AI 추론을 가속화하다

Maia 200은 다양한 환경에서 이기종 AI 인프라를 지원하도록 설계되었으며, 특히 대규모 추론 모델에 최적화되었습니다. 마이크로소프트는 Maia 200이 현재 하이퍼스케일러 기업에서 자체 개발한 실리콘 중 가장 뛰어난 성능을 제공하며, 자사에서 배포한 추론 시스템 중 가장 효율적이라고 주장합니다. 구체적으로, Maia 200은 4비트 부동 소수점(FP4) 성능에서 아마존 Trainium 3세대 대비 3배 향상된 성능을 제공하며, 8비트 부동 소수점(FP8) 성능은 구글 TPU 7세대보다 높습니다.

주요 경쟁사 대비 뛰어난 성능 지표

수치적으로 Maia 200은 다음과 같은 성능을 자랑합니다. 최대 10,145 테라플롭스(FP4), 5,072 테라플롭스(FP8)의 연산 성능을 제공하며, 7 테라비트/초의 고대역폭 메모리(HBM)를 탑재했습니다. HBM 용량은 216GB로, 아마존 Trainium의 144GB, 구글 TPU 7세대의 192GB를 능가합니다. 또한, 마이크로소프트는 Maia 200이 현재 자사 하드웨어 대비 달러당 30% 더 나은 성능을 제공한다고 밝혔습니다. 이러한 성능 향상은 대규모 모델을 효율적으로 실행할 수 있도록 지원하며, 미래의 더욱 큰 모델까지 처리할 수 있는 여유 공간을 제공합니다.

데이터 처리 방식의 혁신

Maia 200은 모델에 데이터를 전달하는 방식 또한 혁신적입니다. 마이크로소프트는 특화된 DMA 엔진, 온다이 SRAM, NoC 패브릭을 특징으로 하는 재설계된 메모리 서브시스템을 통해 높은 대역폭의 데이터 이동을 가능하게 하고 토큰 처리량을 증가시킵니다. 이는 AI 모델이 데이터를 더욱 빠르고 효율적으로 처리할 수 있도록 돕습니다.

이기종, 멀티모달 AI를 위한 설계

마이크로소프트는 Maia 200을 설계할 때 현대적인 LLM을 염두에 두었습니다. 텍스트 프롬프트뿐만 아니라 더 깊은 추론 능력, 다단계 에이전트, 그리고 궁극적으로 자율적인 AI 작업을 지원하는 멀티모달 기능(음성, 이미지, 비디오)에 대한 고객의 요구를 반영했습니다. Maia 200은 OpenAI의 최신 GPT-5.2 제품군을 포함한 여러 모델을 지원하며, Microsoft Azure, Microsoft Foundry, Microsoft 365 Copilot과 원활하게 통합됩니다. 또한, 마이크로소프트의 슈퍼인텔리전스 팀은 Maia 200을 사용하여 강화 학습(RL) 및 합성 데이터 생성을 통해 자체 모델을 개선할 계획입니다.

경쟁 우위 확보를 위한 노력

Info-Tech Research Group의 Scott Bickley는 Maia 200이 Amazon의 Trainium 및 Inferentia, Google의 TPU v4i 및 v5i보다 우수한 사양을 갖추고 있다고 평가했습니다. Maia 200은 3nm 노드에서 생산되는 반면, Amazon 및 Google 칩은 7nm 또는 5nm 노드를 사용합니다. 또한, 연산, 상호 연결 및 메모리 기능에서 뛰어난 성능을 보여줍니다. 하지만 그는 고객이 Azure 스택 내에서 실제 성능을 확인한 후 워크로드를 확장해야 한다고 강조했습니다. 마이크로소프트가 실현하는 30% 절감액의 일부가 Azure 구독 요금을 통해 고객에게 전달되는지 확인해야 한다고 덧붙였습니다.

추론에 최적화된 아키텍처

Moor Insights & Strategy의 Matt Kimball은 Maia의 소프트웨어-하드웨어 아키텍처가 추론에 적합하다고 평가했습니다. 풍부한 SRAM과 HBM은 대역폭을 확보하여 안정적인 상태의 추론을 가능하게 합니다. 또한, 이 칩은 산업 표준 상호 연결을 통해 구성 요소, 시스템, 랙, 데이터 센터 수준에서 성능을 제공합니다. 마이크로소프트의 개방형 소프트웨어 스택은 Maia에서 추론을 쉽게 수행할 수 있도록 설계되었습니다. Kimball은 이것이 마이크로소프트가 Nvidia 또는 AMD를 대체하려는 것이 아니라 보완하려는 것이라고 강조했습니다. 또한 마이크로소프트는 엔터프라이즈 IT 조직을 다른 어떤 클라우드보다 잘 알고 있으며, Maia 팀은 이러한 지식을 활용하여 Azure 플랫폼 패브릭에 내장된 추론 서비스를 제공하는 것으로 보입니다.

개발자를 위한 지원

개발자와 얼리 어답터는 Maia 200용 모델 구축 및 최적화를 위한 도구(PyTorch 통합, Triton 컴파일러, 최적화된 커널 라이브러리)를 제공하는 Maia 200 소프트웨어 개발 키트(SDK)를 신청할 수 있습니다. Maia 200은 현재 아이오와주 디모인 근처의 미국 중부 데이터 센터 지역에 배포되어 있으며, 다음으로는 애리조나주 피닉스 근처의 미국 서부 3 데이터 센터 지역에 배포될 예정입니다.

결론

마이크로소프트 Maia 200은 AI 추론 분야에서 새로운 가능성을 제시하며, AI 기술의 발전을 가속화할 것으로 기대됩니다. 뛰어난 성능과 효율성을 바탕으로 다양한 AI 모델을 지원하고, 개발자에게 최적화된 환경을 제공함으로써 AI 생태계 확장에 기여할 것입니다.

이것도 좋아하실 수 있습니다...