엔비디아 GPU 냉각비, 모델Y 맞먹어

Share

엔비디아 GPU 냉각 비용 급증: 차세대 데이터센터의 새로운 도전

데이터센터의 핵심 부품인 GPU의 성능 향상과 함께 냉각 비용이 급격하게 증가하고 있습니다. 특히 엔비디아의 최신 GPU 시스템은 엄청난 전력 소비량으로 인해 혁신적인 냉각 기술과 막대한 비용을 요구하고 있습니다. 본 글에서는 엔비디아 GPU 냉각 비용 증가의 원인과 미래 데이터센터에 미치는 영향에 대해 자세히 살펴보겠습니다.

엔비디아 GPU 냉각 비용, 테슬라 모델 Y 가격에 육박

최근 Morgan Stanley 보고서에 따르면 엔비디아 GB300 NVL72 시스템의 액체 냉각 하드웨어 비용은 49,860달러에 달하며, 이는 테슬라 모델 Y 차량 한 대를 구매할 수 있는 금액과 비슷합니다. 차세대 Vera Rubin NVL144 시스템의 냉각 시스템 비용은 55,710달러로 더욱 증가할 것으로 예상됩니다. 이는 고성능 GPU를 안정적으로 작동시키기 위한 냉각 기술의 중요성이 더욱 커지고 있음을 보여줍니다.

트레이 레벨 냉각 경제학: 핵심은 고성능 콜드 플레이트

Vera Rubin NVL144 시스템은 개당 최대 1,800W의 전력을 소비하는 Rubin GPU와 차세대 NVSwitch 6.0 구성 요소를 사용합니다. 이 시스템의 냉각 비용은 개별 컴퓨트 트레이와 밀접하게 관련되어 있으며, 각 컴퓨트 트레이에는 더 높은 용량의 콜드 플레이트가 필요합니다. 컴퓨트 트레이당 비용은 약 2,660달러로 18% 상승할 것으로 예상되며, Vera Rubin NVL144 시스템은 18개의 트레이를 포함하므로 컴퓨트 측면의 총 냉각 비용은 약 47,880달러에 달합니다.

CPU 및 GPU의 발열 한계 돌파: 콜드 플레이트의 중요성

CPU와 GPU가 발열 한계를 넘어서면서 고용량 콜드 플레이트의 중요성이 더욱 부각되고 있습니다. 콜드 플레이트의 개당 비용은 400달러까지 상승할 것으로 예상됩니다. 반면 스위치 트레이 냉각 비용은 트레이당 870달러, 총 7,830달러로 감소하는 추세입니다. 하지만 컴퓨트 측면의 냉각 비용 증가 폭이 훨씬 크기 때문에 스위치 트레이 비용 감소 효과는 상쇄됩니다.

전력 소비량 증가 추세: 냉각 기술 혁신의 필요성

GB200 NVL72에서 GB300 NVL72로 전환되면서 냉각 요구 사항은 20% 증가했으며, GB300 NVL72에서 Vera Rubin NVL144로 전환되면서 17% 추가되었습니다. 이러한 추세는 데이터센터 GPU, CPU, 메모리의 전력 소비량 증가에 기인합니다. Blackwell Ultra 데이터센터 GPU는 1,400W, Grace CPU는 300W, 메모리는 소켓당 200W를 소비합니다. 엔비디아는 Rubin Ultra GPU의 열 설계 전력(TDP)을 3,600W까지 높일 계획이며, 이를 충족하기 위해서는 새로운 유형의 콜드 플레이트 또는 더욱 강력한 냉각 기술이 필요합니다.

미래 데이터센터의 과제: 더욱 높아지는 냉각 비용

엔비디아는 액체 냉각 방식의 NVL576 "Kyber" 시스템도 준비 중입니다. 이 시스템은 144개의 GPU 패키지를 포함하며 Vera Rubin NVL144보다 더 높은 성능을 제공하지만, 냉각 비용은 훨씬 더 높을 것으로 예상됩니다. 3.6kW의 열을 제거할 수 있는 고용량 콜드 플레이트의 비용은 현재 개당 400달러를 훨씬 초과할 것입니다. 이는 미래 데이터센터가 더욱 가파른 냉각 비용 상승에 직면할 것임을 시사합니다.

결론

엔비디아 GPU의 성능 향상과 함께 냉각 비용이 급증하면서 데이터센터 운영자들은 새로운 도전에 직면하고 있습니다. 고성능 콜드 플레이트, 액체 냉각 시스템 등 혁신적인 냉각 기술 개발과 함께 에너지 효율성을 높이는 방안 모색이 필수적입니다. 미래 데이터센터는 냉각 비용을 효과적으로 관리하면서 고성능 컴퓨팅 환경을 유지할 수 있는 지속 가능한 솔루션을 찾아야 할 것입니다.

이것도 좋아하실 수 있습니다...