인피니밴드의 아성을 넘어설까? 이더넷 기반 AI 네트워크 표준화 경쟁 심화
최근 인공지능(AI) 모델의 규모가 기하급수적으로 커지면서 AI 클러스터 내 고성능 네트워킹의 중요성이 더욱 부각되고 있습니다. 오랫동안 인피니밴드가 이 분야를 지배해 왔지만, 개방형 표준을 지향하는 이더넷의 도전이 거세지고 있습니다. 메타와 엔비디아는 AI 네트워크 확장을 위해 개방성을 추구하고 있으며, ESUN 프로젝트는 업계 경쟁사들이 네트워킹 목표를 공유하며 협력하는 발판을 마련하고 있습니다.
ESUN 프로젝트 출범: 이더넷, AI 네트워크의 새로운 대안으로 부상
OCP(Open Compute Project)는 AI 클러스터 내 고성능 연결을 위한 개방형 표준 개발을 목표로 하는 ESUN(Ethernet for Scale-Up Networking) 이니셔티브를 발표했습니다. 메타, 엔비디아, AMD, 시스코, OpenAI 등 주요 기업들이 참여하여 대규모 데이터 센터에서 이더넷이 인피니밴드와 같은 기존 인터커넥트를 어떻게 대체할 수 있는지 모색하고 있습니다. 아리스타, ARM, 브로드컴, HPE 네트워킹, 마벨, 마이크로소프트, 오라클 등도 협력에 참여하고 있습니다.
인피니밴드의 독점적 지위와 이더넷의 잠재력
인피니밴드는 GPU 및 가속기를 연결하는 인프라의 약 80%를 차지하며 고속 AI 네트워킹 시장을 오랫동안 지배해 왔습니다. 그러나 ESUN 그룹은 이더넷의 성숙도, 비용 효율성, 상호 운용성이 AI 클러스터 확장에 적합하다고 판단합니다. 독점 시스템과 달리 이더넷은 엔지니어들에게 친숙하기 때문에 대규모 AI 워크로드 관리를 단순화할 수 있습니다. 지지자들은 이더넷을 개방형 표준으로 사용하면 운영자가 비용을 절감하면서 인프라를 확장할 수 있다고 주장합니다.
개방형 네트워킹을 위한 노력: 표준화 및 협업
OCP의 새로운 AI 도구 이니셔티브는 다중 프로세서 시스템을 위한 이더넷 전송을 탐색한 SUE-Transport(SUE-T) 프로그램의 이전 작업을 기반으로 합니다. ESUN 참가자들은 프로토콜 헤더, 오류 처리, 무손실 데이터 전송 등 스위치 동작에 대한 표준을 정의하기 위해 정기적으로 회의를 진행할 예정입니다. 또한 네트워크 설계가 GPU 기반 시스템 내의 로드 밸런싱 및 메모리 순서에 미치는 영향도 연구할 계획입니다. 더 넓은 이더넷 생태계 전반에 걸쳐 조화를 이루기 위해 Ultra Ethernet Consortium 및 IEEE 802.3 표준 기관과 협력할 예정입니다.
시장의 움직임: 이더넷 기반 제품 출시와 과제
이미 여러 회사에서 AI 확장을 목표로 하는 이더넷 기반 제품을 개발했습니다. 예를 들어 브로드컴의 Tomahawk Ultra 스위치는 초당 최대 770억 개의 패킷을 지원하며, 엔비디아의 Spectrum-X 플랫폼은 AI 클러스터를 위한 가속 하드웨어와 이더넷을 결합합니다. 메타는 ESUN을 데이터 센터 내 개방형 하드웨어 추진의 자연스러운 확장으로 보고 있습니다. 그러나 기존 인피니밴드 네트워크를 대체하려면 이더넷이 대기 시간과 안정성이 중요한 가장 까다로운 AI 워크로드에서 성능을 입증해야 합니다.
성공의 열쇠: 개방성과 성능의 균형
ESUN의 성공은 개방성과 성능의 균형에 달려 있습니다. 지지자들은 표준화된 이더넷 기술을 사용하여 상호 운용 가능한 하드웨어에서 AI 시스템이 실행되는 미래를 전망합니다. 그러나 AI 인프라의 규모와 민감성을 고려할 때 업계의 모멘텀이 독점 인터커넥트에서 벗어날지는 불확실합니다. 현재 ESUN은 야심 찬 노력의 일환이며, 인피니밴드의 성능에 필적할 수 있을지는 두고 봐야 합니다.
맺음말
인피니밴드의 아성을 넘어서기 위한 이더넷의 도전은 AI 네트워크 시장에 새로운 활력을 불어넣고 있습니다. ESUN 프로젝트를 통해 개방형 표준을 지향하는 움직임이 성공적으로 안착할 수 있을지 주목해야 합니다.