확장/확장에서 확장까지: Spectrum-XGS는 피할 수 없는 선택입니다

Sep 25, 2025

메시지를 남겨주세요

현재 AI 데이터 센터는 확장 시 두 가지 핵심 병목 현상에 직면해 있으며 기존의 수직-확장 및 수평 확장-모델은 기가{2}}규모의 AI 수요를 충족하는 데 어려움을 겪고 있습니다.

확장-제한: 단일 시스템 또는 랙을 업그레이드하여 달성하지만(예: GPU 수 증가 또는 단일{2}}장치 성능 향상) 수냉식과 같은 인프라의 전력 한도에 의해 제한됩니다. 기존 데이터 센터에는 전력 입력 및 열 방출에 대한 물리적 임계값이 있어 랙 또는 데이터 센터당 컴퓨팅 밀도가 무한히 증가하는 것을 방지합니다.

확장-제한사항: 클러스터를 확장하기 위해 랙과 서버를 추가하여 확장하지만 단일 장소의 물리적 공간에 의해 제한되어 장비 용량에 하드 캡이 적용됩니다.

이러한 딜레마를 극복하기 위해 NVIDIA는 지리적으로 분산된 데이터 센터 간의 네트워크 통신을 최적화하여 분산된 AI 클러스터가 하나로 협업할 수 있도록 하는 '규모-'라는 새로운 차원을 제안합니다. NVIDIA 창립자 겸 CEO인 Jensen Huang은 이 지역 간-AI 슈퍼 팩토리를 AI 산업 혁명을 위한 핵심 인프라로 설명하고 Spectrum-XGS를 핵심 기술 지원자로 설명합니다.

Spectrum-XGS

Spectrum-XGS의 핵심 기술

Spectrum{0}}XGS는 완전히 새로운 하드웨어 플랫폼이 아니라 NVIDIA의 기존 Spectrum{1}}X 이더넷 생태계가 발전한 것입니다. Spectrum{4}X는 2024년 출시 이후 Spectrum{10}}4 아키텍처의 SN5600 스위치와 BlueField{11}}3 DPU를 통해 기존 이더넷보다 1.6배 더 높은 생성 AI 네트워크 성능을 제공하여 NVIDIA GPU를 사용하는 AI 데이터 센터의 주류 선택이 되었습니다. Spectrum-XGS의 혁신은 지역 간 GPU 클러스터의 통신 지연, 정체 및 동기화 문제를 해결하는 세 가지 알고리즘 혁신과 하드웨어 시너지 효과에 있습니다.

1.핵심 알고리즘: 장거리-거리 네트워크 특성에 대한 동적 적응

Spectrum-XGS의 핵심은 실시간으로 -데이터 센터 간 통신의 주요 매개변수(거리, 교통 패턴, 혼잡 수준, 성능 측정항목)를 분석하고 네트워크 정책을 동적으로 조정하는 "거리-인식 네트워크 최적화 알고리즘" 세트입니다.

거리-적응형 혼잡 제어:모든 연결을 균일하게 처리하는 기존 이더넷과 달리 Spectrum-XGS 알고리즘은 데이터 센터 간의 실제 거리를 기준으로 정체 임계값을 자동으로 조정하여(현재 최대 수백 킬로미터 배포 지원) 장거리 전송 시 패킷 손실이나 축적을 방지합니다.-

정확한 대기 시간 관리:패킷별 -세분화된- 적응형 라우팅을 통해 기존 네트워크에서 패킷 재전송으로 인한 지연 시간 지터를 제거합니다. 지터는 AI 클러스터에서 중요한 위험입니다. 단일 GPU가 지연으로 인해 지연되면 모든 협력 GPU가 기다려야 하며 이는 전체 성능에 직접적인 영향을 미칩니다.

종단-대-원격 측정: GPU에서 스위치 및 교차{2}}데이터{3}}링크까지 전체-링크 성능 데이터를 실시간으로 수집하여 알고리즘 조정을 위한 밀리초{4}}수준의 피드백을 제공하여 네트워크 상태를 AI 워크로드 수요에 동적으로 일치시킵니다.

2. 하드웨어 시너지 효과: Spectrum-X Ecosystem의 높은-대역폭 기반 활용

Spectrum-XGS는 특정 NVIDIA 하드웨어와 결합하여 최적의 성능을 달성합니다.

스펙트럼-X 스위치: 기본 네트워크 백본으로서 높은 포트 밀도와 낮은-지연 전달을 제공합니다.

ConnectX-8 슈퍼NIC: GPU와 스위치 간 고속 데이터 전송을 위한 800Gb/s AI{1}}전용 네트워크 어댑터-

Blackwell 아키텍처 하드웨어: B200 GPU 및 GB10 슈퍼칩과 같이 Spectrum-XGS와 긴밀하게 통합되어 종단-대-지연 시간을 줄입니다. NCCL(집단 통신 라이브러리) 벤치마크를 통해 검증된 NVIDIA: Spectrum-XGS는 크로스-데이터 센터-GPU 간 통신 성능을 1.9배 향상시키면서 엔드{10}}대-지연 시간을 약 200밀리초-로 제어합니다. 사용자 상호작용에 반응이 빠르고{14}}지연이 없으며 AI 추론을 위한 실시간 요구사항을-충족합니다.

Spectrum-XGS를 통한 AI 교육 및 추론 효율성을 위한 전체{0}스택 최적화

Spectrum-XGS는 고립된 기술이 아니라 NVIDIA의 전체 스택 AI 생태계에 추가된 핵심 기술입니다.{1}} 이번 릴리스에서 NVIDIA는 하드웨어-알고리즘-소프트웨어 협업을 위해 Spectrum-XGS와 시너지 효과를 발휘하는 소프트웨어{3}}수준의 성능 향상도 공개했습니다.

Dynamo 소프트웨어 업그레이드: Blackwell 아키텍처(예: B200 시스템)에 최적화되어 AI 모델 추론 성능을 최대 4배까지 높이고 대규모 모델 추론에 대한 컴퓨팅 소비를 크게 줄입니다.

추론적 디코딩 기술: 소규모 초안 모델을 사용하여 기본 AI 모델의 다음 출력 토큰을 미리 예측하여 기본 모델의 계산을 줄이고 추론 성능을 추가로 35% 향상합니다. 이는 LLM(대규모 언어 모델)의 대화 추론 시나리오에 특히 적합합니다.

NVIDIA의 가속 컴퓨팅 부서 이사인 Dave Salvator는 이러한 최적화의 핵심 목표는 야심 찬 에이전트 AI 애플리케이션을 확장하는 것이라고 말했습니다. Spectrum-XGS와 소프트웨어 생태계의 결합은 1000조-매개변수 대규모 모델을 교육하든 수백만 명의 동시 사용자를 위한 AI 추론 서비스를 지원하든 예측 가능한 성능을 제공합니다.

Spectrum-XGS의 초기 적용 및 업계 영향

첫 번째 사용자: CoreWeave Pioneers Cross-도메인 AI Super FactoryGPU 클라우드 서비스 제공업체인 CoreWeave는 Spectrum-XGS를 최초로 채택한 기업 중 하나입니다. 회사의 공동 창립자이자 CTO인 Peter Salanki는 이 기술을 통해 고객이 기가{3}}규모의 AI 기능에 액세스하고 산업 전반에 걸쳐 혁신을 가속화할 수 있을 것이라고 언급했습니다. 예를 들어 Oracle, SoftBank 및 OpenAI의 Stargate 이니셔티브와 같은 초대형-대규모-규모의 AI 프로젝트를 지원합니다.

업계 동향: AI 네트워크 주류로서 InfiniBand를 대체하는 이더넷InfiniBand는 2023년 AI 백엔드 네트워크 시장의 약 80%를 점유했지만 업계는 빠르게 이더넷으로 전환하고 있습니다. 이더넷 기반 Spectrum-XGS를 개발하기로 한 NVIDIA의 선택은 이러한 추세에 부합합니다.

호환성 및 비용 이점:이더넷은 글로벌 데이터 센터의 보편적 표준으로, 네트워크 엔지니어에게 더 친숙하고 InfiniBand보다 배포 비용이 저렴합니다.

시장 규모 예측:Dell'Oro Group 데이터에 따르면 이더넷 데이터 센터 스위치 시장은 향후 5년 동안 거의 800억 달러에 이를 것으로 나타났습니다.

NVIDIA의 자체 성장: 650 그룹 보고서에 따르면 NVIDIA는 2024년 데이터 센터 스위치 시장에서 "가장 빠르게-성장하는 공급업체"로, 네트워킹 비즈니스 수익이 Q2 2024(4월 27일 종료)에 50억 달러에 도달하여 전년 대비-연간- 56% 증가했습니다.

Spectrum-XGS의 출시는 AI 인프라에서 NVIDIA의 전체-스택 독점 전략을 확장하는 동시에 새로운 경쟁 역학을 촉발합니다.

NVIDIA의 전체-스택 레이아웃: GPU(Blackwell), 상호 연결(NVLink/NVLink 스위치), 네트워크(Spectrum-X/Spectrum-XGS, Quantum-X InfiniBand)에서 소프트웨어(CUDA, TensorRT-LLM, NIM 마이크로서비스)에 이르기까지 NVIDIA는 AI 인프라를 위한 '컴퓨팅-연결-소프트웨어'를 포괄하는 폐쇄 루프를 형성했습니다. Spectrum-XGS는 3가지-레벨 확장을 위해 NVLink와 시너지 효과를 발휘합니다: 인트라-랙(NVLink), 인트라-데이터-센터(Spectrum-X) 및 크로스-데이터-센터 (스펙트럼-XGS).

경쟁사의 반응: Broadcom의 초기 SUE 기술은 Spectrum-XGS와 유사한 목표를 공유하며 이더넷 성능을 최적화하여 InfiniBand와의 격차를 줄이는 것을 목표로 합니다. 또한 Arista, Cisco, Marvell과 같은 공급업체는 성능-비용-생태계 호환성에 초점을 맞춘 경쟁을 통해 AI-전용 이더넷 스위치를 가속화하고 있습니다.

Spectrum-XGS의 핵심 가치는 AI 데이터 센터 확장을 '단일-사이트 제약'에서 '지역 간 협업'으로 확장하는 데 있습니다. 전력과 토지가 단일 데이터 센터의 엄격한 제한이 되면서, 도시 간 및 국가 간 AI 슈퍼 팩토리는 차세대 AI 애플리케이션(예: 일반 인공 지능, 대규모 에이전트 클러스터)을 지원하는 핵심 형태가 될 것입니다.-

NVIDIA의 네트워킹 부서 수석 부사장인 Gilad Shainer는 Hot Chips 컨퍼런스에서 다음과 같이 말했습니다. "교차-데이터 센터-광학 물리적 네트워크는 오랫동안 존재해 왔지만 Spectrum-XGS와 같은 소프트웨어 알고리즘은 이러한 물리적 인프라의 진정한 성능을 실현하는 열쇠입니다."

문의 보내기