AI 인프라는 AI 모델과 애플리케이션의 개발, 배포, 관리를 지원하도록 설계되었습니다. AI 인프라에는 AI 워크로드를 위한 성능, 확장성, 효율성을 향상시키기 위해 특별히 설계된 하드웨어 및 소프트웨어 기술이 모두 포함됩니다.
AI 인프라에는 컴퓨팅, 데이터, 소프트웨어 프레임워크, 운영 파이프라인, 네트워킹을 원활하게 통합하는 포괄적인 풀스택 접근 방식이 필요합니다. 이로써 데이터 수집부터 모델 개발, 추론, 지속적인 개선에 이르기까지 AI 라이프사이클 전 과정을 효율적으로 구축하고 관리할 수 있어, 더 빠른 혁신과 확장 가능한 성능을 실현할 수 있습니다. 이러한 구성 요소에는 다음이 포함될 수 있습니다.
AI 인프라는 GPU, 고속 상호 연결(예: InfiniBand 또는 광학 이더넷), 최적화된 소프트웨어 스택과 같은 특수 하드웨어를 사용하여 훈련 및 추론 워크로드의 고처리량과 저지연 시간 요구 사항을 처리하도록 특별히 설계되었습니다. 대규모 전력과 냉각 요구 사항에 밀도 높은 컴퓨팅을 사용할 때, 이 모두를 효율적으로 실행하기 위해 관리 소프트웨어가 포함된 기계, 전기, 액체 냉각 시스템이 필요합니다. 반면, 기존 IT 인프라는 데이터베이스, 이메일, 엔터프라이즈 워크로드와 같은 애플리케이션을 지원하는 범용 컴퓨팅, 스토리지, 네트워킹 작업을 위해 설계되었으며, 일반적으로 CPU와 기존 이더넷 네트워크에 의존합니다. 기본적으로 AI 인프라는 다수의 GPU 코어에 걸쳐 수천 개의 연산을 동시에 실행할 수 있도록 최적화되어 있는 반면, IT 인프라는 단일 서버 워크로드 전반에 걸쳐 광범위한 호환성에 중점을 둡니다.
AI 팩토리는 일련의 상호 연결된 프로세스와 구성 요소를 통해 운영되며, 각 프로세스와 구성 요소는 AI 모델의 생성과 배포를 최적화하도록 설계되었습니다.
AI 팩토리, 특히 AI 추론 모델을 실행하는 팩토리에 필요한 AI 인프라에는 앞서 언급한 모든 구성 요소와 에너지 효율적이고 범용적으로 활용 가능한 기술이 포함됩니다. 소프트웨어 구성 요소는 모듈형이고 확장 가능하며 API 기반으로 모든 부분을 하나의 응집력 있는 시스템으로 통합합니다. 이러한 조합은 지속적인 업데이트와 성장을 보장하며, AI의 진보에 따라 기업이 진화할 수 있도록 지원합니다.
AI 팩토리를 위한 AI 인프라는 고성능 컴퓨팅, 스토리지, 네트워킹, 전력 및 냉각 구성 요소로 긴밀히 통합된 스택으로, 에이전틱 AI, 피지컬 AI, HPC 및 AI 워크로드의 전체 수명 주기를 지원하도록 설계되었습니다. 여기에는 일반적으로 GPU 가속 서버, InfiniBand 또는 이더넷과 같은 고대역폭 저지연 상호 연결, 빠른 스토리지 시스템, 전력 분배 시스템, 냉각 시스템, 오케스트레이션 소프트웨어가 포함됩니다. 확장성과 효율성을 위해 구축된 이 인프라는 AI 팩토리의 디지털 조립 라인을 형성하며, 점점 더 지능적인 모델의 지속적인 반복 및 배포를 가능하게 합니다.
AI는 병렬 처리와 가속 컴퓨팅 성능에 크게 의존하는 특수 하드웨어, 소프트웨어, AI 알고리즘을 필요로 하기 때문에 기존의 기업 IT 인프라에서 벗어나는 것이 필요합니다. 기존의 비가속 데이터센터는 신속하게 액세스할 수 있는 방대한 양의 데이터를 처리하고 분석하는 데 필요한 AI 워크로드의 증가하는 수요를 효과적으로 감당할 수 없습니다.
최신 AI 인프라에는 대량의 데이터를 효율적으로 저장하고 검색할 수 있는 대용량 및 고성능 스토리지 솔루션이 필요합니다. 결과적으로 기존 스토리지 인프라의 용도를 변경하기 보다는 AI에 맞게 특별히 맞춤화된 전용 스토리지 인프라를 구축하는 것이 필수적입니다. 가속화된 인프라를 위해 특별히 설계된 AI 소프트웨어는 비용을 절감하면서 AI 파이프라인 전반에 걸쳐 최고의 처리량을 제공하는 데 필요합니다.
알 수 없는 미래의 워크로드에 대해 대응할 수 있는 인프라에 투자하는 것은 장기적인 AI 전략의 중요한 부분입니다. 또한 GPU에서 병렬 처리를 사용하는 가속 컴퓨팅을 통해 까다로운 애플리케이션의 속도가 향상되는 동시에 장기적으로 에너지 효율과 비용 절감도 달성할 수 있습니다.
클라우드 기반 솔루션은 초기 도입 비용을 절감하고 자본적 지출(CapEx)을 운영 지출(OpEx)로 전환하여 AI 이니셔티브를 시작할 수 있는 비용 효율적인 방법을 제공합니다. 그러나 클라우드 솔루션은 초기 비용을 절감할 수 있지만, 장기적으로는 비용이 추가될 수 있습니다. IT 리더는 시간이 지남에 따라 총 소유 비용(TCO)을 평가하고 데이터 스토리지, 컴퓨팅 리소스, 지속적인 유지 관리와 같은 요소를 고려해야 합니다.
일반적으로 초기 TCO가 아닌 투자 수익률(ROI)을 핵심 지표로 고려하는 것이 중요합니다. AI 인프라를 구축하려면 전용 리소스, 신중한 계획, 클라우드 및 온프레미스 솔루션에 대한 고려가 필요합니다. 최적화된 풀스택 기술과 전략의 올바른 조합을 사용하여 조직은 AI 인프라 구축과 관련된 과제를 탐색하고 성공적인 결과를 이끌어낼 수 있습니다.
시작하려면 데이터센터 및 AI 인프라 허브를 확인하세요. 여기에서 NVIDIA의 풀스택 솔루션으로 데이터센터와 AI 팩토리를 최적화하는 데 필요한 리소스를 찾을 수 있습니다.