GeForce RTX 40 시리즈 그래픽 카드의 VRAM 자세히 살펴보기

작성자: Andrew Burnes, 2023년 5월 18일 목요일 | 추천 스토리 GeForce RTX GPU 하드웨어 NVIDIA RTX

프레임 버퍼, 비디오 메모리 또는 "VRAM"이라고도 하는 그래픽 메모리에 대해 많은 질문을 받습니다. 그래서 새로운 GeForce RTX 4060 그래픽 카드 제품군을 공개하면서 게이머가 할 수 있는 몇 가지 인사이트를 공유하고 싶었습니다. 게임 요구 사양에 가장 적합한 구매 결정을 내립니다.

VRAM이란 무엇입니까?

VRAM은 그래픽 카드에 있는 고속 메모리입니다. GPU가 이미지를 원활하게 처리하고 표시하는 데 필요한 데이터에 액세스할 수 있도록 도와주는 더 큰 메모리 하위 시스템의 구성 요소 중 하나입니다.

이 기사에서는 최신 Ada Lovelace GPU 아키텍처의 메모리 하위 시스템 혁신과 GPU 캐시 및 VRAM의 속도와 크기가 성능과 게임 플레이 경험에 미치는 영향에 대해 설명합니다.

GeForce RTX 40 시리즈 그래픽 카드 메모리 하위 시스템: 성능 및 효율성 향상

최신 게임은 그래픽 쇼케이스이며 이제 설치 크기가 100GB를 초과할 수 있습니다. 이 엄청난 양의 데이터에 액세스하는 것은 GPU의 사양과 어느 정도 시스템의 다른 구성 요소에 따라 다른 속도로 발생합니다.

GeForce RTX 40 시리즈 그래픽 카드의 새로운 혁신 기술은 매끄러운 게임과 더 빠른 프레임 속도를 위한 프로세스를 가속화하여 텍스처 스트리밍이나 기타 일시적 고장들을 방지합니다.

캐시의 중요성

GPU에는 필요할 가능성이 있는 데이터를 저장하는 GPU의 처리 코어에 가까운 고속 메모리 캐시가 포함되어 있습니다. GPU가 VRAM(더 멀리)이나 시스템 RAM(더 멀리)에서 데이터를 요청하지 않고 캐시에서 데이터를 불러올 수 있다면 데이터 액세스 및 처리 속도가 빨라져 성능과 게임 플레이 유동성이 향상되고 전력 소비가 감소합니다.

GeForce GPU는 각 스트리밍 멀티프로세서(SM)에서 레벨 1(L1) 캐시(가장 가깝고 가장 빠른 캐시)를 특징으로 하며, 각 GeForce RTX 40 시리즈 그래픽 처리 클러스터(GPC)에서 최대 12개를 찾을 수 있습니다. 그 다음에는 최소한의 레이턴시로 빠르게 액세스할 수 있는 빠르고 더 큰 공유 레벨 2(L2) 캐시가 이어집니다.

각 캐시 수준에 액세스하면 레이턴시가 발생하고 더 큰 용량이 절충됩니다. GeForce RTX 40 시리즈 GPU를 설계할 때 단일 대형 L2 캐시가 작은 L2 캐시를 특징으로 하는 것과 L3 캐시에 액세스하는 속도가 느린 대형 L2 캐시와 같은 다른 대안보다 빠르고 효율적이라는 사실을 발견했습니다.

이전 세대 GeForce GPU는 L2 캐시가 훨씬 작았기 때문에 오늘날의 GeForce RTX 40 시리즈 GPU에 비해 ​​성능과 효율성이 낮았습니다.

사용하는 동안 GPU는 먼저 SM 내의 L1 데이터 캐시에서 데이터를 검색하고 데이터가 L1에서 발견되면 L2 데이터 캐시에 액세스할 필요가 없습니다. L1에서 데이터를 찾을 수 없는 경우 "캐시 미스"라고 하며 검색은 L2 캐시로 계속됩니다. 데이터가 L2에서 발견되면 이를 L2 "캐시 적중"(위 다이어그램의 "H" 표시 참조)이라고 하며 데이터는 L1에 제공된 다음 처리 코어에 제공됩니다.

L2 캐시에서 데이터를 찾을 수 없는 경우(L2 "캐시 미스") GPU는 이제 VRAM에서 데이터를 얻으려고 시도합니다. 우리의 이전 아키텍처 메모리 하위 시스템을 묘사하는 위의 다이어그램에서 수많은 L2 캐시 누락을 볼 수 있으며 이로 인해 많은 VRAM 액세스가 발생합니다.

VRAM에서 데이터가 누락된 경우 GPU는 시스템 메모리에서 데이터를 요청합니다. 데이터가 시스템 메모리에 없으면 일반적으로 SSD 또는 하드 드라이브와 같은 저장 장치에서 시스템 메모리로 로드할 수 있습니다. 그런 다음 데이터는 VRAM, L2, L1에 복사되고 궁극적으로 처리 코어에 공급됩니다. 가장 유용하고 가장 많이 재사용되는 데이터를 캐시에 유지하기 위해 다양한 하드웨어 및 소프트웨어 기반 전략이 존재합니다.

메모리 계층 구조를 통한 각 추가 데이터 읽기 또는 쓰기 작업은 성능을 저하시키고 더 많은 전력을 사용하므로 캐시 적중률을 높임으로써 프레임 레이트와 효율성을 높입니다.

128비트 메모리 인터페이스를 사용하는 이전 세대 GPU와 비교할 때 새로운 NVIDIA Ada Lovelace 아키텍처의 메모리 하위 시스템은 L2 캐시의 크기를 16배 증가시켜 캐시 적중률을 크게 높입니다. Ada 및 이전 세대 아키텍처의 128비트 GPU를 나타내는 위의 예에서 적중률은 Ada에서 훨씬 더 높습니다. 또한 Ada GPU의 L2 캐시 대역폭이 이전 GPU에 비해 ​​크게 증가했습니다. 이를 통해 코어와 L2 캐시 간에 최대한 빨리 더 많은 데이터를 전송할 수 있습니다.

아래 다이어그램에서 볼 수 있듯이 NVIDIA 엔지니어는 이전 세대 128비트 GPU의 L2 캐시 크기를 나타내는 2MB L2만 사용하는 RTX 4060 Ti의 특수 테스트 버전에 대해 32MB L2 캐시가 있는 RTX 4060 Ti를 테스트했습니다(여기서 512KB의 L2 캐시가 각 32비트 메모리 컨트롤러에 연결되었습니다.

다양한 게임 및 합성 벤치마크 테스트에서 32MB L2 캐시는 2MB L2 캐시의 성능에 비해 메모리 버스 트래픽을 평균 50% 이상 줄였습니다. 위의 Ada 메모리 하위 시스템 다이어그램에서 감소된 VRAM 액세스를 참조하십시오.

이 50%의 트래픽 감소로 GPU는 메모리 대역폭을 2배 더 효율적으로 사용할 수 있습니다. 결과적으로 이 시나리오에서 메모리 성능을 분리하면 최고 메모리 대역폭이 288GB/초인 Ada GPU는 최고 메모리 대역폭이 554GB/초인 Ampere GPU와 유사하게 작동합니다. 다양한 게임 및 합성 테스트에서 적중률이 크게 증가하여 프레임 속도가 최대 34% 향상되었습니다.

메모리 버스 폭은 메모리 하위 시스템의 한 측면입니다.

역사적으로 메모리 버스 폭은 새로운 GPU의 속도와 성능 등급을 결정하는 중요한 지표로 사용되었습니다. 그러나 버스 폭 자체는 메모리 하위 시스템 성능의 충분한 지표가 아닙니다. 대신 더 광범위한 메모리 하위 시스템 설계와 게임 성능에 미치는 전반적인 영향을 이해하는 것이 도움이 됩니다.

새로운 RT 및 Tensor 코어, 더 높은 클럭 속도, 새로운 OFA 엔진, Ada의 DLSS 3 기능을 포함한 Ada 아키텍처의 발전으로 인해 GeForce RTX 4060 Ti는 이전 세대인 256비트 GeForce RTX 3060보다 빠릅니다. Ti 및 RTX 2060 SUPER 그래픽 카드는 더 적은 전력을 사용합니다.

전체적으로 기술 사양은 Steam 사용자의 대다수를 차지하는 1080p 게이머를 위한 고성능의 뛰어난 60급 GPU를 제공합니다.

VRAM의 양은 GPU 아키텍처에 따라 다릅니다.

게이머는 종종 그래픽 카드에 일정량의 VRAM이 있는 이유를 궁금해합니다.

현세대 GDDR6X 및 GDDR6 메모리는 칩당 8Gb(1GB 데이터) 및 16Gb(2GB 데이터) 밀도로 제공됩니다. 각 메모리 칩은 두 개의 개별 16비트 채널을 사용하여 단일 32비트 메모리 컨트롤러에 연결하거나 두 개의 8비트 채널을 사용하여 두 개의 메모리 칩이 단일 32비트 메모리 컨트롤러에 연결할 수 있습니다. 이를 통해 128비트 GPU는 4개의 메모리 칩 또는 8개의 메모리 칩을 지원할 수 있습니다.

고용량 칩은 만드는 데 더 많은 비용이 들기 때문에 가격을 최적화하려면 균형이 필요합니다.

새로운 128비트 메모리 버스 GeForce RTX 4060 Ti GPU에서 8GB 모델은 4개의 16Gb GDDR6 메모리 칩을 사용하고 16GB 모델은 8개의 16Gb 칩을 사용합니다. 예를 들어 밀도를 혼합할 수 없으므로 12GB 모델을 생성할 수 없습니다. 이것이 바로 GeForce RTX 4060 Ti가 192비트 메모리 인터페이스와 그에 따른 12GB VRAM을 갖춘 GeForce RTX 4070 Ti 및 4070보다 더 많은 메모리(16GB) 옵션을 제공하는 이유이기도 합니다.

당사의 60등급 GPU는 성능, 가격 및 전력 효율성의 최적 조합을 제공하도록 세심하게 제작되었으며, 이것이 바로 당사가 128비트 메모리 인터페이스를 선택한 이유입니다.

즉, 동일한 버스 폭의 고용량 GPU는 항상 두 배의 메모리를 갖습니다.

OSD(On Screen Display) 도구가 VRAM 사용량을 정확하게 보고합니까?

게이머는 온스크린 디스플레이 성능 측정 도구에서 "VRAM 사용량" 메트릭을 자주 인용합니다. 그러나 모든 게임과 게임 엔진이 다르게 작동하므로 이 수치는 완전히 정확하지 않습니다.

대부분의 경우 게임은 VRAM을 자체적으로 할당하여 시스템에 '필요한 경우를 대비해 원합니다'라고 말합니다. 그러나 VRAM을 보유하고 있다고 해서 실제로 모든 것이 필요한 것은 아닙니다. 실제로 게임은 사용 가능한 경우 더 많은 메모리를 요구하는 경우가 많습니다.

메모리가 작동하는 방식으로 인해 개발 도구에 액세스할 수 있는 게임 개발자가 아닌 이상 무엇이 활발하게 사용되고 있는지 정확히 알 수 없습니다. 일부 게임은 옵션 메뉴에서 가이드를 제공하지만 항상 정확한 것은 아닙니다.

실제로 필요한 VRAM의 양은 장면과 플레이어가 보고 있는 내용에 따라 실시간으로 달라집니다.

또한 VRAM이 실제로 최대로 사용될 때 게임 동작이 달라질 수 있습니다. 일부에서는 메모리가 제거되어 현재 장면이 메모리에 다시 로드되는 동안 눈에 띄는 성능 장애가 발생합니다. 다른 경우에는 눈에 띄는 영향 없이 선택한 데이터만 로드 및 언로드됩니다. 그리고 경우에 따라 새 자산이 시스템 RAM에서 가져오기 때문에 더 느리게 로드될 수 있습니다.

게이머에게 있어 플레이는 게임의 동작을 진정으로 확인하는 유일한 방법입니다. 또한 게이머는 실제 게임 경험을 분석하는 데 도움이 되는 "1% 낮음" 프레임 속도 측정을 볼 수 있습니다. 1% 낮음 메트릭은 무료 NVIDIA FrameView 앱의 성능 오버레이 및 로그와 기타 널리 사용되는 측정에서 찾을 수 있습니다. 도구 - 특정 기간 동안 프레임의 가장 느린 1%의 평균을 측정합니다.

GeForce Experience로 설정 선택 자동화 및 최신 패치 다운로드

최근 일부 새로운 게임은 시각적 품질을 저해하지 않으면서 메모리 사용량을 더 잘 관리할 수 있는 패치를 출시했습니다. 일반적으로 출시 직후 버그를 수정하고 성능을 최적화하므로 새로운 출시에 대한 최신 패치를 다운로드하십시오.

또한 GeForce Experience는 대부분의 새로운 게임을 지원하여 지원되는 각 GeForce GPU 및 VRAM 구성에 대해 최적화된 설정을 제공하여 성능과 이미지 품질의 균형을 통해 게이머에게 최상의 경험을 제공합니다.

게임 옵션 용어에 익숙하지 않고 게임을 로드하는 순간부터 게임을 즐기고 싶다면 GeForce Experience가 게임 설정을 자동으로 조정하여 매번 뛰어난 경험을 제공할 수 있습니다.

NVIDIA 기술은 개발자가 VRAM 사용량을 줄이는 데 도움을 줄 수 있습니다.

게임은 그 어느 때보다 풍부하고 상세하므로 100GB 이상의 설치가 필요합니다. 개발자가 메모리 사용을 최적화할 수 있도록 NVIDIA는 다음과 같은 몇 가지 무료 개발자 도구 및 SDK를 제공합니다.

이는 개발자가 모든 GPU, 플랫폼 및 메모리 구성에 대해 게임을 최적화할 수 있도록 NVIDIA가 무료로 제공하는 도구 및 기술 중 일부에 불과합니다.


일부 애플리케이션은 더 많은 VRAM을 사용할 수 있습니다.

게임 외에도 GeForce RTX 그래픽 카드는 3D 애니메이션, 비디오 편집, 모션 그래픽, 사진, 그래픽 디자인, 건축 시각화, STEM, 방송 및 AI를 위해 전 세계적으로 사용됩니다. 이러한 산업에서 사용되는 일부 응용 프로그램은 추가 VRAM의 이점을 누릴 수 있습니다. 예를 들어 Premiere에서 4K 또는 8K 타임라인을 편집하거나 D5 Render에서 대규모 건축 장면을 제작할 때입니다.

게임 측면에서 고해상도는 또한 일반적으로 VRAM의 증가를 요구합니다. 경우에 따라 선택 사항인 초대형 텍스처 팩으로 게임을 시작하고 더 많은 VRAM을 할당할 수 있습니다. 그리고 4060 Ti(8GB)의 "높음" 사전 설정과 4060 Ti(16GB)의 최대 "울트라" 설정에서 가장 잘 실행되는 소수의 게임이 있습니다. 대부분의 게임에서 두 버전의 GeForce RTX 4060 Ti(8GB 및 16GB)는 최대 설정에서 플레이할 수 있으며 동일한 성능을 제공합니다.

PC 플랫폼의 이점은 개방성, 구성 가능성 및 업그레이드 가능성입니다. 이것이 GeForce RTX 4060 Ti에 대해 두 가지 메모리 구성을 제공하는 이유입니다. 추가 VRAM이 필요한 경우 7월에 제공될 예정입니다.

모든 게이머를 위한 GPU

GeForce RTX 4060 제품군 출시에 이어 세 가지 주요 게임 해상도에 최적화된 그래픽 카드가 출시될 예정입니다. 어떤 방식으로 플레이하든 모든 GeForce RTX 40 시리즈 GPU는 NVIDIA DLSS 3, NVIDIA Reflex, NVIDIA G-SYNC, NVIDIA를 비롯한 다양한 게임 향상 기술의 지원을 받아 최고의 전력 효율성으로 동급 최강의 경험을 제공합니다. 방송 및 RTX 리믹스.

GeForce RTX 그래픽 카드의 전체 기능을 활용하는 모든 새로운 게임 및 앱에 대한 최신 뉴스를 보려면 GeForce.com을 계속 지켜봐 주세요.