인공 지능의 학습 능력 향상을 위한 GPU 성능 향상이 중요해진 가운데, 엔비디아가 파스칼 아키텍처 기반의 가속 컴퓨팅 플랫폼 ‘테슬라 P100’과 심화 학습(Deep Learning) 전용 슈퍼컴퓨터 DGX-1을 미국 새너제이에서 열리고 있는 GTC2016에서 공개했다.
16nm 핀펫 공정을 적용해 153억개의 트랜지스터를 집적해 성능과 아울러 에너지 효율성을 보강한 테슬라 P100은 파스칼 기반 아키텍처(GP100)를 적용해 종전 맥스웰 기반 GPU 플랫폼에서 구성했던 신경망의 훈련 성능을 12배 향상시켰다. 또한 5배 가속화된 대역을 가진 NV링크로 최대 8대의 테슬라 P100 GPU를 연결해 단일 노드에서 애플리케이션 성능을 최대로 끌어내고, 새로운 반정밀도 부동 소수점 연산(FP16)을 위한 명령으로 21테라 플롭스, 배정밀도(FP64)와 단정밀도(FP32) 연산에서 각각 5.3과 10.6테라 플롭스의 성능으로 인공 지능 학습을 돕는다. 이날 공개한 테슬라 GPU는 16GB HBM2(High Bandwitdh Memory) VRAM과 쌍을 이루도록 설계했고 4096비트의 메모리 버스로 구성했다.
테슬라 P100과 함께 GTC 2016에서 공개된 엔비디아 DGX-1은 파스칼 아키텍처 기반의 GPU 가속기를 탑재한 시스템으로 250대의 x86 서버를 합친 처리량을 연산 능력을 보유해 인공 지능 개발을 위한 심화학습 소프트웨어와 개발 도구를 손쉽게 설치할 수 있다.
엔비디아 DGX-1 소프트웨어는 심화 신경망(Deep Neural Networks) 디자인과 제작을 위해 인터렉티브 시스템 ‘엔비디아 딥 러닝 GPU 트레이닝 시스템(DIGITS)’과 GPU 가속 라이브러리의 신규 버전 ‘엔비디아 CUDA 딥 뉴럴 네트워크 라이브러리(cuDNN) 버전5’를 포함하고 있다. 또한 카페(Caffe), 시에노(Theano), 토치(Torch)를 포함한 다양한 딥 러닝 프레임 워크의 최적화된 버전을 포함하는 것은 물론, 추가적으로 클라우드 관리 도구와 소프트웨어 업데이트 및 컨테이너화된 애플리케이션 저장소의 접근 권한을 제공한다.
DGX-1 제원은 반정밀도 최고 성능에서 최대 170 테라플롭스, 8개의 테슬라 P100 GPU 가속기, GPU당 16GB 메모리, NV링크 하이브리드 큐브 메쉬, 7TB SSD DL 캐시, 듀얼 10GbE, 쿼드 InfiniBand 100Gb 네트워킹, 3U 3200다. 출시는 미국 기준으로 6월부터, 다른 지역에서는 엔비디아 및 지정 SI 업체에서 2016년 3분기부터 판매할 예정이다.