GPU 기술은 음성, 이미지 또는 텍스트 등 다양한 환경에서 맥락을 인지하기 위한 인공 지능의 능력을 기르는데 활용되고 있다. 이처럼 인공 지능의 개선을 위해 심층 신경망에서 작동하는 GPU의 중요도가 높아지자 엔비디아가 인공 지능의 추론에 특화된 그래픽 플랫폼을 선보였다.
엔비디아는 13일, 중국에서 열리고 있는 GPU 기술 컨퍼런스 GTC 차이나 2016에서 10세대 그래픽 아키텍처 ‘파스칼’ 기반의 파스칼 딥러닝 플랫폼인 테슬라 P4과 P40을 발표했다. 테슬라 P4와 P40은 8비트(INT8) 기반의 특수 추론 명령을 사용해 인텔 제온 E5 프로세서 대비 45배, 카페 구글넷 신경망 네트워크에 적용된 GPU 솔루션 대비 4배 더 빠른 속도로 추론 작업을 실행하는 등 인공지능 추론에 특화된 성능을 갖췄다.
테슬라 P4는 작은 사이즈의 폼팩터와 50W(와트)의 저전력 디자인으로 최고 수준의 에너지 효율을 필요로 하는 데이터 센터에 적합하고, 하나의 테슬라 P4만으로 영상 추론 작업에서 13대의 CPU 단일 서버를 대체할 수 있다. 테슬라 P40은 8개의 테슬라 P40 가속기를 탑재한 서버에서 44 TOPS INT8(새로운 딥 러닝 추론 명령어)의 성능을 발휘, 140대 이상의 CPU 기반 서버를 대체할 수 있다.
테슬라 P4, P40과 함께 엔비디아는 복잡한 딥 러닝 네트워크에 즉각적인 응답성을 제공하는 텐서RT와 딥스트림 SDK도 함께 발표했다. 생산 배치용 딥 러닝 모델에 최적화된 소프트웨어 라이브러리인 텐서 RT는 32비트 또는 16비트를 기반으로 훈련된 신경망을 정밀 INT8 연산에 최적화하여 딥 러닝 애플리케이션의 처리량과 효율을 극대화했다. 딥스트림 SDK는 파스칼 기반 서버의 성능을 통해 사용자에게 93개의 HD 동영상 스트림을 동시에 실시간 디코딩 및 분석할 수 있는 능력을 갖췄다.
GTC 차이나에서 발표한 엔비디아 테슬라 P4와 P40은 각각 11월과 10월에 ODM, OEM 및 공식 파트너사의 공인된 서버에 탑재돼 출시될 예정이다. 한편, 엔비디아는 오는 10월 6일과 7일 한국에서 GPU 기술 컨퍼런스 GTCx코리아를 개최하고 인공 지능을 위한 딥 러닝 기술에 대해 공유할 예정이다.