ARM은 해마다 CPU와 GPU 코어에 대한 새로운 IP를 발표한다. ARM이 발표하는 새로운 코어들은 스마트폰이나 태블릿을 포함한 저전력 모바일 장치의 성능과 기능에 영향을 미치는 터라 항상 관심의 대상이 되어 왔다. 하지만 ARM이 발표하는 수많은 코어 중에서도 대다수의 관심을 끄는 것은 역시 스마트폰에 관계된 코어일 수밖에 없다. 스마트폰 같은 모바일 장치의 성능과 향후 기능을 미리 확인할 수 있는 주요한 부분을 ARM이 제공해 왔기 때문이다.
그런데 스마트폰용 코어라고 해도 많은 이들의 관심을 끄는 부분은 플래그십용 코어였다. 차기 고성능 스마트폰에 들어갈 다양한 기능과 빠른 처리 성능을 위해 아키텍처와 공정을 개선한 코어의 발표는 ARM 기반 모바일 프로세서를 만드는 제조사와 함께 이용자들의 관심 대상이기도 했다.
이처럼 높은 관심을 받는 플래그십 코어에 비해 가장 많은 판매량을 가진 중급형 스마트폰의 모바일 프로세서를 위한 코어의 관심도는 상대적으로 낮은 편이었다. 플래그십 코어의 발표에서 큰 변화를 접한 것도 있거니와 중급형 제품을 겨냥한 코어에 대한 낮은 기대치도 영향을 미쳤던 것이다.
아마도 많은 이용자들이 이러한 흐름에 익숙해 있겠지만, 올해는 조금 다르게 봐야 할 수도 있다. ARM이 지난 10월 6일부터 8일까지 개최한 ARM 테크콘에서 공개한 새로운 코어들이 이전에 비하면 좀더 눈여겨볼 부분이 있어서다. 테크콘에서 공개한 새로운 코어는 GPU인 말리-G57과 신경망 코어인 에토스 NPU, 그리고 디스플레이 코어인 말리 D37. 어쩌면 전년에 공개했던 중급형 코어를 잇는 새로운 세대에 불과할 수도 있으나 이러한 중급형을 위한 NPU의 출현은 처음이다. 때문에 ARM은 11월 12일 서울에서 개최한 ARM 테크심포지아를 통해 새로운 코어의 특징을 한번 더 설명했다.
ARM의 GPU 코어인 말리-G57은 말리-G77과 마찬가지로 발할(Valhall) 아키텍처를 쓴다. 발할 아키텍처는 3년 동안 써왔던 바이프로스트 아키텍처를 대신하는 ARM의 새로운 GPU 아키텍처로 최신 응용 프로그램의 처리 환경에 맞춰 구조를 개선했다. 가장 큰 특징은 워프 실행 모델의 도입과 실행 엔진의 파이프라인을 정리해 처리 구조를 개선한 점이다. 동일 코드를 공유하고 최소한의 분기로 같은 실행 경로를 가진 스레드를 처리하는 워프 기반 실행 모델을 확대해 동시에 16 스레드를 처리하도록 코어 내 클러스터 구조로 바꾸고, i-캐시와 레지스터 파일, 워프 제어 유닛을 가진 실행 엔진 1개로 16개의 워프 명령을 처리해 코어당 32 FMA(부동소수점 곱하기와 더하기를 한번에 수행) 명령을 처리한다. 때문에 24 FMA를 처리했던 종전 대비 33% 성능 향상을 이룰 수 있게 됐다고 ARM은 설명한다. 이 아키텍처를 말리-G57이라는 이름의 중급형 코어에 적용해 이번 테크콘에서 처음 공개한 것이다.
아울러 ARM의 에토스 NPU는 지난 해 공개했던 NPU 아키텍처인 프로젝트 트릴리움(Project Trillium)을 테크콘을 통해 새롭게 브랜딩한 것이다. 에토스 NPU는 머신 러닝 IP에 필요한 컨볼루션 연산 효율성, 효율적인 데이터 이동 및 프로그래밍 특성을 구현한 것으로 다른 신경망 가속기와 크게 다르진 않다. 다만 ARM은 에토스 NPU를 적용 환경에 맞춰 세분화하는 것과 아울러 각 환경에 맞는 처리 성능을 갖고 있다. 128개 8비트 곱셈 유닛(MAC)을 가진 MAC 엔진과 프로그래머블 레이어 엔진(PLE)이 쌍을 이룬 컴퓨트 엔진의 수와 컴퓨트 엔진이 공유하는 S램의 크기에 따라 에토스 NPU의 구성과 성능이 달라진다. 에토스 N77은 최대 16개의 컴퓨트 엔진과 최대 4MB의 S램으로 1GHz 클럭 기준으로 초당 4TOP의 성능을 낸다. 이번에 공개한 에토스 N57은 512KB의 S램과 적은 컴퓨트 엔진으로 초당 2 TOP, N37은 더 적은 컴퓨트 엔진으로 초당 1TOP의 처리 성능을 제공한다.
상대적으로 관심을 끌지 않았던 디스플레이 처리 유닛인 DPU도 보급형 시장에 맞춰 새로 선보였다. 말리 D37 DPU는 디스플레이에 맞춰 영상을 출력하는 처리 장치다. 비록 말리 D37이 플래그십은 아니지만, 보급형 시장을 위한 처리 장치를 내놓은 것 자체에 큰 의미가 있다. 무엇보다 최대 2K 해상도의 출력, 단일 디스플레이에 4개의 컴포지션 레이어 지원, 어서티브 디스플레이 5 기술과 결합해 HDR10 및 HLG와 혼합 HDR-SDR 구성으로 SDR 디스플레이에서 HDR 환경을 구현한다.
아직 ARM이 발표한 새로운 보급형 코어를 담은 프로세서가 나온 것은 아니므로 이를 적용한 제품의 성능과 기능을 섣부르게 판단할 수는 없는 상황이다. ARM이 발표한 말리-G57과 에토스 NPU, 말리-D37은 모두 개별적인 코어들이므로 예전처럼 프로세서 개발 업체들이 각각 따로 쓸 수 있고, 이를 모두 조합해 하나의 프로세서를 만들 수도 있다.
그런데 ARM이 보급형 시장을 겨냥해 내놓은 이번 코어 IP에서 이전 발표와 조금 다른 결이 보이는 것은 분명하다. 고급형 제품의 성능과 기능들을 보급형 제품까지 확장하는 코어라는 점에서다. 물론 핵심 코어를 발표했을 뿐 이를 기반으로 완성된 프로세서까지 출현하지 않았지만, ARM의 보급형 코어를 조합한 프로세서가 실제 등장하면 스마트폰을 비롯한 제품 환경들의 변화를 지켜봐야 할 필요가 있을 정도다.
이를 테면 지금처럼 고급형 장치 위주로 적용되는 AI 처리 기능도 에토스 N57 또는 N37 코어를 실은 보급형 프로세서를 쓰는 스마트폰이 등장하면 처리 시간을 줄이면서 더 많은 AI 관련 기능을 값싼 장치에서 보편적으로 쓸 수 있다. 여기에 처리 성능이 높아진 말리-G57과 말리-D37의 조합에 따라 모바일 장치의 그래픽 품질 향상을 기대하는 것과 함께 값싼 가상 현실용 헤드셋까지 적용 범위를 넓힐 수도 있다. 다만 말리-G77 대비 말리-G57은 최대 코어 수가 6개로 제한돼 고급형 성능을 넘을 수는 없으나 벌컨 같은 그래픽 API에 최적화된 처리 환경을 갖춘 중급형 장치의 출현은 3D 게임 같은 그래픽 콘텐츠를 즐기는 장치 시장에도 적잖은 영향을 미칠 수 있다.
그렇다고 ARM의 보급형 코어들을 프로세서 제조 업체들이 채택해야 하는 것은 아니다. 퀄컴이나 삼성, 화웨이 등 수많은 프로세서 제조사들은 자체적으로 GPU나 신경망 코어를 설계에 제품에 반영하고 있다. 그럼에도 불구하고 ARM은 개발 생태계로 모이게 만드는 부분에서 차이가 드러날 것이라고 말한다. AI 관련 개발자들이 복잡하게 접근할 필요 없이 ARM NN 개발자 도구를 통해 코어텍스 CPU와 말리 GPU, 에토스 신경망 코어를 곧바로 연결할 수 있는 개발 환경을 제공하기 때문이다. 또한 각 제조사에서 자체 신경망 코어를 탑재하더라도 CPU에서 시작하는 머신 러닝 처리 과정을 볼 때 ARM의 CPU를 그대로 쓰는 대부분의 프로세서에서 최상의 성능을 내려면 ARM 코어 간 조합이라고 강조한다.
ARM이 모바일 프로세서 시장에서 기존 생태계 이점을 앞세운 적이 없지는 않지만, 이전까지는 대체로 고급형 시장에 집중했던 것을 감안하면 보급형 코어의 확대는 미래 제품의 변화에 대비한다는 의미기도 하다. 끝단의 엣지 장치 자체에서 인공 지능 알고리듬을 처리하는 ‘온 디바이스 AI’나 차세대 컴퓨팅으로 진화하는 가상 현실 등 보편적 기술과 성능을 갖춘 장치를 위한 ARM 전략의 변화가 이번 중급형 코어 발표에 들어 있던 것이다. 물론 ARM의 전략이 통할지 지켜봐야겠지만, 보급형 모바일 제품들이 대중화되는 때 이번 발표를 돌아보게 되지 않을까?