Home > #새소식 > AI 메모리 한계 극복 위한 캐시 압축 기술 터보퀀트 발표한 구글

AI 메모리 한계 극복 위한 캐시 압축 기술 터보퀀트 발표한 구글


구글 리서치가 대규모 언어 모델(LLM)의 추론 효율을 획기적으로 높여주는 새로운 압축 알고리듬인 ‘터보퀀트(TurboQuant)’를 공개했습니다.

터보퀀트는 AI 모델을 구동할 때 맥락 이해를 위해 메모리를 대량으로 점유하는 핵심 요소인 ‘KV 캐시’를 정밀하게 압축해 시스템 병목 현상을 해결합니다.

특히 데이터를 3비트 수준으로 압축하면서도 인공지능의 답변 정확도 저하를 거의 발생시키지 않는다는 점이 이번 기술의 핵심입니다.

터보퀀트는 기존 표준 방식인 FP16 대비 메모리 소비를 최대 6배까지 줄였고, 데이터 처리 속도는 최대 8배까지 향상시키는 성과를 거두었습니다.

이를 통해 엔비디아 H100 GPU 한 대에서 최대 100만 토큰에 이르는 방대한 문맥 데이터를 안정적으로 처리할 수 있게 되었고, 상대적으로 적은 램을 가진 그래픽 카드들도 성능 향상을 기대할 수 있습니다.

터보퀀트는 메모리 한계로 인해 불가능했던 작업을 처리하면서도 운영 비용 및 에너지 소모를 줄일 것으로 기대를 모으고 있지만, 소규모 언어 모델이나 이미지 및 음악 생성에선 효과가 없을 것으로 예상됩니다.

Editor_B
글쓴이 | Editor_B
언제나 기분 좋은 소식을 전하고 싶습니다.

news@techg.kr
You may also like
전화번호 없는 구글 계정에 5GB로 클라우드 공간 제한한 구글
QR코드로 안드로이드와 아이폰 데이터 전송 기능 출시한 구글
크롬북에 대해 10년 업데이트 약속한 구글
암호화된 RCS 메시지 베타 버전 출시한 애플

Leave a Reply

error: Content is protected !!