LLM 추론 전용 자체 AI 가속기 할라페뇨 공개한 오픈AI와 브로드컴

오픈AI와 브로드컴이 2026년 6월 24일 대규모 언어 모델(LLM) 추론에 특화한 오픈AI 첫 자체 AI 가속기 ‘할라페뇨(Jalapeño)’를 공개했습니다.

할라페뇨는 범용 GPU를 AI용으로 전용하지 않고 LLM 추론만을 위해 처음부터 새로 설계한 ASIC으로, 커널·메모리 이동·네트워킹·서빙 패턴을 최적화해 하드웨어 이론상 한계에 가까운 실효 활용률을 구현하는 것을 목표로 합니다.

오픈AI가 칩 설계를 맡고, 브로드컴이 실리콘 구현과 토마호크 네트워킹 실리콘을 포함한 연결 기술을, 셀레스티카가 보드·랙·시스템 통합을 담당하는 분업 구조로 개발됐습니다.

설계 착수부터 테이프아웃까지 단 9개월 만에 완료했으며, 오픈AI는 자사 LLM을 칩 설계와 최적화 과정에 활용해 개발 속도를 높인 것이 고성능 첨단 반도체 분야에서 가장 빠른 ASIC 개발 사례라고 밝혔습니다.

현재 엔지니어링 샘플이 실험실에서 GPT-5.3-Codex-Spark를 포함한 머신러닝 워크로드를 목표 주파수와 전력 수준으로 돌리고 있는데 초기 테스트 결과 와트당 성능에서 현재 최신 제품 대비 크게 뛰어난 것으로 나타났습니다.

오픈AI는 챗GPT·코덱스·API·에이전틱 AI 등 실서비스의 추론 비용과 속도, 안정성을 직접 통제하기 위해 이 자체 칩을 개발했습니다.

브로드컴 CEO 혹 탄은 마이크로소프트 등 파트너사와 함께 2026년부터 기가와트 규모 데이터센터에 할라페뇨 플랫폼을 배포하는 것을 목표로 한다고 밝혔습니다.

다만 할라페뇨는 GPU를 대체하는 게 아니라 대용량 서빙 워크로드에 특화한 추론 전용 가속기로 모델 훈련을 비롯한 다양한 워크로드에서 엔비디아·AMD GPU의 역할은 그대로 유지됩니다.

글쓴이 | Editor_B
언제나 기분 좋은 소식을 전하고 싶습니다.

news@techg.kr