
구글이 6월 9일 70개 이상의 언어를 거의 실시간으로 음성 대 음성(speech-to-speech) 통역하는 고급 오디오 모델 ‘제미나이 3.5 라이브 번역'(Gemini 3.5 Live Translate)을 공개했습니다.
이 모델은 발화자가 문장을 끝낼 때까지 기다렸다가 번역하는 종전의 턴 바이 턴(turn-by-turn) 방식과 달리 음성을 연속 스트림으로 처리해 발화와 거의 동시에 번역 음성을 내보내며, 원래 화자의 억양·감정적 속도·음높이(pitch)까지 재현합니다.
지금까지 구글의 실시간 음성 번역은 픽셀(Pixel) 전용 하드웨어나 구글 자체 이어버드처럼 특정 장치를 조합해야만 제한적으로 이용할 수 있었으나 이번 모델은 이러한 생태계 장벽을 없앴습니다.
안드로이드 이용자는 이어폰 없이도 마치 일반 전화 통화처럼 스마트폰을 귀에 대면 실시간 번역 음성을 들을 수 있는 ‘리스닝 모드(listening mode)’를 쓸 수 있고, 개발자는 제미나이 라이브 API와 구글 AI 스튜디오(AI Studio) 공개 미리보기로 이 기술을 이용할 수 있습니다.
구글 회의에선 종전 5개 언어에 머물던 번역 지원 범위를 2천 가지 이상의 언어 조합으로 늘렸고 즉시 활성화할 수 있는 전용 버튼을 화면 앞줄에 새로 넣었습니다.
차량 공유 서비스 그랩(Grab)은 이미 이 모델을 운전자와 승객 간 소통에 도입했고, 고객 지원·교실·관광 가이드·라이브 방송 등 소란스러운 현장에서 겹치는 목소리, 비격식 언어도 잘 처리하도록 설계했다고 구글은 밝혔습니다.
안전성을 위해 제미나이 3.5 라이브 트랜슬레이트로 생성된 모든 오디오는 사람 귀에 들리지 않는 신스아이디(SynthID) 워터마크를 심어 AI 생성 음성임을 표시함으로써 합성 허위 정보 확산을 막는 장치를 갖췄습니다.
제미나이 3.5 라이브 번역은 안드로이드·iOS용 구글 번역 앱에 적용됐고, 구글 미트(Meet)는 일부 구글 워크스페이스(Workspace) 기업 계정에 비공개 미리보기로 서비스를 시작합니다.





