Home > #새소식 > 3초 음성 샘플로 비슷한 목소리 생성 AI ‘VALL-E’ 등장

3초 음성 샘플로 비슷한 목소리 생성 AI ‘VALL-E’ 등장

마이크로소프트 연구원들이 3초의 음성 샘플만 듣고 유사한 사람 목소리를 합성할 수 있는 VALL-E에 대한 논문을 깃허브에 공개했습니다.

VALL-E는 문자를 음성으로 변환하는 기존의 TTS(Text To Speech)를 위한 모델링이지만, 일상적인 말처럼 자연스럽게 말할 수 있습니다.

연구진들은 6만 시간의 영어 음성으로 사전 훈련을 진행했고, 실험 결과 문장을 읽는 음성의 자연스러운과 화자의 유사성에서 성능이 뛰어나다고 밝혔습니다.

특히 단순한 문장을 기계적 언어로 자연스럽게 읽어주는 수준을 넘어 감정에 따라 표현을 바꿀 수 있습니다.

다만 연구진들은 음성 합성에 관한 코드는 제공하지 않았는데, 음성 합성으로 인한 잠재적인 사회적 피해를 막기 위한 것으로 보입니다.

Editor_B
글쓴이 | Editor_B
언제나 기분 좋은 소식을 전하고 싶습니다.

news@techg.kr
You may also like
계획보다 많은 접속으로 서비스 차질 빚은 플라이트 시뮬레이터 2024
윈도 화면을 퀘스트 헤드셋으로 확장하는 기능 공개 예고한 마이크로소프트
윈도 11만 실행하는 클라우드 PC ‘윈도 365 링크’ 공개한 마이크로소프트
AI로 성 베드로 대성당을 3D로 복제한 마이크로소프트와 아이코넴

Leave a Reply

error: Content is protected !!