🔗 https://arxiv.org/pdf/2505.07916.pdfMiniMax-Speech 논문 요약: 단 한 번의 목소리 샘플로 고품질 복제 음성을 만드는 최신 기술MiniMax-Speech라는 새로운 음성 합성(TTS) 모델을 소개합니다.기존의 많은 음성 복제 기술은 특정 목소리를 만들려면 그 목소리로 특정 문장을 말한 샘플(텍스트와 음성 쌍)이 필요했습니다.하지만 MiniMax-Speech는 텍스트 없이 오직 짧은 음성 샘플만으로도 해당 목소리의 특징을 잡아내어 어떤 문장이든 그 목소리로 자연스럽게 말하게 하는 **'무설정(Zero-shot) 음성 복제'**를 아주 잘 해냅니다.또한, 합성된 음성의 품질과 목소리 유사성을 높이는 새로운 기술(Flow-VAE)을 도입하고, 32개 언어를 지원하며..