반응형
SMALL

2025/05/15 3

[논문리뷰] AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

🔗 https://arxiv.org/pdf/2505.08311.pdf작지만 강한 AI의 등장: 320억개 매개변수 AI의 놀라운 추론 능력 최근 인공지능 모델들은 엄청난 성능을 보여주지만, 수천억 개 이상의 매개변수를 가진 '초거대' 모델이 많아요.이런 모델들은 똑똑하지만, 컴퓨터 자원이 엄청나게 필요해서 사용하거나 개선하기가 매우 어렵죠.이 논문은 "모델 크기가 작더라도 (320억개 정도) 똑똑하게 잘 생각하게 만들 수 없을까?"라는 중요한 질문에 답합니다.공개된 데이터와 영리한 훈련 방법만으로도 가능하다는 것을 증명하며, 실용적인 AI 개발에 새로운 방향을 제시했어요.서론최근 AI(LLM)는 수학 문제 풀이, 코딩 같은 복잡한 '추론' 분야에서 눈부시게 발전했어요.특히 Qwen3처럼 아주 큰 MoE..

AI논문 2025.05.15

[논문리뷰] Fast Text-to-Audio Generation with Adversarial Post-Training

🔗 https://arxiv.org/pdf/2505.08175.pdf듣고 싶은 소리, 찰나에 만든다: 초고속 오디오 생성 AI 기술 'ARC' 논문 살펴보기AI가 글만 주면 멋진 오디오(음악, 효과음)를 만들어주는 기술(TTA, Text-to-Audio)이 발전하고 있습니다.하지만 결과물을 얻기까지 시간이 몇 초에서 몇 분까지 오래 걸려, 실제로 음악 만들거나 게임에 쓰는 등 실시간에 가까운 창의적인 작업에 활용하기는 어려웠습니다.이 논문은 오디오 생성 AI를 획기적으로 빠르게 만들면서도 소리의 다양성을 지킨 새로운 방법 'ARC'를 제시합니다.덕분에 AI 오디오 생성을 PC는 물론 스마트폰에서도 빠르게 구동할 수 있게 되어, AI를 실제 창의적인 도구처럼 활용할 가능성을 열었습니다.서론최근 AI의 발..

AI논문 2025.05.15

[논문리뷰] MiniMax-Speech

🔗 https://arxiv.org/pdf/2505.07916.pdfMiniMax-Speech 논문 요약: 단 한 번의 목소리 샘플로 고품질 복제 음성을 만드는 최신 기술MiniMax-Speech라는 새로운 음성 합성(TTS) 모델을 소개합니다.기존의 많은 음성 복제 기술은 특정 목소리를 만들려면 그 목소리로 특정 문장을 말한 샘플(텍스트와 음성 쌍)이 필요했습니다.하지만 MiniMax-Speech는 텍스트 없이 오직 짧은 음성 샘플만으로도 해당 목소리의 특징을 잡아내어 어떤 문장이든 그 목소리로 자연스럽게 말하게 하는 **'무설정(Zero-shot) 음성 복제'**를 아주 잘 해냅니다.또한, 합성된 음성의 품질과 목소리 유사성을 높이는 새로운 기술(Flow-VAE)을 도입하고, 32개 언어를 지원하며..

AI논문 2025.05.15
반응형
LIST