듣고 싶은 소리, 찰나에 만든다: 초고속 오디오 생성 AI 기술 'ARC' 논문 살펴보기

AI가 글만 주면 멋진 오디오(음악, 효과음)를 만들어주는 기술(TTA, Text-to-Audio)이 발전하고 있습니다.
하지만 결과물을 얻기까지 시간이 몇 초에서 몇 분까지 오래 걸려, 실제로 음악 만들거나 게임에 쓰는 등 실시간에 가까운 창의적인 작업에 활용하기는 어려웠습니다.
이 논문은 오디오 생성 AI를 획기적으로 빠르게 만들면서도 소리의 다양성을 지킨 새로운 방법 'ARC'를 제시합니다.
덕분에 AI 오디오 생성을 PC는 물론 스마트폰에서도 빠르게 구동할 수 있게 되어, AI를 실제 창의적인 도구처럼 활용할 가능성을 열었습니다.

서론

최근 AI의 발전으로 글만 주면 오디오를 만들어주는 기술의 성능이 좋아졌지만, 여전히 소리 하나 만드는데 시간이 너무 오래 걸립니다.
특히 '확산 모델'처럼 여러 단계를 거쳐 노이즈를 제거하며 소리를 만드는 방식은 느릴 수밖에 없습니다.
기존에는 주로 '증류(Distillation)'라는 방식으로 속도를 높이려 했지만, 이는 학습 과정이 복잡하고 많은 자원이 필요했습니다.
또한 증류 방식은 결과물의 다양성을 해치거나 특정 패턴(CFG 문제)을 물려받는 단점도 있었습니다. 이 논문은 이런 문제 없이 속도를 높이는 방법을 찾았습니다.

AI 모델 속도를 높이기 위해 가장 흔하게 사용된 방법은 '증류(Distillation)'입니다.
이는 느리지만 성능 좋은 원본 모델(선생님)이 더 빠르고 작은 새 모델(학생)에게 결과물을 만드는 과정을 가르치는 방식입니다.
하지만 선생님 모델과 학생 모델 여러 개를 동시에 메모리에 올려야 하거나, 학습 데이터를 미리 대량으로 만들어둬야 하는 등 학습 비용이 많이 듭니다.
오디오 분야에서는 이런 가속 연구가 많지 않았고, 특히 '후처리 학습(Post-training)'이라는, 모델 학습이 끝난 후 성능을 개선하는 방법은 거의 시도되지 않았습니다.

이 논문은 'ARC (Adversarial Relativistic-Contrastive) 후처리 학습'이라는 새로운 방식을 제안합니다.
이는 진짜 오디오와 AI가 만든 오디오를 구분하는 '판별자(Discriminator)'를 활용하는 적대적 학습(Adversarial Learning) 기반입니다.
1. Relativistic Loss: 판별자는 AI가 만든 오디오 쌍이 진짜 오디오 쌍보다 '덜 진짜'라고 판단하도록 학습하고, AI는 판별자를 속여 '더 진짜'처럼 보이려 경쟁합니다. 이때 비교 대상은 같은 글 프롬프트로 만든 AI 오디오와 진짜 오디오 쌍입니다.
2. Contrastive Loss: 판별자는 진짜 오디오와 '옳은' 글 프롬프트 조합을 '틀린' 글 프롬프트 조합보다 더 진짜라고 판단하도록 학습합니다. 이를 통해 판별자가 오디오와 글의 연관성을 잘 이해하도록 돕습니다. (이 손실은 판별자 학습에만 사용)
이 두 가지 적대적/대조적 목표를 통해, AI 모델은 소리의 '현실성'과 '글 프롬프트 일치성'을 동시에 높이며 적은 단계만으로도 고품질 오디오를 빠르게 생성할 수 있게 됩니다. 기존 CFG 기술이 필요 없어 다양성도 개선됩니다.
생성 과정에서는 '핑퐁 샘플링'이라는, 예측하고 다시 노이즈를 섞어 결과물을 다듬는 효율적인 샘플링 방식을 사용합니다.

기존의 느린 고품질 모델(SAO), 증류 기반 모델(Presto), 그리고 ARC를 비교하는 다양한 실험을 진행했습니다.
결과적으로 ARC는 기존 SAO 모델보다 약 100배, 기본 속성 모델보다 약 10배 빠른 속도를 달성했습니다. (최신 GPU에서 12초 오디오를 75ms, 스마트폰 CPU에서 7초 안에 생성)
오디오 품질과 글 프롬프트 일치성은 다른 빠른 모델들과 비교했을 때 경쟁력 있는 수준을 보였습니다.
가장 큰 장점은 소리의 다양성이었습니다. 증류 방식은 다양성이 크게 떨어졌지만, ARC는 높은 다양성을 유지하며 주관적인 청취 평가에서도 좋은 점수를 받았습니다. 논문에서 제안한 새로운 'CCDS' 다양성 지표도 사람들의 평가와 일치했습니다.
ARC 방법론의 두 가지 손실(Relativistic, Contrastive) 모두 속도와 다양성 유지에 중요함을 확인했습니다.
스마트폰에 올리기 위한 최적화(Int8 양자화 등)를 통해 실제 모바일 기기에서도 빠른 오디오 생성이 가능함을 보여주었습니다.

이 논문은 증류나 특정 기술(CFG) 없이도 오디오 생성 AI의 속도를 획기적으로 높이는 새로운 후처리 학습 방법, ARC를 성공적으로 제시했습니다.
새로운 적대적 손실과 대조적 손실을 통해 빠른 속도는 물론, 기존 가속 방법의 단점인 낮은 다양성을 극복하고 오히려 다양성을 높였습니다.
다양성을 측정하는 새로운 지표(CCDS)를 제안하고 이것이 실제 사람의 평가와 잘 맞음을 보여주었습니다.
한계점: 모델 자체가 여전히 수 GB의 메모리와 저장 공간을 차지한다는 점은 앞으로 개선해야 할 부분입니다.
AI 오디오 생성 속도가 빨라지고 다양해지면서, 음악이나 사운드 디자인 등 창의적인 분야에서 AI가 실제 '악기'나 '도구'처럼 활용될 가능성을 높였습니다.

AI 오디오 생성, 이제 기다릴 필요 없이 찰나에 뚝딱! 빠르면서도 소리가 다채로운 새로운 길이 열렸어요.

LIST