Qwen2.5-Omni: AI, 이제 보고 듣고 말한다! (AI, Now Sees, Hears, and Speaks!) 🔗 https://arxiv.org/pdf/2503.20215.pdf
🚀 서론: 인간처럼 보고 듣고 말하는 AI, Qwen2.5-Omni의 등장
- 인간은 시각, 청각 등 다양한 정보를 동시에 받아들이고, 말이나 글로 피드백하며 소통합니다.
- 최근 LLM(Large Language Model, 거대 언어 모델)의 발전으로 AI가 텍스트 기반으로 복잡한 문제 해결 능력을 보여주기 시작했습니다.
- LALM(Language-Audio-Language Model), LVLM(Language-Visual-Language Model)과 같은 모델들은 LLM의 능력을 오디오, 이미지 분야로 확장하고 있습니다.
- 하지만 아직까지 다양한 정보를 통합하여 실시간으로 이해하고,텍스트와 음성으로 동시에 반응하는 AI는 미흡합니다.
📌 핵심 포인트
- 인간처럼 다양한 정보를 동시에 이해하고 소통하는 AI의 필요성
- 기존 AI 모델의 한계: 텍스트, 오디오, 이미지 등 개별 modality에 집중
- Qwen2.5-Omni의 등장: 통합적인 multimodal 이해 및 실시간 텍스트-음성 동시 생성 목표
📚 기존 연구: 텍스트 넘어 오디오와 이미지로, 그러나 아직은...
- LLM: 텍스트 데이터 학습, 텍스트 기반 능력은 훌륭하지만 multimodal 이해 부족
- LALM/LVLM: 오디오 또는 이미지 개별 modality에 대한 이해는 향상되었지만,
multimodal 정보를 융합하고 실시간으로 처리하는 데는 한계 존재
- 기존 연구의 한계:
- 다양한 modality를 효율적으로 통합하는 방법 부족
- 비디오와 오디오의 시간축 동기화 문제
- 텍스트와 음성 출력 간의 간섭 문제
- 실시간 multimodal 정보 이해 및 streaming 음성 출력 기술 부족
📌 핵심 포인트
- LLM: 텍스트 중심, multimodal 이해 부족
- LALM/LVLM: 개별 modality 이해는 향상, 통합 및 실시간 처리는 미흡
- Qwen2.5-Omni는 기존 연구의 한계를 극복하고자 함
💡 방법론: Qwen2.5-Omni, multimodal 통합과 실시간 소통을 위한 핵심 기술
Qwen2.5-Omni는
multimodal 정보 처리와 실시간 텍스트-음성 동시 생성을 위해 다음과 같은 핵심 기술들을 제안합니다.
TMRoPE (Time-aligned Multimodal RoPE): 시간축 정렬 multimodal 위치 임베딩
- 아이디어: 비디오와 오디오 정보를 시간 순서에 맞춰 효과적으로 처리
- 방식:
- 오디오: 40ms segment마다 동일한 시간 ID 부여
- 이미지: 시간 ID는 고정, 높이/너비 ID는 위치에 따라 다르게 부여
- 비디오: 프레임마다 시간 ID 증가, 높이/너비 ID는 이미지와 동일
- multimodal 입력: modality별 위치 ID 초기화 및 순차적 부여
- 효과: multimodal 입력의 시간 정보를 명시적으로 모델링,
비디오와 오디오의 temporal alignment 향상
- Thinker-Talker Architecture: 텍스트-음성 동시 생성을 위한 분리-융합 구조
- 아이디어:
- Thinker: 텍스트 생성 담당, multimodal 정보 이해 및 고차원 representation 생성
- Talker: 음성 생성 담당, Thinker의 representation을 받아 streaming 음성 token 생성
- 장점:
- 텍스트와 음성 생성 과정 분리: modality 간 간섭 최소화
- Thinker의 representation 공유: 의미론적 일관성 유지, 자연스러운 음성 생성 가능
- End-to-end 학습: 전체 구조를 통합적으로 학습, 성능 향상
Streaming Multimodal Encoder: 실시간 multimodal 정보 이해를 위한 block-wise 처리
- 아이디어: 긴 multimodal sequence를 block 단위로 처리하여 initial latency 감소
- 방식:
- 오디오 encoder: 전체 오디오 대신 2초 block 단위로 attention 연산
- Vision encoder: Flash attention 및 MLP layer를 사용하여 효율적인 block-wise 처리
- 효과: 실시간 multimodal 입력 처리 가능, 빠른 초기 응답 가능
Streaming Codec Generation: streaming 음성 생성을 위한 sliding window DiT
- 아이디어: 음성 codec token으로부터 waveform을 streaming 방식으로 생성, latency 최소화
- 방식:
- Sliding window block attention: DiT의 receptive field를 4개 block으로 제한 (lookback 2, lookahead 1)
- Chunk-by-chunk mel-spectrogram 생성: Flow Matching DiT를 사용하여 block 단위로 mel-spectrogram 생성
- BigVGAN: mel-spectrogram을 waveform으로 변환
- 효과: streaming 음성 생성 가능, initial latency 감소, context 정보 유지
📌 핵심 포인트
- TMRoPE: multimodal 입력의 시간 정보 모델링, 비디오-오디오 동기화
- Thinker-Talker: 텍스트-음성 분리-융합 구조, 동시 생성 및 간섭 최소화
- Streaming Encoder: block-wise 처리, 실시간 multimodal 이해 및 빠른 응답
- Streaming Codec Generation: sliding window DiT, streaming 음성 생성 및 latency 감소
🧪 실험 및 결과: Qwen2.5-Omni, multimodal benchmark SOTA 달성!
Qwen2.5-Omni는 다양한 benchmark에서 최고 수준의 성능을 보여줍니다.
Text → Text:
- Qwen2-7B와 Qwen2.5-7B 사이의 성능
- MMLU-Pro, MMLU-redux, MATH, GSM8K 등에서 Qwen2-7B 능가
- Text → Text 능력도 매우 우수
Audio → Text:
- ASR, S2TT benchmark에서 SOTA 모델들과 comparable하거나 능가
- Fleurs_zh, CommonVoice_en, CommonVoice_zh 등에서 Whisper-large-v3, Qwen2Audio 능가
- MMAU benchmark (audio reasoning)에서 SOTA 달성
- VoiceBench (voice chatting)에서 최고 점수 기록
- 음성 instruction following 능력:
- 텍스트 instruction과 comparable한 수준으로 향상 (MMLU, GSM8K benchmark)
- Qwen2-Audio 대비 text-based LLM과의 격차 현저히 감소
Image → Text:
- Qwen2.5-VL-7B와 comparable한 성능
- MMMU, MathVision, MMBench-V1.1-EN, TextVQA, DocVQA, ChartQA 등에서 open-sourced omni model 중 최고 성능
- GPT-4o-mini와 대부분 benchmark에서 comparable하거나 능가
- Image understanding 능력 매우 우수
Video → Text:
- Video-MME, MVBench, EgoSchema 등에서 open-sourced omni model 및 GPT-4o-mini 능가
- Qwen2.5-VL-7B와 comparable하거나 능가
- Video understanding 능력 SOTA
Multimodality → Text:
- OmniBench benchmark에서 SOTA 달성
- 타 Omni model 대비 압도적인 성능 향상
- Multimodal understanding 능력 최고 수준
Text → Speech:
- Zero-shot speech generation (SEED benchmark):
- Content consistency (WER): SOTA TTS system과 comparable
- Speaker similarity (SIM): SOTA TTS system과 comparable
- RL fine-tuning 후 generation stability 크게 향상
- Single-speaker speech generation:
- Naturalness (NMOS): Human level에 근접
📌 핵심 포인트
- Text, Audio, Image, Video, Multimodal understanding 능력 SOTA 달성
- 특히 Multimodal understanding 및 음성 instruction following 능력 강점
- Text → Speech 생성 능력도 최고 수준
🏁 결론 및 한계: Qwen2.5-Omni, AGI를 향한 중요한 진전, 그리고 앞으로 나아갈 길
- Qwen2.5-Omni는 multimodal 이해와 실시간 텍스트-음성 동시 생성이 가능한 unified model
- TMRoPE, Thinker-Talker, Streaming Encoder/Decoder 등 novel 기술들을 통해
multimodal 정보 통합 및 실시간 소통 가능성 제시
- multimodal benchmark에서 SOTA 달성, 성능 입증
- 음성 instruction following 능력 향상을 통해 human-like interaction에 한 걸음 더 다가감
- 향후 연구 방향:
- 더욱 robust하고 빠른 모델 개발
- image, video, music 등 다양한 output modality 확장
- video OCR, audio-video collaborative understanding 등 challenge 해결 필요
🤔 한 줄 요약 또는 개인적인 코멘트
Qwen2.5-Omni: 보고 듣고 말하는 AI, 꿈이 현실로! (Qwen2.5-Omni: AI that sees, hears, and speaks, dream becomes reality!)
Multimodal AI의 새로운 가능성을 제시한 논문입니다. 특히 Thinker-Talker 구조는 텍스트와 음성 생성을 분리하면서도 자연스럽게 융합하는 혁신적인 접근 방식이라고 생각합니다. 앞으로 Qwen2.5-Omni가 더욱 발전하여 AGI에 가까워지는 모습을 기대해봅니다.