AI논문

[논문리뷰] Qwen2.5-Omni Technical Report

해애241 2025. 4. 13. 17:36
반응형
SMALL

Qwen2.5-Omni: AI, 이제 보고 듣고 말한다! (AI, Now Sees, Hears, and Speaks!) 🔗 https://arxiv.org/pdf/2503.20215.pdf

🚀 서론: 인간처럼 보고 듣고 말하는 AI, Qwen2.5-Omni의 등장

  • 인간은 시각, 청각 등 다양한 정보를 동시에 받아들이고, 말이나 글로 피드백하며 소통합니다. 
  • 최근 LLM(Large Language Model, 거대 언어 모델)의 발전으로 AI가 텍스트 기반으로 복잡한 문제 해결 능력을 보여주기 시작했습니다.
  • LALM(Language-Audio-Language Model), LVLM(Language-Visual-Language Model)과 같은 모델들은 LLM의 능력을 오디오, 이미지 분야로 확장하고 있습니다.
  • 하지만 아직까지 다양한 정보를 통합하여 실시간으로 이해하고,텍스트와 음성으로 동시에 반응하는 AI는 미흡합니다.

📌 핵심 포인트

  • 인간처럼 다양한 정보를 동시에 이해하고 소통하는 AI의 필요성
  • 기존 AI 모델의 한계: 텍스트, 오디오, 이미지 등 개별 modality에 집중
  • Qwen2.5-Omni의 등장: 통합적인 multimodal 이해실시간 텍스트-음성 동시 생성 목표

📚 기존 연구: 텍스트 넘어 오디오와 이미지로, 그러나 아직은...

  • LLM: 텍스트 데이터 학습, 텍스트 기반 능력은 훌륭하지만 multimodal 이해 부족
  • LALM/LVLM: 오디오 또는 이미지 개별 modality에 대한 이해는 향상되었지만,

multimodal 정보를 융합하고 실시간으로 처리하는 데는 한계 존재

  • 기존 연구의 한계:
  1. 다양한 modality효율적으로 통합하는 방법 부족
  2. 비디오오디오시간축 동기화 문제
  3. 텍스트와 음성 출력 간의 간섭 문제
  4. 실시간 multimodal 정보 이해 및 streaming 음성 출력 기술 부족

📌 핵심 포인트

  • LLM: 텍스트 중심, multimodal 이해 부족
  • LALM/LVLM: 개별 modality 이해는 향상, 통합 및 실시간 처리는 미흡
  • Qwen2.5-Omni는 기존 연구의 한계를 극복하고자 함

💡 방법론: Qwen2.5-Omni, multimodal 통합과 실시간 소통을 위한 핵심 기술

Qwen2.5-Omni는

multimodal 정보 처리실시간 텍스트-음성 동시 생성을 위해 다음과 같은 핵심 기술들을 제안합니다.

 

TMRoPE (Time-aligned Multimodal RoPE): 시간축 정렬 multimodal 위치 임베딩

  • 아이디어: 비디오와 오디오 정보를 시간 순서에 맞춰 효과적으로 처리
  • 방식:
  • 오디오: 40ms segment마다 동일한 시간 ID 부여
  • 이미지: 시간 ID는 고정, 높이/너비 ID는 위치에 따라 다르게 부여
  • 비디오: 프레임마다 시간 ID 증가, 높이/너비 ID는 이미지와 동일
  • multimodal 입력: modality별 위치 ID 초기화 및 순차적 부여
  • 효과: multimodal 입력의 시간 정보를 명시적으로 모델링,

비디오오디오temporal alignment 향상

  1. Thinker-Talker Architecture: 텍스트-음성 동시 생성을 위한 분리-융합 구조
  • 아이디어:
  • Thinker: 텍스트 생성 담당, multimodal 정보 이해고차원 representation 생성
  • Talker: 음성 생성 담당, Thinker의 representation을 받아 streaming 음성 token 생성
  • 장점:
  • 텍스트와 음성 생성 과정 분리: modality 간 간섭 최소화
  • Thinker의 representation 공유: 의미론적 일관성 유지, 자연스러운 음성 생성 가능
  • End-to-end 학습: 전체 구조를 통합적으로 학습, 성능 향상

Streaming Multimodal Encoder: 실시간 multimodal 정보 이해를 위한 block-wise 처리

  • 아이디어: 긴 multimodal sequence를 block 단위로 처리하여 initial latency 감소
  • 방식:
  • 오디오 encoder: 전체 오디오 대신 2초 block 단위로 attention 연산
  • Vision encoder: Flash attentionMLP layer를 사용하여 효율적인 block-wise 처리
  • 효과: 실시간 multimodal 입력 처리 가능, 빠른 초기 응답 가능

Streaming Codec Generation: streaming 음성 생성을 위한 sliding window DiT

  • 아이디어: 음성 codec token으로부터 waveform을 streaming 방식으로 생성, latency 최소화
  • 방식:
  • Sliding window block attention: DiT의 receptive field를 4개 block으로 제한 (lookback 2, lookahead 1)
  • Chunk-by-chunk mel-spectrogram 생성: Flow Matching DiT를 사용하여 block 단위로 mel-spectrogram 생성
  • BigVGAN: mel-spectrogram을 waveform으로 변환
  • 효과: streaming 음성 생성 가능, initial latency 감소, context 정보 유지

📌 핵심 포인트

  • TMRoPE: multimodal 입력의 시간 정보 모델링, 비디오-오디오 동기화
  • Thinker-Talker: 텍스트-음성 분리-융합 구조, 동시 생성 및 간섭 최소화
  • Streaming Encoder: block-wise 처리, 실시간 multimodal 이해 및 빠른 응답
  • Streaming Codec Generation: sliding window DiT, streaming 음성 생성 및 latency 감소

🧪 실험 및 결과: Qwen2.5-Omni, multimodal benchmark SOTA 달성!

Qwen2.5-Omni는 다양한 benchmark에서 최고 수준의 성능을 보여줍니다.

 

Text → Text:

  • Qwen2-7BQwen2.5-7B 사이의 성능
  • MMLU-Pro, MMLU-redux, MATH, GSM8K 등에서 Qwen2-7B 능가
  • Text → Text 능력도 매우 우수

Audio → Text:

  • ASR, S2TT benchmark에서 SOTA 모델들과 comparable하거나 능가
  • Fleurs_zh, CommonVoice_en, CommonVoice_zh 등에서 Whisper-large-v3, Qwen2Audio 능가
  • MMAU benchmark (audio reasoning)에서 SOTA 달성
  • VoiceBench (voice chatting)에서 최고 점수 기록
  • 음성 instruction following 능력:
  • 텍스트 instructioncomparable한 수준으로 향상 (MMLU, GSM8K benchmark)
  • Qwen2-Audio 대비 text-based LLM과의 격차 현저히 감소

Image → Text:

  • Qwen2.5-VL-7Bcomparable한 성능
  • MMMU, MathVision, MMBench-V1.1-EN, TextVQA, DocVQA, ChartQA 등에서 open-sourced omni model최고 성능
  • GPT-4o-mini대부분 benchmark에서 comparable하거나 능가
  • Image understanding 능력 매우 우수

Video → Text:

  • Video-MME, MVBench, EgoSchema 등에서 open-sourced omni modelGPT-4o-mini 능가
  • Qwen2.5-VL-7Bcomparable하거나 능가
  • Video understanding 능력 SOTA

Multimodality → Text:

  • OmniBench benchmark에서 SOTA 달성
  • 타 Omni model 대비 압도적인 성능 향상
  • Multimodal understanding 능력 최고 수준

Text → Speech:

  • Zero-shot speech generation (SEED benchmark):
  • Content consistency (WER): SOTA TTS systemcomparable
  • Speaker similarity (SIM): SOTA TTS systemcomparable
  • RL fine-tuninggeneration stability 크게 향상
  • Single-speaker speech generation:
  • Naturalness (NMOS): Human level근접

📌 핵심 포인트

  • Text, Audio, Image, Video, Multimodal understanding 능력 SOTA 달성
  • 특히 Multimodal understanding음성 instruction following 능력 강점
  • Text → Speech 생성 능력도 최고 수준

🏁 결론 및 한계: Qwen2.5-Omni, AGI를 향한 중요한 진전, 그리고 앞으로 나아갈 길

  • Qwen2.5-Omnimultimodal 이해실시간 텍스트-음성 동시 생성이 가능한 unified model
  • TMRoPE, Thinker-Talker, Streaming Encoder/Decodernovel 기술들을 통해

multimodal 정보 통합실시간 소통 가능성 제시

  • multimodal benchmark에서 SOTA 달성, 성능 입증
  • 음성 instruction following 능력 향상을 통해 human-like interaction한 걸음 더 다가감
  • 향후 연구 방향:
  • 더욱 robust하고 빠른 모델 개발
  • image, video, music다양한 output modality 확장
  • video OCR, audio-video collaborative understandingchallenge 해결 필요

🤔 한 줄 요약 또는 개인적인 코멘트

Qwen2.5-Omni: 보고 듣고 말하는 AI, 꿈이 현실로! (Qwen2.5-Omni: AI that sees, hears, and speaks, dream becomes reality!)

Multimodal AI의 새로운 가능성을 제시한 논문입니다. 특히 Thinker-Talker 구조는 텍스트와 음성 생성을 분리하면서도 자연스럽게 융합하는 혁신적인 접근 방식이라고 생각합니다. 앞으로 Qwen2.5-Omni가 더욱 발전하여 AGI에 가까워지는 모습을 기대해봅니다.

반응형
LIST