AI논문

[논문리뷰] Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning

해애241 2025. 4. 28. 20:32
반응형
SMALL

🔗 https://arxiv.org/pdf/2504.16656.pdf

보고 생각하는 AI의 진화: Skywork R1V2

기존 AI 모델들은 복잡한 추론(수학, 과학 문제 풀이)이나 이미지 이해 둘 중 하나에 치우치는 경향이 있었고, 둘 다 잘하려 하면 잘못된 정보를 만들어내기도 했습니다. Skywork R1V2는 **새로운 학습 방법(하이브리드 강화 학습)**을 통해 이 두 가지 능력(추론 능력과 이미지 이해 능력) 사이의 균형을 맞추고 성능을 크게 끌어올렸습니다. 특히 오픈소스 모델 중에서는 최고 성능을 달성하며, GPT-4o나 Gemini 같은 상용 최고 모델들과의 격차를 줄이고 있다는 점에서 주목할 만합니다.

서론

  • 최근 AI 모델들은 사람이 '천천히 생각하듯' 단계별로 추론하는 방식으로 복잡한 문제를 잘 풀게 되었습니다.
  • 하지만 이런 '천천히 생각하는' 방식을 이미지까지 보면서 추론하는 멀티모달 AI에 적용하면 어려움이 생깁니다.
  • 이미지를 보면서 추론은 더 잘하지만, 오히려 일반적인 이미지 이해 능력은 떨어지고 이미지를 잘못 해석하는 '환각' 현상이 늘어납니다.
  • 이 논문은 Skywork R1V2라는 새로운 모델과 하이브리드 강화 학습 방식을 통해 이 문제를 해결하려 합니다.

기존 연구

  • 다양한 멀티모달 AI 모델들이 개발되었지만, 대부분은 복잡한 추론 문제와 일반적인 이미지 이해 사이에서 균형을 맞추기 어려워했습니다.
  • 특정 분야(예: 수학 문제 풀이)에 특화시키면 다른 분야(예: 일상적인 이미지 설명)에서 성능이 떨어지는 문제가 있었습니다.
  • AI에게 사람의 선호도를 학습시키는 '선호도 기반 최적화' 방법은 텍스트에서는 성공했지만, 이미지를 함께 봐야 하는 복잡한 추론 과정에는 적용하기 어려웠습니다.
  • 이는 복잡한 추론에는 다양한 풀이 과정이 있을 수 있고, 기존의 평가 방식이 이미지와 추론의 관계를 잘 파악하지 못했기 때문입니다.

방법론

  • Skywork R1V2는 기존 언어 모델에 이미지 정보를 연결하는 '어댑터'라는 부분을 추가하여 이미지 이해 능력을 더합니다. (마치 언어 모델에 이미지 번역기를 붙이는 것과 비슷합니다.)
  • 특히, 사람의 '선호도' 데이터와 '규칙'(예: 답안 형식 준수)을 함께 사용하여 학습하는 Mixed Preference Optimization (MPO) 방식을 사용합니다. (AI가 좋은 답과 나쁜 답을 보고 배우고, 왜 좋은지 규칙으로도 배우는 방식입니다.)
  • 또한, AI 스스로 여러 답을 만들어보고 그 과정과 결과를 비교하여 어떤 '사고 과정'이 더 효과적인지 배우는 Group Relative Policy Optimization (GRPO) 방식을 사용합니다. (마치 AI가 스터디 그룹을 만들어 서로의 풀이 과정을 비교하며 배우는 것과 같습니다.)
  • GRPO 학습 중 AI의 답이 너무 비슷해져 더 이상 배울 점이 없어지는 '이점 소멸' 문제를 해결하기 위해, 과거 학습에서 좋은 예시들을 따로 저장해두고 재사용하는 Selective Sample Buffer (SSB) 기법을 도입했습니다. (효과적인 학습 자료를 버리지 않고 다시 활용하여 꾸준히 배우게 합니다.)
  • 이 세 가지 핵심 기법(MPO, GRPO, SSB)을 합친 하이브리드 학습 전략으로 추론과 일반화 능력의 균형을 맞춥니다.

실험 및 결과

  • AIME, MMMU, OlympiadBench 등 다양한 수학, 과학, 이미지 추론 벤치마크에서 성능을 측정했습니다.
  • 평가 방식은 단순히 텍스트가 일치하는지 보는 대신, AI 판사(GPT-4o)가 답의 논리적 정확성을 판단하는 방식을 사용했습니다.
  • 결과는 Skywork R1V2가 이전 버전인 R1V1보다 모든 벤치마크에서 크게 향상된 성능을 보였습니다.
  • 특히, 오픈소스 모델 중에서는 가장 좋은 성적을 기록하며, 파라미터(모델 크기)가 더 큰 모델들보다도 뛰어난 결과를 보였습니다.
  • GPT-4o나 Gemini 같은 상용 모델과의 격차도 크게 줄였으며, 일부 어려운 문제(예: OlympiadBench)에서는 더 좋은 결과를 내기도 했습니다.
  • 새로 도입한 SSB 기법이 학습 효율을 높이고 성능 향상에 기여했음이 확인되었습니다.

결론 및 한계

  • Skywork R1V2는 하이브리드 강화 학습 (GRPO, SSB, MPO)을 통해 복잡한 멀티모달 추론 능력과 일반적인 이미지 이해 능력 사이의 균형을 성공적으로 맞췄습니다.
  • 이 모델은 오픈소스 멀티모달 AI 모델의 새로운 기준을 세웠으며, 상용 최고 모델들과 경쟁할 만한 성능을 보여주었습니다.
  • 학습 과정에서 추론 능력을 너무 강조하면 이미지를 잘못 보는 환각 현상이 늘어날 수 있음을 발견했으며, 이는 학습 시 보상 설정을 신중하게 해야 함을 시사합니다.
  • 모델은 우수하지만, 여전히 일반적인 이미지 이해 능력에서는 개선의 여지가 있으며, 환각 현상을 완전히 없애는 것도 과제로 남아 있습니다.

한 줄 요약

Skywork R1V2는 스마트한 학습 기법들로 이미지를 보고 복잡하게 '생각'하는 오픈소스 AI의 성능을 최고 수준으로 끌어올렸습니다.

반응형
LIST