반응형
SMALL
SFT는 RL의 적인가? LVLM 추론 능력 향상의 새로운 방향 제시
🔗 https://arxiv.org/pdf/2504.11468.pdf
- Large Vision-Language Models (LVLM)는 텍스트와 이미지를 모두 이해하고 추론하는 AI 모델로, 최근 OpenAI의 o1/o3, Deepseek-R1과 같은 모델이 등장하면서 많은 주목을 받고 있습니다.
- 일반적으로 LVLM의 추론 능력을 향상시키기 위해 Supervised Fine-tuning (SFT) 후 Reinforcement Learning (RL)을 적용하는 방식이 많이 사용됩니다.
- 하지만 이 논문에서는 SFT가 오히려 RL을 저해할 수 있다는 새로운 시각을 제시하고, VLAA-Thinking이라는 새로운 데이터셋과 GRPO with Mixed Reward라는 새로운 RL 학습 방법을 통해 SFT 없이 RL만으로도 LVLM의 추론 능력을 효과적으로 향상시킬 수 있음을 보여줍니다.
- 이는 기존의 SFT-후-RL 패러다임에 대한 근본적인 질문을 던지고, 향후 LVLM 연구 방향에 새로운 가능성을 제시한다는 점에서 매우 중요합니다.
서론
- Large Language Models (LLM)의 추론 능력이 발전하면서, 이를 Vision-Language Models (LVLM)으로 확장하려는 연구가 활발히 진행 중입니다.
- LVLM의 추론 능력 향상을 위해 일반적으로 Supervised Fine-tuning (SFT) 후 Reinforcement Learning (RL)을 적용하는 2단계 학습 방식이 널리 사용되고 있습니다.
- 하지만 이 연구에서는 SFT가 오히려 후속 RL 학습을 방해하고, "가짜 추론 경로"를 모방하도록 유도하여 모델의 실제 추론 능력을 저하시킬 수 있다는 문제점을 제기합니다.
- 이러한 문제점을 분석하기 위해 새로운 멀티모달 데이터셋 VLAA-Thinking을 구축하고, SFT와 RL의 효과를 비교 분석하는 실험을 진행했습니다.
기존 연구
- 기존 연구들은 주로 SFT를 통해 LVLM에게 추론 형식을 학습시키고, RL을 통해 성능을 향상시키는 방향으로 진행되었습니다.
- Supervised Fine-tuning (SFT)은 모델이 expert model의 추론 과정을 모방하도록 학습시키는 방법으로, 초기 LVLM의 성능을 빠르게 향상시키는 데 효과적입니다.
- Reinforcement Learning (RL)은 모델이 스스로 시행착오를 겪으며 최적의 행동을 학습하도록 하는 방법으로, SFT 이후 모델의 성능을 더욱 끌어올리는 데 사용됩니다.
- 하지만 기존 연구들은 SFT가 RL에 미치는 부정적인 영향에 대해서는 충분히 탐구하지 않았습니다.
방법론
- 이 논문에서는 SFT의 문제점을 분석하고, RL만으로도 LVLM의 추론 능력을 효과적으로 학습시킬 수 있는 새로운 방법을 제시합니다.
- VLAA-Thinking 데이터셋은 캡셔닝, 추론 증류, 답변 재작성, 검증의 6단계 파이프라인을 통해 구축되었으며, SFT와 RL 학습에 적합하도록 구성되었습니다.
- SFT 데이터셋은 모델이 모방 학습하기에 용이하도록 step-by-step 추론 과정과 답변으로 구성되어 있습니다.
- RL 데이터셋은 모델이 스스로 탐색하고 학습하도록 더 어렵고 다양한 추론 문제로 구성되어 있습니다.
- GRPO (Group Relative Policy Optimization) with Mixed Reward는 새로운 RL 학습 방법으로, perception과 cognition 신호를 통합한 reward module을 사용하여 모델이 더 효과적으로 추론 능력을 학습하도록 합니다.
- Rule-based reward와 open-ended reward를 혼합하여 다양한 유형의 추론 능력을 학습하도록 설계되었습니다.
- Implicit format reward를 통해 모델이 스스로 올바른 답변 형식을 학습하도록 유도합니다.
실험 및 결과
- VLAA-Thinking 데이터셋을 사용하여 SFT, RL, 그리고 SFT와 RL 조합의 효과를 비교하는 다양한 실험을 진행했습니다.
- 실험 결과, SFT는 초기 성능 향상에는 도움이 되지만, 복잡한 추론 능력을 향상시키는 데는 한계가 있으며, 오히려 RL 학습을 저해하는 "가짜 추론 경로"를 학습시키는 경향이 있습니다.
- SFT 데이터셋 규모를 늘리거나, 모델 크기를 키워도 SFT의 부정적인 영향은 줄어들지 않았습니다.
- Aha moment (스스로 깨닫는 순간)가 포함된 SFT 데이터는 오히려 성능을 더 떨어뜨리는 것으로 나타났습니다.
- 반면, GRPO with Mixed Reward를 사용한 RL 학습은 SFT 없이도 LVLM의 추론 능력을 효과적으로 향상시키는 것으로 나타났습니다.
- 특히, VLAA-Thinker-Qwen2.5VL-3B 모델은 Open LMM Reasoning Leaderboard에서 4B 규모 LVLM 중 1위를 차지하며, RL의 우수성을 입증했습니다.
- 흥미로운 점은 SFT를 적용한 모델이 초기 reward는 높지만, 학습이 진행될수록 reward 증가폭이 둔화되고, 최종 성능은 RL 단독 학습 모델보다 낮다는 것입니다.
- 이는 SFT가 RL 학습의 "lower bound"는 높여주지만, "upper bound"를 제한하여 모델의 잠재력을 충분히 발휘하지 못하게 할 수 있음을 시사합니다.
결론 및 한계
- 이 연구는 LVLM의 추론 능력 학습에 있어 SFT보다 RL이 더 효과적인 방법임을 실증적으로 밝혔습니다.
- SFT는 모델에게 추론 형식을 모방하도록 가르치지만, 실제 추론 능력 향상에는 도움이 되지 않으며, 오히려 RL 학습을 방해할 수 있습니다.
- 반면, RL은 모델이 스스로 탐색하고 학습하도록 유도하여, "진짜 추론 능력"을 키울 수 있습니다.
- 이 연구는 기존의 SFT-후-RL 패러다임에서 벗어나, RL 중심의 LVLM 학습 방향을 제시하고, 향후 LVLM 연구에 중요한 시사점을 제공합니다.
- 하지만, 제안하는 RL 방법이 모든 유형의 추론 문제에 효과적인지, 더 다양한 모델과 데이터셋에 대한 추가적인 검증이 필요합니다.
한 줄 요약
SFT는 겉모습만 흉내내는 가짜 추론 학습법일 뿐, LVLM의 진짜 추론 능력은 RL을 통해 스스로 깨우쳐야 한다!
반응형
LIST