🤔 VL-Rethinker: 비전-랭귀지 모델의 느린 사고 능력을 강화하는 강화 학습최근 GPT-o1, DeepSeek-R1 같은 느린 사고 방식 모델들이 수학, 과학 문제에서 뛰어난 성능을 보여주고 있어요.하지만, 이런 모델들의 멀티모달(이미지-텍스트) 추론 능력은 아직 빠른 사고 모델들과 비슷해요.이 논문은 **비전-랭귀지 모델(VLM)**이 사람처럼 깊이 생각하고 추론하는 능력을 키우는 새로운 방법을 제시합니다.특히, 강화 학습을 사용해서 VLM의 "느린 사고" 능력을 직접 훈련시키는 방법을 제안했다는 점에서 의미가 큽니다. 마치 학생에게 스스로 답을 검토하고 다시 생각해보도록 가르치는 것과 같아요.📜 서론GPT-o1, DeepSeek-R1 같은 느린 사고 모델은 복잡한 문제 해결에 강하지만, ..