반응형
SMALL

rl 5

[논문리뷰] TTRL: Test-Time Reinforcement Learning

🔗 https://arxiv.org/pdf/2504.16084.pdfAI, 스스로 성장하다: 라벨 없는 테스트 데이터로 학습하는 혁신적인 RL 방법, TTRL거대 언어 모델(LLM)은 점점 강력해지고 있지만, 새롭고 복잡한 문제에 부딪혔을 때 기존 학습 데이터만으로는 한계가 있습니다.특히, 실시간으로 쏟아지는 라벨(정답)이 없는 새로운 데이터에 대해 모델 성능을 지속적으로 개선하는 것은 큰 도전 과제입니다.기존의 강화 학습(RL)은 모델 성능 향상에 효과적이지만, 정확한 라벨이나 잘 만들어진 보상 모델이 필수적이라 새로운 데이터에 적용하기 어렵습니다.이 논문은 라벨이 없는 테스트 데이터만으로도 LLM이 스스로 학습하여 성능을 높이는 TTRL이라는 방법을 제안하며, 이는 AI의 지속적인 발전 가능성을 보..

AI논문 2025.04.24

[논문리뷰] ToolRL: Reward is All Tool Learning Needs

🔗 https://arxiv.org/pdf/2504.13958.pdfToolRL: LLM에게 도구 사용을 가르치는 새로운 방법 - 보상이 전부다!대규모 언어 모델(LLM)이 외부 도구(계산기, 검색 엔진 등)를 사용하는 능력은 매우 중요합니다.이는 LLM의 한계(최신 정보 부족, 부정확한 계산)를 극복하고 더 유능한 AI 에이전트를 만드는 핵심 기술입니다.기존 학습 방식(SFT)은 한계가 있어, 처음 보는 도구나 복잡한 사용법에 약했습니다.이 논문은 강화 학습(RL)을 통해 도구 사용 능력을 높이고, 특히 '어떤 행동에 보상(점수)을 줄 것인가'라는 보상 설계의 중요성을 보여주었습니다.서론최근 LLM은 추론 능력이 뛰어나지만, 강화 학습(RL)을 통해 자기 성찰, 계획 등 더 발전된 능력을 얻고 있습니..

AI논문 2025.04.23

[논문리뷰] Learning to Reason under Off-Policy Guidance

🔗 https://arxiv.org/pdf/2504.14945.pdfLUFFY: 똑똑한 AI 친구 레시피 보면서 나만의 요리 실력 키우기기존 AI 모델 학습법(Zero-RL)은 자기 경험만으로 배워서 한계가 있어요. 마치 자기 레시피만 계속 수정해서 요리 실력을 늘리려는 것과 비슷하죠.이 논문은 'LUFFY'라는 새로운 방법을 제안하며, 더 똑똑한 모델의 '외부 지식(off-policy)'을 활용해서 학습 효율과 능력을 확 끌어올립니다.마치 뛰어난 요리사의 레시피를 보면서 배우는 것처럼요. 이로 인해 모델이 기존에 못 하던 추론 능력까지 갖게 됩니다.서론최근 대형 언어 모델(LLM)들이 강화 학습(RL)을 통해 복잡한 추론 능력을 보여주고 있어요.특히 간단한 규칙 기반 보상만으로도 놀라운 성능을 내는 ..

AI논문 2025.04.23

[논문리뷰] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

🔗 https://arxiv.org/pdf/2504.13837.pdfRL, 너 LLM 추론 능력 향상시킨다더니, 정말이야? 🤨 (feat. pass@k 실험)"RL로 LLM 똑똑하게 만들 수 있다"는 흔한 믿음에 정면으로 "NO!"를 외친 논문입니다.RL (강화 학습)이 LLM의 추론 능력을 겉으로만 좋게 보이게 할 뿐, 실질적인 능력 향상은 없을 수 있다는 충격적인 주장을 펼칩니다.마치 "단거리 달리기"만 잘하게 훈련시킨 것과 같다는 비유를 통해, RL의 효과에 대한 새로운 시각을 제시합니다.AI 연구 방향에 중요한 질문을 던지는 논문이라고 할 수 있습니다.📝 서론LLM(Large Language Model, 거대 언어 모델)은 다양한 분야에서 놀라운 성과를 보여주고 있지만, 여전히 "추론 능력"..

AI논문 2025.04.22

[논문리뷰] SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

SFT는 RL의 적인가? LVLM 추론 능력 향상의 새로운 방향 제시🔗 https://arxiv.org/pdf/2504.11468.pdfLarge Vision-Language Models (LVLM)는 텍스트와 이미지를 모두 이해하고 추론하는 AI 모델로, 최근 OpenAI의 o1/o3, Deepseek-R1과 같은 모델이 등장하면서 많은 주목을 받고 있습니다.일반적으로 LVLM의 추론 능력을 향상시키기 위해 Supervised Fine-tuning (SFT) 후 Reinforcement Learning (RL)을 적용하는 방식이 많이 사용됩니다.하지만 이 논문에서는 SFT가 오히려 RL을 저해할 수 있다는 새로운 시각을 제시하고, VLAA-Thinking이라는 새로운 데이터셋과 GRPO with Mi..

AI논문 2025.04.18
반응형
LIST