AI논문

[논문리뷰] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

해애241 2025. 4. 22. 20:31

SMALL

🔗 https://arxiv.org/pdf/2504.13837.pdf

RL, 너 LLM 추론 능력 향상시킨다더니, 정말이야? 🤨 (feat. pass@k 실험)

"RL로 LLM 똑똑하게 만들 수 있다"는 흔한 믿음에 정면으로 "NO!"를 외친 논문입니다.

RL (강화 학습)이 LLM의 추론 능력을 겉으로만 좋게 보이게 할 뿐, 실질적인 능력 향상은 없을 수 있다는 충격적인 주장을 펼칩니다.
마치 "단거리 달리기"만 잘하게 훈련시킨 것과 같다는 비유를 통해, RL의 효과에 대한 새로운 시각을 제시합니다.
AI 연구 방향에 중요한 질문을 던지는 논문이라고 할 수 있습니다.

📝 서론

LLM(Large Language Model, 거대 언어 모델)은 다양한 분야에서 놀라운 성과를 보여주고 있지만, 여전히 "추론 능력"은 부족하다는 평가가 있습니다.
그래서 많은 연구자들이 LLM의 추론 능력을 향상시키기 위해 **RL(Reinforcement Learning, 강화 학습)**이라는 기술에 주목해 왔습니다.
RL은 칭찬(보상)과 벌(negative reward)을 통해 모델을 훈련시키는 방식인데, 복잡한 문제 해결 능력을 키워줄 수 있다고 기대했죠.
하지만! 이 논문은 RL이 LLM의 추론 능력을 진짜로 향상시키는지, 아니면 겉모습만 번지르르하게 만드는 건지 🧐 꼼꼼하게 파헤쳐 봅니다.

📌 핵심 포인트: 서론

LLM 추론 능력 향상에 대한 RL의 효과에 의문 제기
RL이 '진짜' 추론 능력 향상 vs '겉모습'만 개선 인지 검증 목표

📚 기존 연구

기존 연구들은 주로 RL이 LLM의 성능을 높인다는 긍정적인 결과를 보여줬습니다. 특히, 정답에 대한 보상을 주는 방식으로 LLM을 훈련시키면, 문제 해결 능력이 향상된다고 알려져 있었죠.
하지만, 이런 연구들은 주로 pass@k metric 이라는 평가 방법을 사용할 때, k 값을 작게 설정 (k=1, 즉, 딱 한 번 시도해서 맞추는지) 하는 경우가 많았습니다.
작은 k 값에서는 RL로 훈련된 모델이 좋아 보이는 효과가 있었지만, 진짜 추론 능력을 제대로 측정한 건지는 의문이었습니다.
마치 시험 문제 하나만 풀게 하고 "너 천재구나!" 하는 것과 같다고 할까요? 섣부른 판단일 수 있다는 거죠.

📌 핵심 포인트: 기존 연구

RL이 LLM 성능 향상에 효과 있다는 연구들이 많았음
기존 연구들은 주로 pass@k metric의 k 값을 작게 설정하여 평가 (k=1)
작은 k 값에서의 성능 향상이 '진짜' 추론 능력 향상인지 불확실

🧪 방법론

이 논문에서는 pass@k metric을 사용하되, k 값을 아주 크게 늘려 (k=256까지!) 실험했습니다.
k를 키운다는 건, 모델에게 "256번이나 답을 시도할 기회를 줄 테니, 얼마나 많은 문제를 풀 수 있나 보자!" 라고 하는 것과 같습니다. 여러 번 시도하면 운 좋게 정답을 맞힐 수도 있겠죠.
이렇게 k를 크게 하면, 모델의 '진짜' 추론 능력, 즉 잠재력의 "최대치"를 더 잘 측정할 수 있다고 본 것입니다. 마치 "네가 가진 모든 지식과 능력을 쏟아부어서 풀 수 있는 문제의 한계가 어디까지니?" 하고 묻는 것과 같죠.
그리고 base model (RL 훈련 안 된 모델) 과 RL-trained model (RL 훈련된 모델) 을 비교하여, k 값이 커질 때 성능 차이가 어떻게 변하는지 관찰했습니다.

📌 핵심 포인트: 방법론

pass@k metric 사용, k 값을 크게 늘려 (k=256) 모델의 '진짜' 추론 능력 측정
base model vs RL-trained model 비교 (k 값 변화에 따른 성능 비교)
핵심 아이디어: k를 키워서 모델의 '잠재적' 추론 능력 최대한으로 끌어내어 비교

📊 실험 및 결과

실험 결과는 매우 놀라웠습니다.
**k 값이 작을 때 (k=1)**는 예상대로 RL-trained model이 base model보다 살짝 좋은 성능을 보였습니다. (기존 연구와 비슷)
하지만! k 값이 커질수록 (k=256) 상황이 완전히 역전되었습니다. base model이 RL-trained model보다 오히려 더 높은 pass@k 점수를 기록한 것입니다! 😱
이게 무슨 의미일까요? 🤔 RL 훈련이 "단기적인 샘플링 효율성"은 높여주지만, 모델이 "근본적으로 풀 수 있는 문제의 범위 (추론 능력의 한계)"를 오히려 좁힐 수 있다는 것을 시사합니다.
마치, "정답으로 가는 길"만 집중적으로 훈련시킨 결과, "새로운 길을 탐색하는 능력"은 오히려 퇴화한 셈이죠. 😭
추가적으로, CoT (Chain of Thought, 사고 과정) 분석을 통해, 높은 k 값에서 정답을 맞힌 경우에도 대부분 "valid CoT (정상적인 추론 과정)"을 포함하고 있음을 확인했습니다. 즉, 운 좋게 답을 맞힌 게 아니라, 진짜 추론 능력이 뒷받침된 결과라는 거죠.

📌 핵심 포인트: 실험 및 결과

작은 k (k=1): RL-trained model > base model (기존 연구와 유사)
큰 k (k=256): base model > RL-trained model (충격적인 결과)
RL 훈련: 단기적 샘플링 효율성 향상 vs 장기적 추론 능력 범위 축소 가능성
CoT 분석: 높은 k 에서 정답도 valid CoT 기반, '진짜' 추론 능력 측정 결과 뒷받침

conclusion 결론 및 한계

결론적으로, 이 논문은 RL이 LLM의 추론 능력을 근본적으로 향상시키지 못할 수 있다는 중요한 메시지를 던집니다.
RL은 모델이 "정답을 더 빨리 찾도록" 돕는 **"샘플링 효율성"**은 높여줄 수 있지만, 모델 자체가 가진 "추론 능력의 잠재력 ( reasoning capacity boundary )" 자체를 확장시키지는 못한다는 것입니다. 오히려 좁힐 수도 있다는 것! 😭
이는 마치, "정해진 길만 빨리 가는 훈련"은 잘 시켰지만, "새로운 길을 스스로 개척하는 능력"은 키워주지 못한 것과 같습니다.
한계점으로는, 실험이 특정 모델과 데이터셋에 한정되었다는 점, 그리고 RL 알고리즘 종류에 따른 효과 차이를 더 깊이 있게 분석하지 못했다는 점 등을 언급합니다. (하지만, 다양한 모델, 벤치마크, RL 알고리즘에 대해 일관된 결과를 보여주었다는 점을 강조!)

📌 핵심 포인트: 결론 및 한계

RL, LLM 추론 능력의 '본질적' 향상보다는 '샘플링 효율성' 향상에 기여
RL 훈련, 오히려 LLM의 추론 능력 '범위'를 축소시킬 가능성 제시
한계점: 특정 모델/데이터셋, RL 알고리즘 심층 분석 부족 (but, 다양한 조건에서 일관된 결과)

✨ 한 줄 요약

RL, LLM 추론 능력 '겉핥기'만? 🤔 "진짜 실력" 키우려면 다른 방법 찾아봐야 할 듯!

LIST

'AI논문' 카테고리의 다른 글

[논문리뷰] It’s All Connected: A Journey Through Test-Time Memorization, Attentional Bias, Retention, and Online Optimization (0)	2025.04.22
[논문리뷰] NodeRAG: Structuring Graph-based RAG with Heterogeneous Nodes (0)	2025.04.22
[논문리뷰] AerialMegaDepth: Learning Aerial-Ground Reconstruction and View Synthesis (0)	2025.04.21
[논문리뷰] Could Thinking Multilingually Empower LLM Reasoning? (0)	2025.04.21
[논문리뷰] MIG: Automatic Data Selection for Instruction Tuning by MaximizingInformation Gain in Semantic Space (0)	2025.04.21

현재글[논문리뷰] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

논문번역

papersummary 님의 블로그 입니다.

Ai, 이미지 생성, ai agent, MLLM, SFT, vision-language model, 리뷰, 논문, 강화학습, 이미지생성, hunyuancustom, llm, nvidia, 경량화, nlp, video generation, data, 트랜스포머, voice ai, vlm, 다국어 llm, LLaMa, rl, 번역, voice-language foundation model, voice-language, zerosearch, vision-language, Google, Diffusion,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

논문번역

[논문리뷰] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

RL, 너 LLM 추론 능력 향상시킨다더니, 정말이야? 🤨 (feat. pass@k 실험)

📝 서론

📚 기존 연구

🧪 방법론

📊 실험 및 결과

conclusion 결론 및 한계

✨ 한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

티스토리툴바

[논문리뷰] Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

RL, 너 LLM 추론 능력 향상시킨다더니, 정말이야? 🤨 (feat. pass@k 실험)

📝 서론

📚 기존 연구

🧪 방법론

📊 실험 및 결과

conclusion 결론 및 한계

✨ 한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

관련글

티스토리툴바