반응형
SMALL

SFT 3

[논문리뷰] FlowReasoner: Reinforcing Query-Level Meta-Agents

🔗 https://arxiv.org/pdf/2504.15257.pdfFlowReasoner: 사용자 질문에 맞춰 똑똑하게 진화하는 AI 시스템 자동 제작 기존 AI 시스템은 사람이 직접 만들거나, 특정 종류의 작업(예: 코드 생성) 전체에는 통하는 하나의 시스템만 만들었어요. 이건 새로운 작업에 맞게 바꾸기 어렵고, 사용자의 개별적인 질문에는 비효율적일 수 있습니다. 이 논문은 사용자 질문 하나하나에 맞춰 최적의 AI 시스템을 알아서 만들어주는 'FlowReasoner'를 제안합니다.마치 각 환자에게 맞는 맞춤형 처방을 내리는 의사처럼, AI가 스스로 생각하고 실제 실행 결과를 보며 시스템을 개선한다는 점에서 중요합니다.이를 통해 AI 시스템 설계의 효율성과 확장성을 크게 높일 수 있습니다.이 논문은 ..

카테고리 없음 2025.04.23

[논문리뷰] Exploring Expert Failures Improves LLM Agent Tuning

실패는 성공의 어머니?! 🧐 GPT-4도 실패에서 배운다! 똑똑한 척 하더니, GPT-4도 실수투성이? 요즘 AI, 특히 LLM(Large Language Model)이 엄청 똑똑해졌다고 칭찬이 자자하죠.그런데, 아무리 똑똑한 GPT-4라도 복잡한 문제 앞에선 헤매고 실패할 때가 많다는 사실! 🤯마치 길 찾기 전문가(GPT-4)도 처음 가는 복잡한 골목길에선 엉뚱한 길로 빠지거나, 막다른 길에 부딪히는 것처럼요. 😅이 논문은 바로 "실패한 전문가(GPT-4)의 경험 속에서, 성공의 힌트를 찾아낼 수 있지 않을까?" 라는 기발한 아이디어에서 출발했어요. 💡서론똑똑한 LLM을 'AI 에이전트'로 만들어서, 스스로 판단하고 행동하게 하려는 연구가 많아요. 척척박사 AI 비서처럼요! 🤖그 중 RFT..

AI논문 2025.04.20

[논문리뷰] SFT or RL? An Early Investigation into Training R1-Like Reasoning Large Vision-Language Models

SFT는 RL의 적인가? LVLM 추론 능력 향상의 새로운 방향 제시🔗 https://arxiv.org/pdf/2504.11468.pdfLarge Vision-Language Models (LVLM)는 텍스트와 이미지를 모두 이해하고 추론하는 AI 모델로, 최근 OpenAI의 o1/o3, Deepseek-R1과 같은 모델이 등장하면서 많은 주목을 받고 있습니다.일반적으로 LVLM의 추론 능력을 향상시키기 위해 Supervised Fine-tuning (SFT) 후 Reinforcement Learning (RL)을 적용하는 방식이 많이 사용됩니다.하지만 이 논문에서는 SFT가 오히려 RL을 저해할 수 있다는 새로운 시각을 제시하고, VLAA-Thinking이라는 새로운 데이터셋과 GRPO with Mi..

AI논문 2025.04.18
반응형
LIST