반응형

ai agent 2

[논문리뷰] ToolRL: Reward is All Tool Learning Needs

🔗 https://arxiv.org/pdf/2504.13958.pdfToolRL: LLM에게 도구 사용을 가르치는 새로운 방법 - 보상이 전부다!대규모 언어 모델(LLM)이 외부 도구(계산기, 검색 엔진 등)를 사용하는 능력은 매우 중요합니다.이는 LLM의 한계(최신 정보 부족, 부정확한 계산)를 극복하고 더 유능한 AI 에이전트를 만드는 핵심 기술입니다.기존 학습 방식(SFT)은 한계가 있어, 처음 보는 도구나 복잡한 사용법에 약했습니다.이 논문은 강화 학습(RL)을 통해 도구 사용 능력을 높이고, 특히 '어떤 행동에 보상(점수)을 줄 것인가'라는 보상 설계의 중요성을 보여주었습니다.서론최근 LLM은 추론 능력이 뛰어나지만, 강화 학습(RL)을 통해 자기 성찰, 계획 등 더 발전된 능력을 얻고 있습니..

AI논문 2025.04.23

[논문리뷰] Exploring Expert Failures Improves LLM Agent Tuning

실패는 성공의 어머니?! 🧐 GPT-4도 실패에서 배운다! 똑똑한 척 하더니, GPT-4도 실수투성이? 요즘 AI, 특히 LLM(Large Language Model)이 엄청 똑똑해졌다고 칭찬이 자자하죠.그런데, 아무리 똑똑한 GPT-4라도 복잡한 문제 앞에선 헤매고 실패할 때가 많다는 사실! 🤯마치 길 찾기 전문가(GPT-4)도 처음 가는 복잡한 골목길에선 엉뚱한 길로 빠지거나, 막다른 길에 부딪히는 것처럼요. 😅이 논문은 바로 "실패한 전문가(GPT-4)의 경험 속에서, 성공의 힌트를 찾아낼 수 있지 않을까?" 라는 기발한 아이디어에서 출발했어요. 💡서론똑똑한 LLM을 'AI 에이전트'로 만들어서, 스스로 판단하고 행동하게 하려는 연구가 많아요. 척척박사 AI 비서처럼요! 🤖그 중 RFT..

AI논문 2025.04.20
반응형