AI논문

[논문리뷰] ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

해애241 2025. 5. 9. 20:32

SMALL

LLM, 실제 검색 엔진 없이 검색 능력 키우기: ZERO SEARCH

LLM이 최신 정보를 얻거나 복잡한 질문에 답하려면 외부 검색이 필수적입니다. 기존에는 LLM 검색 능력을 키우기 위해 실제 검색 엔진을 사용했는데, 이게 큰 문제가 있었습니다. 검색 결과 품질이 들쑥날쑥하고, 특히 강화 학습(RL) 훈련에는 엄청나게 많은 검색 요청이 필요해서 API 비용이 어마어마하게 비쌌죠. 이 논문은 실제 검색 엔진 없이 LLM으로 검색을 '흉내 내서' 훈련하는 'ZERO SEARCH'라는 기발한 방법을 제안합니다. 비용 없이 안정적으로 LLM의 검색 능력을 극대화할 수 있게 된 혁신적인 연구입니다.

서론

LLM은 학습된 데이터만 알아서 최신 정보나 특정 질문에 대해 '모른다'거나 잘못된 정보를 말할 수 있어요.
이 문제를 해결하기 위해 외부 정보를 찾아 활용하는 RAG(검색 증강 생성) 기술이 중요해졌습니다.
최근 연구들은 강화 학습(RL)을 활용해 LLM이 스스로 검색하는 능력을 키우려 하지만, 실제 검색 엔진을 쓰면 결과 예측이 어렵고 API 비용이 매우 비싸요.
이 논문은 이런 문제를 해결하기 위해 'ZERO SEARCH'라는, 실제 검색 없이도 LLM의 검색 능력을 훈련하는 방법을 제안합니다.

핵심 포인트:

LLM의 지식 한계와 환각 문제
외부 검색(RAG)의 필요성
RL 기반 검색 훈련의 높은 비용 및 불안정성 문제 제기

기존 연구

RAG 연구는 처음에는 프롬프트로 검색 과정을 조절하다가, 작은 모델의 성능을 높이기 위해 SFT(추가 학습)를 썼습니다.
추론 과정에서 동적으로 검색하는 MCTS 같은 복잡한 방법도 나왔지만 계산 비용이 많이 들었습니다.
최근에는 강화 학습(RL)으로 LLM이 스스로 검색 전략을 배우는 연구가 활발합니다.
특히 DeepResearcher 같은 연구는 실제 구글 검색 엔진과 직접 연동하며 훈련했지만, 이 방법은 결과 예측이 어렵고 API 비용이 엄청나다는 단점이 있었습니다.

핵심 포인트:

다양한 RAG 연구 방식 (프롬프트, SFT, 동적 검색)
RL을 이용한 검색 능력 훈련 연구 등장
실제 검색 엔진 연동 연구의 비용 및 안정성 문제

방법론

핵심 아이디어는 LLM이 스스로 검색 엔진처럼 질문에 대한 문서를 생성하게 하는 것입니다.
가벼운 추가 학습(SFT)을 통해 LLM이 실제 검색 결과처럼 유용한 문서와 필요 없는(노이즈) 문서를 모두 만들 수 있게 합니다.
훈련 중에는 '커리큘럼' 방식으로, 처음에는 유용한 문서를 많이 보여주다가 점차 노이즈 문서 비율을 높여가며 훈련 난이도를 올립니다. (마치 쉬운 문제부터 어려운 문제까지 푸는 것처럼요).
답변 정확도를 F1 점수로 측정하여 보상(Reward)으로 사용하고, PPO나 GRPO 같은 RL 알고리즘으로 훈련합니다.

핵심 포인트:

LLM을 검색 시뮬레이터로 활용
유용/노이즈 문서 생성을 위한 SFT
점진적으로 난이도를 높이는 커리큘럼 기반 훈련
F1 기반 보상 및 다양한 RL 알고리즘 지원

실험 및 결과

다양한 단일 질문 및 다단계 질문 답변 데이터셋으로 실험했습니다.
기존 프롬프트, RAG 방식, 그리고 실제 검색 엔진을 쓰는 Search-R1 모델과 비교했습니다.
실험 결과, ZERO SEARCH는 실제 검색 엔진을 사용하는 모델보다 더 좋은 성능을 보였습니다.
특히, 14B LLM으로 검색 엔진을 시뮬레이션했을 때는 실제 구글 검색보다 성능이 뛰어났습니다.
다양한 크기와 종류의 모델, 그리고 여러 RL 알고리즘에서도 잘 작동함을 확인했습니다.

핵심 포인트:

다양한 QA 데이터셋으로 성능 평가
실제 검색 엔진 사용 모델 포함 다양한 베이스라인 비교
ZERO SEARCH가 실제 검색 방식보다 우수함을 입증
시뮬레이션 LLM 크기가 클수록 성능 향상 (14B 시뮬레이터 > 구글)
다양한 모델 및 알고리즘에 대한 일반화 능력 확인

결론 및 한계

이 논문은 실제 검색 엔진 없이 LLM으로 검색 능력을 키우는 'ZERO SEARCH' 방법을 제안하고 효과를 입증했습니다.
비싼 API 비용 없이 안정적이고 효율적으로 LLM의 검색 능력을 강화할 수 있게 되었습니다.
다양한 LLM 모델과 RL 알고리즘에 적용 가능하며 실제 검색 엔진 이상의 성능을 보여주었습니다.
다만, 검색 시뮬레이션 LLM을 돌리기 위한 GPU 서버 비용은 여전히 발생한다는 한계가 있습니다.

핵심 포인트:

ZERO SEARCH의 성공적인 제안 및 검증
비용 효율성, 안정성, 일반화 능력의 장점
실제 검색 엔진 능가 가능성 제시
시뮬레이션 LLM 구동을 위한 인프라 비용 필요

한 줄 요약

LLM이 직접 검색 엔진 흉내 내면서 돈 안 들이고 검색 능력 배우는 기발하고 효과적인 방법!

LIST

'AI논문' 카테고리의 다른 글

[논문리뷰] Flow-GRPO: Training Flow Matching Models via Online RL (0)	2025.05.12
[논문리뷰] HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation (0)	2025.05.09
[논문리뷰] Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play (0)	2025.05.07
[논문리뷰] Llama-Nemotron: Efficient Reasoning Models (0)	2025.05.07
[논문리뷰] PixelHacker: Image Inpainting with Structural and Semantic Consistency (0)	2025.05.07

현재글[논문리뷰] ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

논문번역

papersummary 님의 블로그 입니다.

ai 오디오 생성, minimax-speech, LLaMa, 리뷰, vision-language, Google, Diffusion, llm, 이미지 생성, text-to-audio, vision-language model, nlp, am-thinking-v1, nvidia, 강화학습, vlm, 다국어 llm, 트랜스포머, 논문, Ai, data, rl, 번역, MLLM, 경량화, ai agent, 이미지생성, SFT, video generation, univla,

Today :
Yesterday :

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

논문번역

[논문리뷰] ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

LLM, 실제 검색 엔진 없이 검색 능력 키우기: ZERO SEARCH

서론

기존 연구

방법론

실험 및 결과

결론 및 한계

한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

티스토리툴바

[논문리뷰] ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

LLM, 실제 검색 엔진 없이 검색 능력 키우기: ZERO SEARCH

서론

기존 연구

방법론

실험 및 결과

결론 및 한계

한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

관련글

티스토리툴바