논문번역

[논문리뷰] HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

🔗 https://arxiv.org/pdf/2505.04512.pdfHunyuanCustom 논문 요약: 이미지, 오디오, 영상, 텍스트로 원하는 주인공 영상 만들기최근 영상 생성 AI는 놀랍게 발전했지만, 사용자가 원하는 특정 대상(인물이나 사물)을 정확하게 제어하는 것이 큰 숙제였습니다.특히 영상이 진행되는 동안 주인공의 모습이나 특징이 일관되게 유지되지 않는 경우가 많았죠.이 논문은 이미지, 오디오, 영상, 텍스트 등 다양한 형태의 정보를 입력받아,사용자가 지정한 대상을 영상 속에서 완벽히 일관되게 유지하며 고품질 영상을 생성하는 획기적인 방법을 제시합니다.서론영상 생성 AI 기술은 빠르게 발전하고 있지만, 원하는 대로 영상을 '맞춤 제작'하는 것은 여전히 어렵습니다.'맞춤형 영상 생성'이란 특정..

AI논문 2025.05.09

[논문리뷰] ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

🔗 https://arxiv.org/pdf/2505.04588.pdfLLM, 실제 검색 엔진 없이 검색 능력 키우기: ZERO SEARCH LLM이 최신 정보를 얻거나 복잡한 질문에 답하려면 외부 검색이 필수적입니다. 기존에는 LLM 검색 능력을 키우기 위해 실제 검색 엔진을 사용했는데, 이게 큰 문제가 있었습니다. 검색 결과 품질이 들쑥날쑥하고, 특히 강화 학습(RL) 훈련에는 엄청나게 많은 검색 요청이 필요해서 API 비용이 어마어마하게 비쌌죠. 이 논문은 실제 검색 엔진 없이 LLM으로 검색을 '흉내 내서' 훈련하는 'ZERO SEARCH'라는 기발한 방법을 제안합니다. 비용 없이 안정적으로 LLM의 검색 능력을 극대화할 수 있게 된 혁신적인 연구입니다.서론LLM은 학습된 데이터만 알아서 최신 정..

AI논문 2025.05.09

[논문리뷰] Voila: Voice-Language Foundation Models for Real-Time Autonomous Interaction and Voice Role-Play

🔗 https://arxiv.org/pdf/2505.02707.pdfVoila: 듣고 말하고 생각하고... 사람처럼 실시간 대화하는 AI 비서의 등장지금의 AI 음성 비서들은 아직 우리가 시키는 일만 처리하거나, 대화가 딱딱하게 끊기는 느낌이 강해요.Voila는 이런 한계를 넘어 AI가 사람처럼 실시간으로 자연스럽게 듣고, 이해하고, 감정을 담아 응답하는 '자율적인' 상호작용을 목표로 합니다.마치 영화 'Her'에 나오는 AI처럼 우리 일상에 자연스럽게 녹아드는 AI를 상상해 볼 수 있게 해주는 중요한 연구입니다.단순히 명령을 처리하는 도구가 아닌, 능동적으로 소통하는 AI 파트너의 가능성을 엿볼 수 있습니다.서론현재 대부분의 AI 시스템은 사용자의 명령이 있어야만 반응하는 '수동적'인 방식입니다.Si..

AI논문 2025.05.07

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

논문번역

전체 글 86

티스토리툴바