반응형
SMALL

Ai 86

[논문리뷰] AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale

🔗 https://arxiv.org/pdf/2505.08311.pdf작지만 강한 AI의 등장: 320억개 매개변수 AI의 놀라운 추론 능력 최근 인공지능 모델들은 엄청난 성능을 보여주지만, 수천억 개 이상의 매개변수를 가진 '초거대' 모델이 많아요.이런 모델들은 똑똑하지만, 컴퓨터 자원이 엄청나게 필요해서 사용하거나 개선하기가 매우 어렵죠.이 논문은 "모델 크기가 작더라도 (320억개 정도) 똑똑하게 잘 생각하게 만들 수 없을까?"라는 중요한 질문에 답합니다.공개된 데이터와 영리한 훈련 방법만으로도 가능하다는 것을 증명하며, 실용적인 AI 개발에 새로운 방향을 제시했어요.서론최근 AI(LLM)는 수학 문제 풀이, 코딩 같은 복잡한 '추론' 분야에서 눈부시게 발전했어요.특히 Qwen3처럼 아주 큰 MoE..

AI논문 2025.05.15

[논문리뷰] MiniMax-Speech

🔗 https://arxiv.org/pdf/2505.07916.pdfMiniMax-Speech 논문 요약: 단 한 번의 목소리 샘플로 고품질 복제 음성을 만드는 최신 기술MiniMax-Speech라는 새로운 음성 합성(TTS) 모델을 소개합니다.기존의 많은 음성 복제 기술은 특정 목소리를 만들려면 그 목소리로 특정 문장을 말한 샘플(텍스트와 음성 쌍)이 필요했습니다.하지만 MiniMax-Speech는 텍스트 없이 오직 짧은 음성 샘플만으로도 해당 목소리의 특징을 잡아내어 어떤 문장이든 그 목소리로 자연스럽게 말하게 하는 **'무설정(Zero-shot) 음성 복제'**를 아주 잘 해냅니다.또한, 합성된 음성의 품질과 목소리 유사성을 높이는 새로운 기술(Flow-VAE)을 도입하고, 32개 언어를 지원하며..

AI논문 2025.05.15

[논문리뷰] Learning to Act Anywhere with Task-centric Latent Actions

🔗 https://arxiv.org/pdf/2505.06111.pdfUniVLA: 어떤 로봇이든 어떤 영상이든 보고 배우는 범용 로봇 정책로봇이 다양한 환경에서 여러 작업을 잘 하려면 엄청난 양의 데이터가 필요해요. 특히 로봇이 어떤 움직임을 해야 하는지 일일이 알려주는 데이터는 모으기 정말 어렵죠. 게다가 로봇마다 팔 모양이나 움직이는 방식이 달라서 다른 로봇이 배운 걸 가져와 쓰기도 힘들었어요. 이 논문은 이런 문제를 해결하기 위해 나왔습니다.어떤 로봇이든, 심지어 사람이 움직이는 영상까지도 보고 배울 수 있도록 로봇의 움직임을 종류에 상관없이 표현하는 통일된 방법을 제안해요.덕분에 로봇 학습에 필요한 데이터 양을 획기적으로 줄이고, 로봇이 전에 보지 못한 환경에서도 잘 작동하게 만들 수 있어요.이..

AI논문 2025.05.12

[논문리뷰] BIELIK V3 SMALL: TECHNICAL REPORT

🔗 https://arxiv.org/pdf/2505.02550.pdf폴란드어 AI의 효율성 혁신: Bielik v3 기술 보고서 요약 폴란드어처럼 비교적 AI 연구 자원이 부족한 언어는 대규모 고성능 언어 모델을 만들기 어려웠습니다.기존 폴란드어 모델들은 대부분 아주 크고 많은 계산 자원이 필요했습니다.Bielik v3 논문은 1.5B와 4.5B 매개변수의 더 작은 모델로도 큰 모델과 경쟁할 만한 폴란드어 성능을 낼 수 있음을 보여줍니다.이는 적은 자원으로도 고품질 폴란드어 AI를 개발하고 사용하게 하여, AI 접근성을 크게 높였다는 점에서 중요합니다.서론AI 기술이 발전하며 다양한 언어에서 놀라운 성능을 보이지만, 데이터나 자원이 부족한 언어는 여전히 어려움이 있습니다.최근 폴란드어 모델 연구가 활발..

AI논문 2025.05.12

[논문리뷰] Flow-GRPO: Training Flow Matching Models via Online RL

🔗 https://arxiv.org/pdf/2505.05470.pdfFlow-GRPO: AI 그림 모델에 강화학습으로 정확도를 더하다최근 AI 이미지 생성 모델은 '플로우 매칭' 방식이 주류가 되면서 빠르게 발전했어요.하지만 여전히 복잡한 장면(예: 객체 여러 개, 위치, 속성 등)이나 정확한 글자 표현에서는 어려움을 겪습니다.이 논문은 AI 언어 모델에서 큰 효과를 본 '온라인 강화학습'을 이미지 생성 모델에 처음으로 성공적으로 적용했습니다.이를 통해 AI가 사용자의 복잡한 요구사항을 훨씬 정확하게 이해하고 그림을 그릴 수 있게 만들었습니다.서론최신 이미지 생성 모델(플로우 매칭)은 고품질 이미지를 빠르게 만들지만, 복잡한 구성이나 정확한 글자 표현에는 약점이 있습니다.반면, 온라인 강화학습은 AI ..

AI논문 2025.05.12

[논문리뷰] HunyuanCustom: A Multimodal-Driven Architecture for Customized Video Generation

🔗 https://arxiv.org/pdf/2505.04512.pdfHunyuanCustom 논문 요약: 이미지, 오디오, 영상, 텍스트로 원하는 주인공 영상 만들기최근 영상 생성 AI는 놀랍게 발전했지만, 사용자가 원하는 특정 대상(인물이나 사물)을 정확하게 제어하는 것이 큰 숙제였습니다.특히 영상이 진행되는 동안 주인공의 모습이나 특징이 일관되게 유지되지 않는 경우가 많았죠.이 논문은 이미지, 오디오, 영상, 텍스트 등 다양한 형태의 정보를 입력받아,사용자가 지정한 대상을 영상 속에서 완벽히 일관되게 유지하며 고품질 영상을 생성하는 획기적인 방법을 제시합니다.서론영상 생성 AI 기술은 빠르게 발전하고 있지만, 원하는 대로 영상을 '맞춤 제작'하는 것은 여전히 어렵습니다.'맞춤형 영상 생성'이란 특정..

AI논문 2025.05.09

[논문리뷰] ZEROSEARCH: Incentivize the Search Capability of LLMs without Searching

🔗 https://arxiv.org/pdf/2505.04588.pdfLLM, 실제 검색 엔진 없이 검색 능력 키우기: ZERO SEARCH LLM이 최신 정보를 얻거나 복잡한 질문에 답하려면 외부 검색이 필수적입니다. 기존에는 LLM 검색 능력을 키우기 위해 실제 검색 엔진을 사용했는데, 이게 큰 문제가 있었습니다. 검색 결과 품질이 들쑥날쑥하고, 특히 강화 학습(RL) 훈련에는 엄청나게 많은 검색 요청이 필요해서 API 비용이 어마어마하게 비쌌죠. 이 논문은 실제 검색 엔진 없이 LLM으로 검색을 '흉내 내서' 훈련하는 'ZERO SEARCH'라는 기발한 방법을 제안합니다. 비용 없이 안정적으로 LLM의 검색 능력을 극대화할 수 있게 된 혁신적인 연구입니다.서론LLM은 학습된 데이터만 알아서 최신 정..

AI논문 2025.05.09

[논문리뷰] Llama-Nemotron: Efficient Reasoning Models

🔗 https://arxiv.org/pdf/2505.00949.pdf똑똑하면서 빠르다! NVIDIA의 새로운 AI 모델, Llama-Nemotron 파헤치기최근 AI 모델들은 점점 더 복잡한 문제(예: 과학, 수학)를 해결하는 '추론' 능력이 좋아지고 있습니다. 하지만 이런 똑똑한 모델들은 크기가 커서 실행하기 어렵고 비용도 많이 듭니다. 이 논문은 뛰어난 추론 능력과 함께 **실행 효율성(속도, 메모리)**까지 갖춘 새로운 AI 모델인 Llama-Nemotron 시리즈를 소개합니다. 특히 NVIDIA가 이 모델들과 학습 데이터, 코드를 모두 공개했다는 점에서, AI 연구 커뮤니티와 기업들이 효율적인 최신 AI를 활용하고 발전시키는 데 크게 기여할 것으로 기대됩니다.서론최근 AI 모델들이 복잡한 문제를..

AI논문 2025.05.07

[논문리뷰] PixelHacker: Image Inpainting with Structural and Semantic Consistency

🔗 https://arxiv.org/pdf/2504.20438.pdfPixelHacker: AI가 이미지 빈칸을 구조와 의미에 맞게 채우는 방법AI가 이미지의 빈 부분을 자연스럽게 채우는 '인페인팅' 기술은 매우 중요하지만, 복잡한 이미지에서는 어색하거나 비현실적인 결과가 나오기 쉬웠습니다.이 논문은 '구조적' 일관성 (형태, 질감)과 '의미적' 일관성 (색상, 논리)을 동시에 잡는 새로운 방법을 제시합니다.간단한 아이디어와 대규모 데이터 학습을 통해 기존 최고 성능 AI들을 뛰어넘는 결과를 보여주었습니다.이 연구는 AI 이미지 편집의 현실성을 한 단계 높이는 데 기여합니다.서론이미지 인페인팅은 사진 편집이나 불필요한 객체 제거 등에 활용되는 기본 기술입니다.목표는 이미지의 가려진 부분을 주변 정보에 ..

AI논문 2025.05.07

[논문리뷰] DeepCritic: Deliberate Critique with Large Language Models

🔗 https://arxiv.org/pdf/2505.00662.pdfLLM, 자신의 실수를 스스로 찾아내게 만들기: DeepCritic 이 논문이 왜 중요한가요?거대 언어 모델(LLM)이 계속 발전하려면 자신의 결과물을 스스로 검토하고 개선하는 능력이 중요합니다.사람이 모든 LLM 결과물을 일일이 확인하고 피드백을 주는 것은 너무 비싸고 어렵습니다.따라서 LLM을 '비평가'로 사용하여 자동 감독하는 방식이 주목받고 있지만, 기존 LLM 비평가는 오류를 깊이 파고들지 못하고 피상적인 비판만 하는 한계가 있었습니다.이 논문은 LLM이 단순히 맞고 틀림을 넘어, 왜, 어디서 틀렸는지 그 과정을 '의도적으로' 깊이 파헤치는 비판 능력을 갖추도록 훈련하는 방법을 제시하며, 이는 LLM의 자기 개선과 신뢰성 향상..

AI논문 2025.05.07
반응형
LIST