'경량화' 태그의 글 목록

[논문리뷰] 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

🔗 https://arxiv.org/pdf/2504.11651.pdf70% 크기로 100% 정확도를 내는 놀라운 LLM 압축 기술 (DFloat11)GPU 효율을 확 높인 무손실 LLM 압축!거대 언어 모델(LLM)은 성능은 좋은데 너무 커서 GPU 메모리가 부족한 문제가 있어요.그래서 보통 LLM을 압축하는데, 기존 압축 기술들은 GPU에서 빠르게 돌리기 어렵거나, 정확도가 떨어지는 손실 압축 방식이었죠.DFloat11은 이런 문제들을 해결한 무손실 압축 기술이에요!모델 크기는 30%나 줄이면서, GPU에서 빠른 추론이 가능하고, 원본 모델과 똑같은 결과를 보장하거든요.덕분에 GPU 메모리 부족 문제를 해결하고, 더 큰 모델을 더 빠르게 사용할 수 있게 되었답니다!서론거대 언어 모델(LLM)은 엄청난..

AI논문 2025.04.20

« 2025/07 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

논문번역

경량화 2

티스토리툴바