반응형
SMALL

경량화 2

[논문리뷰] BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

🔗 https://arxiv.org/pdf/2504.18415.pdf초저용량 LLM의 진화: BitNet v2 파헤치기 (1비트 LLM을 위한 4비트 활성화)안녕하세요! 인공지능 분야는 점점 더 크고 똑똑한 모델을 만들면서도, 동시에 이 모델들을 더 효율적으로 만드는 데 집중하고 있어요. 특히 스마트폰이나 작은 기기에서도 LLM(거대 언어 모델)을 돌릴 수 있도록 모델 크기를 줄이는 연구가 활발합니다.(이 논문이 왜 중요한지)거대 언어 모델(LLM)은 똑똑하지만 크기가 너무 커서 실행하기 어려워요.그래서 모델을 압축하는 '양자화(Quantization)' 연구가 중요한데, 특히 모델의 '가중치(Weights)'를 획기적으로 줄이는 연구(BitNet b1.58 등)가 큰 성과를 냈습니다. (1.58비트!..

AI논문 2025.04.28

[논문리뷰] 70% Size, 100% Accuracy: Lossless LLM Compression for Efficient GPU Inference via Dynamic-Length Float

🔗 https://arxiv.org/pdf/2504.11651.pdf70% 크기로 100% 정확도를 내는 놀라운 LLM 압축 기술 (DFloat11)GPU 효율을 확 높인 무손실 LLM 압축!거대 언어 모델(LLM)은 성능은 좋은데 너무 커서 GPU 메모리가 부족한 문제가 있어요.그래서 보통 LLM을 압축하는데, 기존 압축 기술들은 GPU에서 빠르게 돌리기 어렵거나, 정확도가 떨어지는 손실 압축 방식이었죠.DFloat11은 이런 문제들을 해결한 무손실 압축 기술이에요!모델 크기는 30%나 줄이면서, GPU에서 빠른 추론이 가능하고, 원본 모델과 똑같은 결과를 보장하거든요.덕분에 GPU 메모리 부족 문제를 해결하고, 더 큰 모델을 더 빠르게 사용할 수 있게 되었답니다!서론거대 언어 모델(LLM)은 엄청난..

AI논문 2025.04.20
반응형
LIST