AI논문

[논문리뷰] BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

해애241 2025. 4. 28. 20:35

SMALL

초저용량 LLM의 진화: BitNet v2 파헤치기 (1비트 LLM을 위한 4비트 활성화)

안녕하세요! 인공지능 분야는 점점 더 크고 똑똑한 모델을 만들면서도, 동시에 이 모델들을 더 효율적으로 만드는 데 집중하고 있어요. 특히 스마트폰이나 작은 기기에서도 LLM(거대 언어 모델)을 돌릴 수 있도록 모델 크기를 줄이는 연구가 활발합니다.

(이 논문이 왜 중요한지)

거대 언어 모델(LLM)은 똑똑하지만 크기가 너무 커서 실행하기 어려워요.
그래서 모델을 압축하는 '양자화(Quantization)' 연구가 중요한데, 특히 모델의 '가중치(Weights)'를 획기적으로 줄이는 연구(BitNet b1.58 등)가 큰 성과를 냈습니다. (1.58비트!)
하지만 모델 내부를 흐르는 '활성화 값(Activations)'은 여전히 8비트 수준이어서, 최신 하드웨어의 4비트 계산 성능을 완전히 활용하지 못하는 병목이 있었습니다.
이 논문은 '활성화 값'까지 전체적으로 4비트를 사용하면서도 성능 손실을 거의 없앤 방법을 제시합니다.
덕분에 1비트 LLM을 훨씬 더 빠르고 효율적으로(메모리 적게 사용하며) 실행할 수 있게 되어, 실제 서비스나 작은 기기에서의 LLM 활용에 큰 진전을 가져올 수 있습니다.

서론

LLM을 효율적으로 배포하기 위해 '저비트(Low-bit)' 기술이 주목받고 있습니다.
이전 연구(BitNet b1.58)는 모델의 '가중치'를 1.58비트까지 줄여 메모리 사용량을 크게 낮췄습니다.
하지만 '활성화 값'은 8비트를 그대로 사용하여, 새로운 4비트 지원 하드웨어의 잠재력을 완전히 활용하지 못했습니다.
모델 중간 단계의 활성화 값에 '특이값(outlier)'이 많아 4비트처럼 낮은 비트로 양자화하기 어렵다는 문제가 있었습니다.
이 논문은 '전체' 활성화 값을 4비트로 만드는 BitNet v2 프레임워크를 제안합니다.

기존 연구

BitNet b1.58은 가중치를 1.58비트로 양자화했지만, 활성화 값은 8비트였습니다.
이는 LLM의 효율적인 '추론(Inference, 모델 실행)'에 병목이 될 수 있었습니다.
다른 연구들은 활성화 값, 특히 중간 레이어의 값에 '특이값'이 많아 양자화가 어렵다고 지적했습니다.
BitNet a4.8 같은 시도도 있었지만, 활성화 값 일부만 4비트를 쓰거나 특정 기법(희소화)을 사용해서 하드웨어 효율을 극대화하는 데는 한계가 있었습니다.

방법론

BitNet v2의 핵심은 'H-BitLinear'라는 새로운 선형 레이어 모듈입니다. (Attention과 FFN의 특정 레이어에 적용)
이 H-BitLinear는 활성화 값을 4비트로 양자화하기 '전'에 '아다마르 변환(Hadamard Transformation)'이라는 수학적 처리를 적용합니다.
아다마르 변환은 활성화 값 분포의 '특이값'을 줄이고, 분포를 '종 모양(Gaussian-like)'처럼 부드럽게 만들어 줍니다.
이렇게 분포가 부드러워지면 4비트처럼 낮은 비트로 양자화해도 중요한 정보 손실을 줄일 수 있습니다.
모델은 먼저 8비트 활성화로 학습시킨 후, 4비트 활성화로 약간만 추가 학습시키는 방식을 사용했습니다.

실험 및 결과

다양한 크기(1.3B, 3B, 7B)의 모델로 BitNet v2를 기존 모델들과 비교했습니다.
텍스트 생성 성능(Perplexity)과 여러 언어 이해 작업의 정확도를 측정했습니다.
8비트 활성화 상태의 BitNet v2는 기존 BitNet b1.58과 거의 동일하거나 약간 더 좋은 성능을 보였습니다.
중요한 점은, 4비트 활성화 상태의 BitNet v2(a4)가 다른 4비트 활성화 시도(BitNet a4.8)와 비슷하거나 더 좋은 성능을 내면서도, '전체' 활성화 값을 4비트로 만들었다는 것입니다.
이는 성능 손실 없이 4비트 활성화를 실현 가능하다는 것을 보여주며, 특히 동시에 여러 요청을 처리하는 '배치 추론' 효율을 크게 높일 수 있습니다.

결론 및 한계

BitNet v2는 1비트 가중치 LLM에서 전체 4비트 활성화를 성공적으로 구현했습니다.
이는 H-BitLinear와 아다마르 변환을 통해 활성화 값의 '특이값' 문제를 해결한 덕분입니다.
결과적으로 기존 8비트 모델과 비슷한 성능을 유지하며, 4비트 활성화를 통해 메모리 및 계산 효율성을 획기적으로 개선했습니다.
논문 자체에서 명시적인 '한계'를 많이 언급하진 않지만, 아다마르 변환 자체의 계산 비용이나 특정 하드웨어에서의 구현 효율성 등이 추가 연구될 부분일 수 있습니다. 하지만 본 논문은 4비트 활성화 가능성을 성공적으로 제시했습니다.

한 줄 요약

1비트 LLM, 이젠 활성화까지 4비트로! 아다마르 변환 마법으로 효율과 성능을 동시에 잡은 BitNet v2의 등장!

LIST

'AI논문' 카테고리의 다른 글

[논문리뷰] TrustGeoGen: Scalable and Formal-Verified Data Engine for Trustworthy Multi-modal Geometric Problem Solving (0)	2025.04.29
[논문리뷰] RepText: Rendering Visual Text via Replicating (0)	2025.04.29
[논문리뷰] Skywork R1V2: Multimodal Hybrid Reinforcement Learning for Reasoning (0)	2025.04.28
[논문리뷰] Perspective-Aware Reasoning in Vision-Language Models via Mental Imagery Simulation (0)	2025.04.27
[논문리뷰] Step1X-Edit: A Practical Framework for General Image Editing (0)	2025.04.27

현재글[논문리뷰] BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

논문번역

papersummary 님의 블로그 입니다.

이미지생성, zerosearch, 번역, vision-language model, voice-language foundation model, LLaMa, ai agent, MLLM, Google, nvidia, llm, voice-language, video generation, 강화학습, 논문, Diffusion, Ai, 이미지 생성, 경량화, 리뷰, data, SFT, rl, 트랜스포머, vlm, vision-language, voice ai, 다국어 llm, hunyuancustom, nlp,

Today :
Yesterday :

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

논문번역

[논문리뷰] BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

초저용량 LLM의 진화: BitNet v2 파헤치기 (1비트 LLM을 위한 4비트 활성화)

(이 논문이 왜 중요한지)

서론

기존 연구

방법론

실험 및 결과

결론 및 한계

한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

티스토리툴바

[논문리뷰] BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

초저용량 LLM의 진화: BitNet v2 파헤치기 (1비트 LLM을 위한 4비트 활성화)

(이 논문이 왜 중요한지)

서론

기존 연구

방법론

실험 및 결과

결론 및 한계

한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

관련글

티스토리툴바