AI논문

[논문리뷰] BitNet v2: Native 4-bit Activations with Hadamard Transformation for 1-bit LLMs

해애241 2025. 4. 28. 20:35
반응형
SMALL

🔗 https://arxiv.org/pdf/2504.18415.pdf

초저용량 LLM의 진화: BitNet v2 파헤치기 (1비트 LLM을 위한 4비트 활성화)

안녕하세요! 인공지능 분야는 점점 더 크고 똑똑한 모델을 만들면서도, 동시에 이 모델들을 더 효율적으로 만드는 데 집중하고 있어요. 특히 스마트폰이나 작은 기기에서도 LLM(거대 언어 모델)을 돌릴 수 있도록 모델 크기를 줄이는 연구가 활발합니다.

(이 논문이 왜 중요한지)

  • 거대 언어 모델(LLM)은 똑똑하지만 크기가 너무 커서 실행하기 어려워요.
  • 그래서 모델을 압축하는 '양자화(Quantization)' 연구가 중요한데, 특히 모델의 '가중치(Weights)'를 획기적으로 줄이는 연구(BitNet b1.58 등)가 큰 성과를 냈습니다. (1.58비트!)
  • 하지만 모델 내부를 흐르는 '활성화 값(Activations)'은 여전히 8비트 수준이어서, 최신 하드웨어의 4비트 계산 성능을 완전히 활용하지 못하는 병목이 있었습니다.
  • 이 논문은 '활성화 값'까지 전체적으로 4비트를 사용하면서도 성능 손실을 거의 없앤 방법을 제시합니다.
  • 덕분에 1비트 LLM을 훨씬 더 빠르고 효율적으로(메모리 적게 사용하며) 실행할 수 있게 되어, 실제 서비스나 작은 기기에서의 LLM 활용에 큰 진전을 가져올 수 있습니다.

서론

  • LLM을 효율적으로 배포하기 위해 '저비트(Low-bit)' 기술이 주목받고 있습니다.
  • 이전 연구(BitNet b1.58)는 모델의 '가중치'를 1.58비트까지 줄여 메모리 사용량을 크게 낮췄습니다.
  • 하지만 '활성화 값'은 8비트를 그대로 사용하여, 새로운 4비트 지원 하드웨어의 잠재력을 완전히 활용하지 못했습니다.
  • 모델 중간 단계의 활성화 값에 '특이값(outlier)'이 많아 4비트처럼 낮은 비트로 양자화하기 어렵다는 문제가 있었습니다.
  • 이 논문은 '전체' 활성화 값을 4비트로 만드는 BitNet v2 프레임워크를 제안합니다.

기존 연구

  • BitNet b1.58은 가중치를 1.58비트로 양자화했지만, 활성화 값은 8비트였습니다.
  • 이는 LLM의 효율적인 '추론(Inference, 모델 실행)'에 병목이 될 수 있었습니다.
  • 다른 연구들은 활성화 값, 특히 중간 레이어의 값에 '특이값'이 많아 양자화가 어렵다고 지적했습니다.
  • BitNet a4.8 같은 시도도 있었지만, 활성화 값 일부만 4비트를 쓰거나 특정 기법(희소화)을 사용해서 하드웨어 효율을 극대화하는 데는 한계가 있었습니다.

방법론

  • BitNet v2의 핵심은 'H-BitLinear'라는 새로운 선형 레이어 모듈입니다. (Attention과 FFN의 특정 레이어에 적용)
  • 이 H-BitLinear는 활성화 값을 4비트로 양자화하기 '전'에 '아다마르 변환(Hadamard Transformation)'이라는 수학적 처리를 적용합니다.
  • 아다마르 변환은 활성화 값 분포의 '특이값'을 줄이고, 분포를 '종 모양(Gaussian-like)'처럼 부드럽게 만들어 줍니다.
  • 이렇게 분포가 부드러워지면 4비트처럼 낮은 비트로 양자화해도 중요한 정보 손실을 줄일 수 있습니다.
  • 모델은 먼저 8비트 활성화로 학습시킨 후, 4비트 활성화로 약간만 추가 학습시키는 방식을 사용했습니다.

실험 및 결과

  • 다양한 크기(1.3B, 3B, 7B)의 모델로 BitNet v2를 기존 모델들과 비교했습니다.
  • 텍스트 생성 성능(Perplexity)과 여러 언어 이해 작업의 정확도를 측정했습니다.
  • 8비트 활성화 상태의 BitNet v2는 기존 BitNet b1.58과 거의 동일하거나 약간 더 좋은 성능을 보였습니다.
  • 중요한 점은, 4비트 활성화 상태의 BitNet v2(a4)가 다른 4비트 활성화 시도(BitNet a4.8)와 비슷하거나 더 좋은 성능을 내면서도, '전체' 활성화 값을 4비트로 만들었다는 것입니다.
  • 이는 성능 손실 없이 4비트 활성화를 실현 가능하다는 것을 보여주며, 특히 동시에 여러 요청을 처리하는 '배치 추론' 효율을 크게 높일 수 있습니다.

결론 및 한계

  • BitNet v2는 1비트 가중치 LLM에서 전체 4비트 활성화를 성공적으로 구현했습니다.
  • 이는 H-BitLinear와 아다마르 변환을 통해 활성화 값의 '특이값' 문제를 해결한 덕분입니다.
  • 결과적으로 기존 8비트 모델과 비슷한 성능을 유지하며, 4비트 활성화를 통해 메모리 및 계산 효율성을 획기적으로 개선했습니다.
  • 논문 자체에서 명시적인 '한계'를 많이 언급하진 않지만, 아다마르 변환 자체의 계산 비용이나 특정 하드웨어에서의 구현 효율성 등이 추가 연구될 부분일 수 있습니다. 하지만 본 논문은 4비트 활성화 가능성을 성공적으로 제시했습니다.

한 줄 요약

1비트 LLM, 이젠 활성화까지 4비트로! 아다마르 변환 마법으로 효율과 성능을 동시에 잡은 BitNet v2의 등장!

반응형
LIST