AI논문

[논문리뷰] PANGU ULTRA: PUSHING THE LIMITS OF DENSE LARGE LANGUAGE MODELS ON ASCEND NPUS

해애241 2025. 4. 15. 21:12
반응형
SMALL

화웨이, 1350억 매개변수 'Pangu Ultra' LLM 공개: 거대 모델의 새로운 가능성을 열다

🔗 https://arxiv.org/pdf/2504.07866.pdf

거대 언어 모델(LLM)은 인공지능 분야의 판도를 뒤흔들고 있습니다. 더 크고 강력한 모델을 만들기 위한 경쟁이 치열한 가운데, 화웨이에서 1350억 개의 매개변수를 가진 새로운 모델 'Pangu Ultra'를 발표했습니다. 이 논문은 Pangu Ultra를 소개하고, 이 모델을 훈련시키는 과정에서 겪었던 기술적 어려움과 이를 해결하기 위해 사용한 새로운 기술들을 자세히 설명합니다. 특히, 학습 안정성을 높이는 새로운 방법과 화웨이의 Ascend NPU를 활용한 효율적인 훈련 시스템은 주목할 만합니다. Pangu Ultra는 기존의 거대 모델들과 비교했을 때 뛰어난 성능을 보여주며, 앞으로 더 크고 강력한 AI 모델 개발에 중요한 발걸음이 될 것으로 기대됩니다.

서론

  • 거대 언어 모델(LLM)은 AI 분야에서 엄청난 발전을 가져왔고, 다양한 상업적 기회를 창출하고 있습니다.
  • 더 강력한 LLM을 만들기 위해 모델 크기를 키우는 경쟁이 치열하며, 모델 구조에 대한 논쟁(sparse vs dense)도 계속되고 있습니다.
  • Sparse 모델(MoE)은 초거대 모델에서 뛰어난 성능을 보이지만, Dense 모델은 특정 기술과 쉬운 배포 덕분에 1000억 미만 매개변수 모델에서 인기가 높습니다.
  • 이 연구는 Dense 모델의 잠재력을 탐구하고, Dense 모델이 최첨단 MoE 모델과 경쟁할 수 있음을 보여주는 것을 목표로 합니다.

핵심 포인트:

  • LLM의 중요성과 발전 방향
  • Sparse 모델과 Dense 모델의 장단점
  • Dense 모델의 잠재력 탐구 목표

기존 연구

  • Transformer 구조는 LLM에 널리 사용되지만, 모델을 깊게 만들수록 학습 불안정성 문제가 발생합니다 (loss spikes).
  • Loss spikes는 모델 학습 과정을 방해하고 성능 저하를 야기할 수 있습니다.
  • 거대 모델 학습에는 수천 개의 AI 프로세서가 필요하며, 시스템 효율성 문제도 중요합니다.
  • 기존 연구들은 모델 크기 확장과 학습 안정성 확보에 어려움을 겪고 있습니다.

핵심 포인트:

  • LLM 모델 깊이 증가의 문제점 (학습 불안정성, Loss spikes)
  • 거대 모델 학습의 시스템 효율성 문제
  • 기존 연구의 한계

방법론

  • 화웨이 Pangu 팀은 1350억 개의 매개변수와 94개 레이어를 가진 Dense Transformer 모델 'Pangu Ultra'를 개발했습니다.
  • 학습 안정성을 위해 Depth-Scaled Sandwich NormalizationTiny Initialization이라는 새로운 기술을 제안했습니다.
  • Depth-Scaled Sandwich Normalization은 모델 깊이에 따라 normalization을 조절하여 gradient fluctuations을 줄여줍니다.
  • Tiny Initialization은 모델의 폭과 깊이를 고려하여 초기화 방식을 조정, 학습 초기부터 안정적인 gradient를 유지하도록 돕습니다.
  • 또한, 13.2조 개의 토큰으로 pre-training하고, context window를 4K에서 128K까지 확장했습니다.

핵심 포인트:

  • Pangu Ultra 모델 구조 (Dense Transformer, 135B parameters)
  • 학습 안정화 기술: Depth-Scaled Sandwich Normalization, Tiny Initialization
  • Pre-training 데이터 및 Context Window 확장

실험 및 결과

  • 8,192개의 Ascend NPU 클러스터를 사용하여 Pangu Ultra를 효율적으로 학습했습니다.
  • 다양한 시스템 최적화 기술(parallelism, kernel fusion)을 적용하여 높은 훈련 효율성(MFU 50% 이상)을 달성했습니다.
  • 공개 벤치마크에서 Pangu Ultra는 Llama 405B, Mistral Large 2와 같은 기존 Dense LLM을 능가했습니다.
  • 심지어 DeepSeek-R1과 같은 Sparse 모델과도 경쟁적인 성능을 보였습니다.
  • Ascend NPU가 1000억 개 이상 매개변수를 가진 Dense 모델 훈련에 적합함을 입증했습니다.

핵심 포인트:

  • Ascend NPU 클러스터 및 시스템 최적화 기술
  • Pangu Ultra의 뛰어난 벤치마크 성능 (Dense LLM 최고 수준, Sparse 모델과 경쟁)
  • Ascend NPU의 거대 Dense 모델 훈련 가능성 입증

결론 및 한계

  • Pangu Ultra는 Depth-Scaled Sandwich Normalization을 통해 학습 안정성을 확보하고, 최고 수준의 Dense LLM 성능을 달성했습니다.
  • Ascend NPU를 사용하여 거대 모델을 효율적으로 훈련할 수 있음을 보여주었습니다.
  • 이 연구는 확장 가능하고 효율적인 LLM 훈련을 위한 중요한 진전입니다.
  • 향후 더 큰 모델 개발 및 다양한 task에서의 성능 향상을 기대할 수 있습니다.

핵심 포인트:

  • Pangu Ultra의 성과 요약 (학습 안정성, 최고 성능 Dense LLM)
  • Ascend NPU의 가능성 확인
  • 향후 LLM 발전 방향 제시

한 줄 요약

화웨이 Pangu Ultra, 새로운 기술로 학습 안정성을 잡고 Dense LLM의 한계를 뛰어넘다!

반응형
LIST