AI논문

[논문리뷰] Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

해애241 2025. 4. 18. 20:55

SMALL

FramePack: 비디오 생성 모델, 이제 '장기 기억' 능력 갖추다! (ft. 드리프트 방지 샘플링)

🔗 https://arxiv.org/pdf/2504.12626.pdf

AI가 만든 영상, 틱톡 릴스처럼 짧은 영상만 가능한 걸까요? FramePack은 더 긴 영상을 만들 때 생기는 문제를 해결한 놀라운 기술입니다.
긴 영상을 만들 때 AI 모델은 과거 내용을 잊어버리거나(망각), 점점 횡설수설하는(드리프트) 문제**가 있었는데요.
FramePack은 짐을 효율적으로 꾸리듯 과거 프레임을 압축하고, 양방향으로 맥락을 파악하여 이 두 가지 문제를 동시에 해결했습니다.
덕분에 AI는 더 긴 영상도 '기억'하며 자연스럽게 만들 수 있게 되었고, 영상 품질도 훨씬 높아졌습니다. 마치 AI가 '장기 기억' 능력을 갖게 된 것과 같아요!

서론

비디오 생성 모델은 '망각(forgetting)' 과 '드리프트(drifting)' 라는 두 가지 중요한 문제에 직면해 있습니다.
망각: 모델이 과거 내용을 잊고 시간적 일관성을 유지하기 어려워지는 현상
드리프트: 시간이 지날수록 영상 품질이 떨어지는 현상 (오류 누적)
망각을 해결하려고 기억 용량을 늘리면 드리프트가 심해지고, 드리프트를 줄이려고 과거 정보를 줄이면 망각이 심해지는 딜레마가 존재합니다.
FramePack은 입력 프레임을 압축하여 모델이 더 많은 프레임을 '기억'하게 하면서도 계산량을 고정시켜 망각 문제를 해결합니다.
또한, 양방향 맥락을 활용하는 샘플링 기법을 통해 드리프트 문제까지 효과적으로 억제합니다.

[핵심 포인트]

문제: 비디오 생성 모델의 '망각'과 '드리프트' 문제 (장기 영상 생성의 어려움)
FramePack: 입력 프레임 압축 + 양방향 맥락 활용 샘플링 → 망각 & 드리프트 동시 해결

기존 연구

망각 및 드리프트 완화 연구: 과거 프레임에 노이즈를 추가하거나, 특정 프레임을 'anchor'로 활용하는 등 다양한 시도가 있었습니다.
한계: 과거 정보 손실, 여전히 긴 영상에서 문제 발생
긴 영상 생성 연구: 다양한 모델들이 개발되었지만, 여전히 계산량 증가, 품질 저하 등의 문제점이 있었습니다.
예시: LVDM, Phenaki, NUWA-XL, Video-Infinity 등
비디오 생성 효율성 연구: attention mechanism 개선, 모델 경량화 등 효율성을 높이려는 연구도 진행되었습니다.
예시: Linear attention, Sparse attention, Distillation 등

[핵심 포인트]

기존 연구: 망각/드리프트 완화, 긴 영상 생성, 효율성 향상 연구 진행
한계: 여전히 망각/드리프트 문제 존재, 계산량 & 품질 trade-off

방법론

FramePack은 입력 프레임의 중요도에 따라 서로 다른 압축률을 적용하여 총 context 길이를 고정합니다.
중요도: 예측 대상 프레임과 시간적으로 가까운 프레임이 더 중요하다고 가정 (최근 프레임 > 과거 프레임)
압축: 중요도가 낮은 프레임일수록 더 많이 압축 (transformer patchify kernel 조절)
Anti-drifting 샘플링: 양방향 맥락을 활용하여 드리프트를 방지하는 세 가지 샘플링 방법 제안

Vanilla: 순차적으로 다음 프레임 예측 (기존 방식)
Anti-drifting: 시작/끝 프레임 먼저 생성 후 중간 프레임 채우기 (양방향)
Inverted anti-drifting: 역순으로 프레임 생성, 고품질 시작 프레임(ex. 사용자 입력 이미지)을 기준으로 점진적 개선 (양방향)

RoPE (Rotary Position Embedding) alignment: 압축률에 따라 RoPE phase를 downsampling하여 context 길이 변화에 대응합니다.

[핵심 포인트]

FramePack: 중요도 기반 프레임 압축 (고정 context 길이)
Anti-drifting 샘플링: 양방향 맥락 활용, 3가지 샘플링 방법 (Vanilla, Anti-drifting, Inverted anti-drifting)
RoPE alignment: context 길이 변화에 따른 RoPE 조정

실험 및 결과

다양한 FramePack 설정 (kernel 크기, 압축률 등)과 샘플링 방법 (Vanilla, Anti-drifting, Inverted anti-drifting)을 조합하여 실험 진행 (ablation study).
HunyuanVideo 모델을 기반으로 FramePack 적용 및 fine-tuning.
평가 지표:
비디오 품질: Clarity, Aesthetic, Motion, Dynamic, Semantic, Anatomy, Identity
Drifting metric: Start-end contrast (비디오 시작 부분과 끝 부분의 품질 차이 측정)
Human evaluation: ELO score (A/B 테스트 기반 인간 선호도 평가)
실험 결과:
Inverted anti-drifting 샘플링이 대부분의 지표에서 최고 성능. 특히 drifting metric에서 가장 우수.
Human evaluation 결과도 Inverted anti-drifting 샘플링 선호.
FramePack은 기존 모델 대비 향상된 성능을 보임 (표 2 비교).

[핵심 포인트]

실험: FramePack 다양한 설정 & 샘플링 방법 조합, HunyuanVideo 모델 기반
평가: 비디오 품질, drifting metric, human evaluation
결과: Inverted anti-drifting 샘플링 + FramePack → 최고 성능 (특히 드리프트 감소, 인간 선호도 높음)

결론 및 한계

FramePack은 프레임 압축과 anti-drifting 샘플링을 통해 비디오 생성 모델의 망각 및 드리프트 문제를 효과적으로 해결합니다.
FramePack을 통해 더 긴 영상을 생성하면서도 계산량은 이미지 생성 수준으로 유지하고, 비디오 품질까지 향상시킬 수 있습니다.
기존 비디오 diffusion 모델에 쉽게 적용 가능하며, 다양한 compression variant를 통해 더 넓은 분야에 활용될 수 있습니다.
한계: FramePack 자체의 한계보다는, diffusion model 기반 모델의 일반적인 한계를 공유 (ex. 샘플링 속도, 생성 다양성 등). 향후 다양한 compression variant 연구 및 application 확장 필요.

[핵심 포인트]

결론: FramePack = 망각 & 드리프트 해결, 긴 영상 고품질 생성, 계산 효율성 향상
기여: 비디오 생성 모델의 '장기 기억' 및 '안정성' 확보, 다양한 application 가능성 제시
향후 연구: compression variant 개발, application 확장

한 줄 요약

FramePack: 비디오 생성 모델, 이제 '장기 기억' 능력과 '안정적인 품질'까지 갖추다!

LIST

'AI논문' 카테고리의 다른 글

[논문리뷰] Liquid: Language Models are Scalable Multi-modal Generators (0)	2025.04.18
[논문리뷰] Antidistillation Sampling (0)	2025.04.18
[논문리뷰] A Strategic Coordination Framework of Small LLMs Matches Large LLMs in Data Synthesis (0)	2025.04.18
[논문리뷰] WORLDMEM: Long-term Consistent World Simulation with Memory (0)	2025.04.18
[논문리뷰] CLIMB: CLustering-based Iterative Data Mixture Bootstrapping for Language Model Pre-training (0)	2025.04.18

현재글[논문리뷰] Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

논문번역

papersummary 님의 블로그 입니다.

다국어 llm, nlp, 트랜스포머, 이미지생성, video generation, SFT, 경량화, rl, 번역, LLaMa, llm, am-thinking-v1, text-to-audio, data, Ai, nvidia, Google, minimax-speech, 논문, vlm, MLLM, 강화학습, univla, ai 오디오 생성, vision-language model, vision-language, Diffusion, 이미지 생성, ai agent, 리뷰,

Today :
Yesterday :

일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

논문번역

[논문리뷰] Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

FramePack: 비디오 생성 모델, 이제 '장기 기억' 능력 갖추다! (ft. 드리프트 방지 샘플링)

서론

기존 연구

방법론

실험 및 결과

결론 및 한계

한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

티스토리툴바

[논문리뷰] Packing Input Frame Context in Next-Frame Prediction Models for Video Generation

FramePack: 비디오 생성 모델, 이제 '장기 기억' 능력 갖추다! (ft. 드리프트 방지 샘플링)

서론

기존 연구

방법론

실험 및 결과

결론 및 한계

한 줄 요약

'AI논문' 카테고리의 다른 글

'AI논문'의 다른글

관련글

티스토리툴바