테스트 시간 학습 트랜스포머를 사용한 1분 분량 비디오 생성
2025-04-08
현재의 트랜스포머 모델은 긴 컨텍스트에 대한 자기 주의 계층의 비효율성으로 인해 1분 분량 비디오 생성에 어려움을 겪고 있습니다. 본 논문에서는 은닉 상태 자체가 신경망인 테스트 시간 학습(TTT) 계층을 탐구합니다. 이를 통해 표현력이 향상됩니다. 사전 훈련된 트랜스포머에 TTT 계층을 추가하면 텍스트 스토리보드에서 1분 분량 비디오를 생성할 수 있습니다. 톰과 제리 만화 데이터 세트를 사용한 실험에서 Mamba 2 및 Gated DeltaNet과 같은 기준선과 비교하여 TTT 계층이 비디오 일관성과 스토리텔링을 크게 향상시켜 인간 평가에서 34 Elo 포인트의 이점을 달성했습니다. 50억 매개변수 모델의 제약으로 인해 아티팩트가 남아 있지만, 이 연구는 더 길고 복잡한 이야기를 가진 비디오로 확장 가능한 유망한 접근 방식을 보여줍니다.
AI
테스트 시간 학습