O(1) Streaming-Videoprediktion mit GPU-Speicheroptimierung

2025-04-19

Ein neuartiges Videoprediktionsmodell erreicht eine O(1) Streaming-Komplexität durch optimierte GPU-Speicherplatzierung. Das Modell kodiert Eingabeframes in den GPU-Speicher und weist Frames je nach Wichtigkeit unterschiedliche Kontextlängen (Anzahl der Tokens) zu. Beispielsweise kann in HunyuanVideo die Tokenanzahl eines 480p-Frames durch Verwendung verschiedener Patchifying-Kernels von 1536 auf 192 angepasst werden. Dies ermöglicht es den wichtigsten Frames (z. B. dem Frame, der dem Prädiktionsziel am nächsten liegt), mehr GPU-Ressourcen zu nutzen, was zu erheblichen Effizienzsteigerungen führt und bemerkenswerterweise eine O(1)-Komplexität ohne komplexe algorithmische Optimierungen erreicht.