RenderFormer: Neuronales Rendering mit globaler Beleuchtung ohne Szenen-spezifisches Training
RenderFormer ist eine neuronale Rendering-Pipeline, die direkt ein Bild aus einer dreiecksbasierten Szenendarstellung mit vollständigen globalen Beleuchtungseffekten rendert, ohne ein szenenspezifisches Training oder Feintuning zu benötigen. Anstatt eines physikbasierten Ansatzes formuliert es das Rendering als eine Sequenz-zu-Sequenz-Transformation: Eine Sequenz von Token, die Dreiecke mit Reflexionseigenschaften darstellen, wird in eine Sequenz von Ausgabe-Token umgewandelt, die kleine Pixel-Patches darstellen. Es verwendet eine zweistufige, auf dem Transformer basierende Pipeline: eine blickunabhängige Stufe, die den Lichttransport von Dreieck zu Dreieck modelliert, und eine blickabhängige Stufe, die Strahlbündel in Pixelwerte umwandelt, die von der blickunabhängigen Stufe geleitet werden. Keine Rasterisierung oder Raytracing erforderlich.