Analyse de PDF : une bataille contre les spécifications
Analyser un PDF semble simple : trouver l’en-tête de version, la table de référence croisée, les décalages d’objet et enfin construire le dictionnaire du catalogue. La réalité est cependant brutale. La spécification PDF n’est pas une règle absolue ; les fichiers réels sont pleins de situations non conformes, telles que des positions incorrectes de pointeurs `startxref`, des données indésirables au début du fichier et des tables de référence croisée mal formées. En analysant un grand nombre de fichiers PDF réels, l’auteur révèle ces problèmes et souligne que les visionneuses PDF existantes fonctionnent parce qu’elles gèrent les situations non conformes. Cet article explique les défis de l’analyse de PDF de manière simple et fournit une expérience précieuse aux développeurs.