Análise de PDF: Uma Batalha Contra a Especificação
Analisar um PDF parece simples: encontre o cabeçalho da versão, a tabela de referência cruzada, os deslocamentos de objeto e, finalmente, construa o dicionário do catálogo. No entanto, a realidade é brutal. A especificação PDF não é uma regra rígida; arquivos do mundo real estão cheios de situações não conformes, como locais de ponteiros `startxref` incorretos, dados lixo no início do arquivo e tabelas de referência cruzada malformadas. O autor, analisando um grande número de arquivos PDF reais, revela esses problemas e aponta que os visualizadores de PDF existentes funcionam porque lidam com situações não conformes. Este artigo explica os desafios da análise de PDF de uma forma fácil de entender e fornece experiência valiosa para desenvolvedores.