LLMs falham na identificação de fontes: um benchmark ao vivo
2025-08-04

Um desenvolvedor testou o GPT-4 e o Gemini em um benchmark ao vivo e continuamente atualizado de fontes não identificadas do fórum DaFont. Apesar de fornecer contexto como imagens, títulos e descrições, ambos os LLMs tiveram um desempenho péssimo. Isso destaca as limitações mesmo em tarefas de classificação de imagens aparentemente simples, sugerindo que os LLMs estão longe de serem uma solução universal. O projeto usa scripts Python para raspagem de dados, GitHub Actions para automação, JSON para armazenamento e Observable para um painel dinâmico.