Duelo de LLMs: Uma Avaliação Real de 130 Prompts

2025-08-24

O autor realizou uma avaliação em situações reais de mais de uma dúzia de modelos de linguagem grandes (LLMs) em quatro categorias: programação, tarefas de administração de sistemas, explicações técnicas e prompts criativos, usando 130 prompts de seu histórico do bash. Os modelos de código aberto superaram consistentemente as opções de código fechado, como o Gemini 2.5 Pro, em precisão, velocidade e custo-benefício. O autor concluiu usando uma combinação de modelos de código aberto rápidos e baratos, complementados por modelos de código fechado mais poderosos, conforme necessário.

IA