LLMs falham em verificação de fatos do mundo real: uma divisão acentuada nas capacidades

2025-06-05
LLMs falham em verificação de fatos do mundo real: uma divisão acentuada nas capacidades

O autor testou vários modelos de linguagem grandes (LLMs) em uma tarefa complexa de verificação de fatos do mundo real sobre os efeitos de longo prazo da medicação para TDAH. Os resultados revelaram uma lacuna significativa de desempenho: alguns LLMs citaram e resumiram com precisão documentos do mundo real, enquanto outros sofreram de graves 'alucinações de links' e interpretações incorretas da fonte. O autor argumenta que os métodos atuais de teste de LLM são muito simplistas e não conseguem avaliar adequadamente sua capacidade de lidar com informações complexas, pedindo maior atenção a essa questão crítica.