ChemBench: Um Benchmark para LLMs em Química

2025-06-16
ChemBench: Um Benchmark para LLMs em Química

ChemBench é um novo conjunto de dados de benchmark projetado para avaliar o desempenho de modelos de linguagem grandes (LLMs) em química. Ele apresenta uma variedade de perguntas de química abrangendo vários subcampos, categorizados por dificuldade. Os resultados mostram que os principais LLMs superam os especialistas humanos em geral, mas as limitações permanecem em questões intensivas em conhecimento e raciocínio químico. O ChemBench visa avançar os LLMs químicos e fornecer ferramentas para uma avaliação de modelos mais robusta.