ChemBench: Um Benchmark para LLMs em Química
2025-06-16

ChemBench é um novo conjunto de dados de benchmark projetado para avaliar o desempenho de modelos de linguagem grandes (LLMs) em química. Ele apresenta uma variedade de perguntas de química abrangendo vários subcampos, categorizados por dificuldade. Os resultados mostram que os principais LLMs superam os especialistas humanos em geral, mas as limitações permanecem em questões intensivas em conhecimento e raciocínio químico. O ChemBench visa avançar os LLMs químicos e fornecer ferramentas para uma avaliação de modelos mais robusta.
IA
Química