ChemBench: Un banco de pruebas para LLM en química
2025-06-16
ChemBench es un nuevo conjunto de datos de referencia diseñado para evaluar el rendimiento de los modelos de lenguaje grandes (LLM) en química. Incluye una variedad de preguntas de química que abarcan varios subcampos, categorizadas por dificultad. Los resultados muestran que los modelos LLM líderes superan a los expertos humanos en general, pero las limitaciones persisten en preguntas intensivas en conocimiento y razonamiento químico. ChemBench tiene como objetivo avanzar en los LLM químicos y proporcionar herramientas para una evaluación de modelos más robusta.