La inmersión profunda de Andrej Karpathy en LLMs: Un resumen

Tags populares：

Virtualización seguridad DNS verificación formal análisis de alcanzabilidad errores del compilador conflicto de macro extensión web framework de desarrollo Gráficos de mapa de bits inconsistencias de API Todos los tags

La inmersión profunda de Andrej Karpathy en LLMs: Un resumen

2025-02-10

Andrej Karpathy lanzó recientemente un video de 3,5 horas que detalla el funcionamiento interno de los Modelos de Lenguaje Grandes (LLMs) como ChatGPT. Este resumen cubre aspectos clave, desde la adquisición de datos de preentrenamiento y la tokenización hasta la inferencia, el ajuste fino y el aprendizaje por refuerzo. Explica cómo los LLMs aprenden patrones de texto de internet durante el preentrenamiento y cómo el ajuste fino supervisado y el aprendizaje por refuerzo mejoran la calidad de la respuesta y reducen las alucinaciones. El resumen también aborda conceptos como 'memoria de trabajo' y 'memoria a largo plazo', el uso de herramientas y la autoconciencia, y ofrece una visión del futuro de los LLMs, incluidas las capacidades multimodales y los modelos de agentes autónomos.

(anfalmushtaq.com)

El Arte de las Variables Globales en C++

Sandbox basado en procesos de Verona: Ejecutando código no confiable de forma segura