Ajuste fino de LLM sin aprendizaje por refuerzo: Presentamos la Optimización Directa de Preferencias (DPO)

2025-05-28

La plataforma Together ahora admite la Optimización Directa de Preferencias (DPO), una técnica para alinear los modelos de lenguaje con las preferencias humanas sin aprendizaje por refuerzo. La DPO entrena modelos directamente en datos de preferencia — indicaciones, respuestas preferidas y respuestas no preferidas — lo que resulta en asistentes de IA más útiles, precisos y personalizados. En comparación con los métodos tradicionales de aprendizaje por refuerzo, la DPO es más simple, eficiente y fácil de implementar. Esta publicación detalla el funcionamiento de la DPO, su uso y ejemplos de código, y recomienda un proceso de dos etapas: ajuste fino supervisado (SFT) seguido de refinamiento DPO.

Leer más
IA

DeepCoder-14B: Modelo de razonamiento de código abierto que iguala al o3-mini de OpenAI

2025-04-09
DeepCoder-14B: Modelo de razonamiento de código abierto que iguala al o3-mini de OpenAI

Agentica y Together AI han lanzado DeepCoder-14B-Preview, un modelo de razonamiento de código ajustado mediante RL distribuido a partir de Deepseek-R1-Distilled-Qwen-14B. Alcanzando una impresionante precisión de 60,6% Pass@1 en LiveCodeBench, rivaliza con el o3-mini de OpenAI, utilizando solo 14B de parámetros. El proyecto publica en código abierto su conjunto de datos, código, registros de entrenamiento y optimizaciones del sistema, mostrando una receta de entrenamiento robusta basada en datos de alta calidad y mejoras algorítmicas a GRPO. Este avance democratiza el acceso a modelos de generación de código de alto rendimiento.

Leer más