大型语言模型能否创造出更好的训练方法?

2024-06-13

Sakana AI 的研究人员正在探索利用大型语言模型 (LLM) 来改进 AI 研究本身,尤其是在偏好优化算法方面。他们开发了一种名为“LLM²”的自我参照改进过程,使用 LLM 提出和改进新的偏好优化算法。这种方法减少了对人工干预和计算资源的依赖。研究发现,LLM 可以生成优于人工设计的目标函数,其中一种名为 DiscoPOP 的算法在多个评估任务中均达到了最先进的性能。

36
未分类