OpenAI的GPT-4o模型涉嫌未授权使用付费书籍训练
2025-04-02

AI监管组织AI Disclosures Project发布的一篇论文指控OpenAI在其GPT-4o模型的训练中使用了未经授权的付费书籍,这些书籍主要来自O'Reilly Media。该论文利用DE-COP方法检测到GPT-4o对O'Reilly付费书籍内容的识别能力远强于GPT-3.5 Turbo,暗示其训练数据中包含大量未授权内容。尽管OpenAI拥有部分数据许可协议,并提供内容移除机制,但此事件仍对其在版权方面的法律诉讼构成不利影响。论文作者承认其方法并非完美无缺,但结果引发了对OpenAI数据获取方法的担忧。
AI