OpenAI、GPT-4oの学習に無許可の有料書籍を使用したと非難される
2025-04-02

AI Disclosures Projectの新たな論文で、OpenAIが、主にO'Reilly Mediaからのライセンスのない有料書籍をGPT-4oモデルの学習に使用したと非難されている。この論文はDE-COP手法を用いて、GPT-4oがO'Reillyの有料コンテンツをGPT-3.5 Turboよりもはるかに高い精度で認識していることを示しており、学習データに大量の無許可データが含まれていることを示唆している。OpenAIは一部のデータライセンスを保有し、オプトアウトメカニズムも提供しているものの、これは著作権に関する既存の法的課題に拍車を掛けるものとなる。論文の著者は、自身の方法論の限界を認めているものの、その知見はOpenAIのデータ取得方法に関する深刻な懸念を引き起こしている。
AI