OpenAI, GPT-4o 훈련에 무단으로 유료 도서 사용했다는 비난

2025-04-02
OpenAI, GPT-4o 훈련에 무단으로 유료 도서 사용했다는 비난

AI 공개 프로젝트의 새로운 논문에서 OpenAI가 주로 O'Reilly Media의 라이선스 없는 유료 도서를 GPT-4o 모델 훈련에 사용했다는 비난을 받고 있습니다. 이 논문은 DE-COP 방법을 사용하여 GPT-4o가 O'Reilly의 유료 콘텐츠를 GPT-3.5 Turbo보다 훨씬 더 정확하게 인식한다는 것을 보여주는데, 이는 훈련 데이터에 많은 무단 데이터가 포함되어 있음을 시사합니다. OpenAI는 일부 데이터 라이선스를 보유하고 있으며 옵트아웃 메커니즘도 제공하지만, 이는 저작권과 관련된 기존의 법적 문제를 더욱 악화시키는 것입니다. 논문 저자들은 자신의 방법론의 한계를 인정하지만, 이러한 결과는 OpenAI의 데이터 확보 방법에 대한 심각한 우려를 불러일으키고 있습니다.

AI