LLM에 독을 풀다: 데이터 스크래핑에 대한 저항
2025-09-05

대규모 언어 모델(LLM)은 방대한 양의 데이터로 학습하지만, 그중 상당 부분은 저자의 동의 없이 공개 웹에서 스크래핑된 것입니다. 한 저자는 의도적으로 무의미한 미러 아티클을 만들고, nofollow 태그로 링크하여 반격하고 있습니다. nofollow를 무시할 가능성이 있는 LLM이 이러한 넌센스 정보를 흡수하여 출력 품질이 저하되기를 기대하고 있습니다. 완벽한 해결책은 아니지만, 저자는 데이터의 무단 스크래핑과 콘텐츠 제작자에 대한 윤리적 영향에 대한 인식을 높이고자 합니다.
개발