Modelo Llama 3.1 do Meta memoriza partes significativas de livros protegidos por direitos autorais

Uma nova pesquisa revela que o modelo de linguagem grande Llama 3.1 70B do Meta memorizou surpreendentemente grandes partes de livros protegidos por direitos autorais, memorizando 42% de Harry Potter e a Pedra Filosofal. Isso é significativamente maior do que seu predecessor, Llama 1 65B, levantando sérias preocupações sobre direitos autorais. Os pesquisadores avaliaram de forma eficiente a 'memorização' do modelo calculando a probabilidade de gerar sequências de texto específicas, em vez de gerar um grande volume de texto. Essa descoberta pode impactar significativamente os processos judiciais sobre direitos autorais contra o Meta e pode levar os tribunais a revisitar os limites do uso justo no treinamento de modelos de IA. Embora o modelo tenha memorizado menos livros obscuros, a memorização excessiva de livros populares destaca os desafios dos modelos de linguagem grandes em relação a questões de direitos autorais.