Conjunto de dados massivo CommonPool vazou informações pessoais sensíveis

2025-07-31
Conjunto de dados massivo CommonPool vazou informações pessoais sensíveis

Um novo estudo revela que o CommonPool, um conjunto de dados massivo contendo 12,8 bilhões de pares imagem-texto, contém grandes quantidades de informações pessoais sensíveis. Isso inclui cartões de crédito, carteiras de motorista, passaportes, certidões de nascimento, currículos e até mesmo detalhes sensíveis como histórico médico e raça. Usado para treinar vários modelos de IA, incluindo Stable Diffusion e Midjourney, as mais de 2 milhões de downloads do CommonPool significam que essas informações privadas provavelmente estão amplamente disseminadas, representando riscos significativos de privacidade. Os pesquisadores pedem maior atenção à privacidade de dados e considerações éticas na construção de conjuntos de dados em larga escala.