Fotos de crianças brasileiras são usadas ilicitamente para treinar IA

Mais de 170 imagens e dados pessoais de crianças brasileiras coletaram-se indevidamente para um banco de dados público que serviu para treinar algoritmos de inteligência artificial, segundo um novo relatório da Human Rights Watch divulgado nesta segunda-feira, 10. As fotos e os dados, retirados de conteúdos publicados desde 2023 até a década de 1990, jamais deveriam ter sido utilizados para treinar IA.

O banco de dados LAION-5B, amplamente utilizado por startups de tecnologia, inclui links diretos para fotografias de crianças. Em alguns casos, essas imagens expõem nomes e locais, como no caso de uma menina fotografada em um hospital em Santa Catarina. Essa exposição direta coloca as crianças em risco de exploração e dano, pois suas identidades tornam-se facilmente rastreáveis.

Clique AQUI e Participe do Nosso Canal no WhatsApp!

Extensão da violação de dados

A Human Rights Watch, ao analisar menos de 0,0001% dos mais de 5,85 bilhões de pares de imagens e legendas do LAION-5B, indicou que o número real de fotos de crianças brasileiras usadas sem consentimento provavelmente é muito maior. As fotos, que variam desde cenas familiares íntimas até eventos públicos escolares, mostram a vastidão e a invasividade da coleta de dados.

Substituição de CEO por IA; as empresas com dificuldades seriam as primeiras

Essa prática viola a privacidade das crianças e ainda facilita o desenvolvimento de tecnologias de deepfakes. Essas tecnologias podem criar imagens manipuladas de menores para fins maliciosos. Por isso, a Human Rights Watch alerta que tais atividades aumentam substancialmente o risco de abuso das imagens coletadas.

Em resposta ao relatório, a organização alemã LAION, que administra o LAION-5B, desativou o banco de dados. Além disso, iniciou uma colaboração com instituições como a Internet Watch Foundation e o Centro Canadense para a Proteção da Criança para remover conteúdos ilegais.

Representantes do YouTube, de onde se coletaram originalmente alguns dos dados, declararam que a plataforma não autoriza a coleta de conteúdo para uso em IA e que tratam violações dos termos de serviço com seriedade.