Meta baixa 81 TB de livros piratas via torrent para treinar IA
A Meta, empresa controladora do Facebook, Instagram e WhatsApp, está no centro de uma polêmica envolvendo o uso de material protegido por direitos autorais para treinar seus modelos de inteligência artificial. Documentos judiciais revelam que a companhia baixou mais de 81 terabytes de livros pirateados através de redes de compartilhamento torrent, levantando questões éticas e legais sobre as práticas da empresa no desenvolvimento de IA.
O caso veio à tona durante uma ação judicial movida por diversos autores e escritores contra a Meta nos Estados Unidos. Os demandantes alegam que a empresa fez o download não autorizado de suas obras a partir de fontes ilícitas, utilizando-as sem compensação para alimentar seus modelos de linguagem, como o LLaMA (Large Language Model Meta AI).
Além do volume impressionante de dados obtidos, o que chama a atenção é a aparente ciência da ilegalidade por parte dos funcionários da Meta. Mensagens internas trocadas pela equipe demonstram que havia conhecimento de que o download via torrent de livros de bases de dados como LibGen era uma atividade ilegal, potencialmente comprometedora para a empresa.
Controvérsia sobre uso de dados pirateados
A Meta já havia admitido anteriormente o uso de fontes não oficiais para treinar sua IA, mas as novas evidências trazem detalhes alarmantes sobre a extensão dessa prática. Além dos 80,6 TB inicialmente baixados do LibGen, a empresa teria feito o download de mais 35,7 TB de livros da mesma plataforma em uma tentativa posterior, além de obter pelo menos 81,7 TB de dados do Anna's Archive, outro serviço que disponibiliza obras sem autorização dos detentores dos direitos.
O método utilizado pela Meta para obtenção desses dados agrava ainda mais a situação. Ao usar o protocolo BitTorrent, a empresa não apenas baixou conteúdo protegido por direitos autorais, mas também contribuiu para a disseminação desse material, atuando como "seeder" (fornecedor) para outros usuários da rede. Essa prática pode ter implicações legais sérias, indo além da simples violação de direitos autorais.
Mensagens internas revelam o desconforto de alguns funcionários com a situação. Um pesquisador sênior de IA da Meta expressou: "Acho que baixar torrent de um laptop corporativo não parece certo", seguido de um emoji de risada, indicando a consciência da impropriedade da ação. Outros colaboradores sugeriram o uso de VPNs para mascarar a atividade, evidenciando tentativas de ocultar as práticas da empresa.
![]() |
Debate sobre ética no uso de dados para treinamento de IA ganha novos contornos com revelações sobre práticas da Meta. (Imagem: Reprodução/Canva) |
Implicações legais e éticas
O caso levanta questões cruciais sobre a ética no desenvolvimento de inteligência artificial e os limites do "uso justo" de obras protegidas por direitos autorais. A Meta argumenta que o treinamento de modelos de IA a partir de bases de dados e livros inteiros se enquadra no conceito de "fair use", uma doutrina legal que permite o uso limitado de material protegido sem a necessidade de permissão do detentor dos direitos.
No entanto, a escala e a natureza das ações da Meta, incluindo o download e a distribuição de conteúdo pirateado, complicam significativamente esse argumento. A empresa não apenas utilizou o material para treinamento, mas também participou ativamente na disseminação de conteúdo protegido, ainda que de forma limitada, através do protocolo BitTorrent.
As evidências de que a Meta tentou ocultar suas atividades, usando servidores externos à empresa e modificando configurações do cliente torrent para minimizar o upload, podem ser interpretadas como reconhecimento da ilegalidade das ações. Isso potencialmente enfraquece a defesa da empresa baseada no "uso justo" e pode levar a consequências legais significativas.
Futuro do treinamento de IA e direitos autorais
Este caso coloca em evidência a necessidade urgente de uma discussão mais ampla sobre as práticas de obtenção e uso de dados para o treinamento de modelos de IA. À medida que a tecnologia avança rapidamente, a legislação e as práticas éticas lutam para acompanhar, criando uma zona cinzenta onde empresas de tecnologia operam.
A indústria de IA enfrenta um dilema: a necessidade de vastos conjuntos de dados para treinar modelos eficazes versus a obrigação de respeitar direitos autorais e propriedade intelectual. O caso da Meta pode servir como um ponto de inflexão, levando a uma reavaliação das práticas de coleta de dados e, potencialmente, a novas regulamentações ou diretrizes éticas para o setor.
À medida que o processo legal se desenrola, é provável que vejamos um debate intensificado sobre o equilíbrio entre inovação tecnológica e proteção dos direitos dos criadores. O resultado deste caso pode estabelecer precedentes importantes para o futuro do desenvolvimento de IA, influenciando como empresas abordam a obtenção e o uso de dados protegidos por direitos autorais no treinamento de seus modelos.