Por que razão os media estão a impedir a IA de aceder a arquivos na Internet?

Pessoa lê o jornal New York Times - Direitos de autor Beyzanur K. /Pexels

Direitos de autor Beyzanur K. /Pexels

Publicado a 01/05/2026 - 16:24 GMT+2•Últimas notícias 17:03

As empresas de IA que utilizam conteúdos noticiosos arquivados podem estar a cometer uma grave violação das leis de direitos de autor, especialmente num contexto em que estão em curso processos judiciais contra empresas como a OpenAI e a Perplexity.

Cerca de 245 organizações de notícias de todo o mundo, em nove países, estão a tentar bloquear os rastreadores do Internet Archive. Em causa estão bots de software automatizados que capturam, exibem e arquivam conteúdos de páginas web na interface pública do Internet Archive, a Wayback Machine.

O arquivo reúne mais de um bilião de páginas web que remontam a 1996, o que faz dele um dos maiores repositórios públicos de informação do mundo. Isto inclui artigos antigos de grandes órgãos de comunicação social como a CNN, o The New York Times, o The Guardian e o USA Today.

Estas páginas web são usadas para vários fins, por exemplo como fontes primárias para historiadores ou para comprovar alterações feitas depois da publicação.

Várias organizações noticiosas procuram agora bloquear os rastreadores, numa altura em que empresas de IA utilizam os conteúdos do arquivo para treinar grandes modelos de linguagem (LLM) sem oferecer uma remuneração justa ou obter autorização.

Mais de 20 grandes organizações noticiosas já bloqueiam o ia_archiverbot, o principal rastreador web que o Internet Archive usa para a Wayback Machine, segundo uma análise da empresa de deteção de IA Originality AI.

No entanto, pelo menos um dos quatro bots de rastreio desse arquivo é bloqueado por 241 sites noticiosos em todo o mundo. Uma fatia significativa destes sites bloqueados pertence à USA Today Co, o maior grupo de edição de jornais dos Estados Unidos. Na prática, centenas de publicações locais ficam assim apagadas dos registos históricos.

Os riscos da utilização de conteúdos de arquivo para treinar IA

Os conteúdos noticiosos arquivados fornecem enormes quantidades de texto e imagens de alta qualidade para treinar modelos de IA em grande escala, de forma a que escrevam de maneira mais humana. Estes conteúdos estão disponíveis através de URL e de uma interface API, que permite que diferentes softwares comuniquem entre si e solicitem dados, atuando como uma ponte entre sistemas.

Isto torna ainda mais fácil para as empresas de IA acederem a dados arquivados e treinarem modelos.

Outra vantagem é que o conteúdo do Internet Archive já está estruturado, atribuído e datado.

Grande parte dos dados do Internet Archive já foi encontrada em conjuntos de dados essenciais para o treino de IA. No entanto, isto constitui uma grande fraqueza para as organizações noticiosas, que já estão a processar empresas de IA, como a Perplexity e a OpenAI, por eventuais violações de direitos de autor.

"A questão é que o conteúdo do Times no Internet Archive está a ser utilizado por empresas de IA em violação da lei de direitos de autor para competir diretamente connosco", afirmou Graham James, porta-voz do jornal The New York Times, citado pelo The Next Web.

"O Times investe uma enorme quantidade de recursos na produção de jornalismo original, e esse trabalho não deve ser utilizado sem a nossa autorização."

Outras organizações, como o The Guardian, adotaram uma abordagem mais conservadora, limitando, em vez de bloquear completamente, o acesso ao Archive.

Internet Archive fala de "danos colaterais"

O diretor da Wayback Machine, Mark Graham, tem defendido que se trata apenas de "danos colaterais" e que os verdadeiros culpados são as empresas de IA que acedem a conteúdos antigos através das interfaces do arquivo.

No entanto, o Internet Archive tomou medidas próprias para limitar esta situação. Estas incluem impedir downloads em grande escala de alguns materiais do site e limitar a extração automatizada em certos casos.

Graham destacou que o Archive funciona como um método fundamental de preservação. Sem isso, artigos que não estão arquivados podem ser editados sem autorização ou responsabilização. Isso pode ir desde alterar ou remover citações, corrigir erros ou redirecionar alegações e declarações oficiais.

Atualmente, essas alterações são monitorizadas pela Wayback Machine.

Isto levou algumas organizações noticiosas a tentarem colaborar com o Internet Archive para encontrar entendimentos ou soluções alternativas aceitáveis que envolvam a limitação do acesso em vez de bloqueios definitivos.

Da mesma forma, o grupo sem fins lucrativos de defesa dos direitos digitais Fight for the Future também lançou uma petição, já assinada por 100 jornalistas em atividade, para protestar contra este bloqueio. Isto acontece especialmente numa altura em que os registos públicos e a história são cada vez mais contestados.

Ir para os atalhos de acessibilidade

Por que razão os media estão a impedir a IA de aceder a arquivos na Internet?

As empresas de IA que utilizam conteúdos noticiosos arquivados podem estar a cometer uma grave violação das leis de direitos de autor, especialmente num contexto em que estão em curso processos judiciais contra empresas como a OpenAI e a Perplexity.

Os riscos da utilização de conteúdos de arquivo para treinar IA

Internet Archive fala de "danos colaterais"

Notícias relacionadas

Lucro da Alphabet, dona da Google, sobe 81% em balanço dos gigantes tecnológicos

Vídeos de animais gerados por IA distorcem visão da vida selvagem, alertam investigadores

Anthropic paga 1,3 mil milhões de euros em maior acordo de direitos de autor de sempre

FIFA investiga Argentina após final do Mundial

Argentina: petição do Mundial quase bate recorde do Guinness

De 'Following' a 'The Odyssey': todos os filmes de Nolan ordenados

Presidente da Argentina proibido de visitar Bolsonaro na prisão

Irão exporta 6 mil milhões de dólares em petróleo para a Ásia em breve trégua com EUA