Ciência e tecnologia

Porque é que os registos governamentais digitais são tão difíceis de manter?


Em Maio, um juiz federal ordenou que o pessoal da Casa Branca cumprisse a Lei dos Registos Presidenciais, a lei de 1978 que torna os registos oficiais do presidente propriedade pública e rege a sua preservação e eventual divulgação.

Há um mês, o Departamento de Justiça disse que a lei excedia a autoridade constitucional do Congresso. A American Historical Association e o American Oversight Group processaram, alertando que o parecer poderia permitir à Casa Branca abandonar políticas destinadas a restringir os funcionários de conduzirem negócios governamentais através de e-mail pessoal ou mensagens encriptadas. O perigo, alegaram, reside na actual perda de responsabilidade e na lacuna permanente no registo histórico.

O juiz John D. concluiu que Bates até agora diz que a lei é “provavelmente constitucional”. Mas a batalha jurídica é apenas uma parte de um desafio muito mais amplo. Os registos que revelam como os governos e as figuras públicas tomam decisões são agora gerados em e-mails, aplicações de chat e documentos na nuvem, muitas vezes dentro de sistemas proprietários cuja vida útil é medida pelos ciclos dos produtos. Preservá-los por tempo suficiente para que o público os veja tornou-se um problema artístico em si, que se torna mais difícil à medida que o tamanho aumenta. O Arquivo Nacional adicionou 463 terabytes de registros eletrônicos à sua coleção permanente somente em 2024.


Sobre apoiar o jornalismo científico

Se você gostou deste artigo, considere apoiar nosso jornalismo premiado, Inscreva-se. Ao adquirir uma assinatura, você ajuda a garantir um futuro de histórias impactantes sobre as descobertas e ideias que moldam nosso mundo hoje.


“O mundo está criando registros digitais em um ritmo que nenhuma organização previu”, diz Mike Quinn, CEO da empresa de preservação digital Preservica.

Antes que os arquivistas possam preservar um documento, este deve sobreviver o tempo suficiente para chegar às suas mãos. As leis sobre registros públicos podem exigir que eles sejam preservados, e existe tecnologia para capturar e armazenar mensagens mesmo de algumas plataformas criptografadas quando contas ou dispositivos estão configurados para retê-las. Por exemplo, a empresa de preservação digital Smarsh anuncia que pode capturar dados de mais de 100 canais de comunicação. Mas acontecimentos recentes indicam a facilidade com que registos importantes podem desaparecer, desde funcionários do Gabinete dos EUA a discutir planos militares através da aplicação encriptada Signal até à utilização pelo primeiro-ministro britânico, Keir Starmer, de mensagens desaparecidas do WhatsApp.

A mesma fragilidade também acompanha os arquivos privados. Mesmo quando indivíduos como políticos ou artistas – ou os seus bens – doam documentos físicos para uma biblioteca universitária, os materiais digitais que antes estavam ao lado deles podem ser ignorados e perdidos, diz Thorsten Rees, professor assistente da Universidade do Texas em Austin, que aplica técnicas forenses digitais ao trabalho de arquivo.

Extrair dados de um disco rígido ou unidade USB sem alterar arquivos ou metadados, como carimbos de data e hora, também requer habilidade, diz Rees. Diferentes versões de software, e até mesmo diferentes mídias de armazenamento, podem conter diferentes partes de arquivos e backups automáticos. Essas evidências fornecem pistas valiosas sobre como o documento foi elaborado e como seus criadores pensaram, mas recuperá-las e interpretá-las é um trabalho minucioso e especializado. “Esse tipo de conhecimento e experiência ainda é muito escasso”, diz ele.

Sistemas baseados em nuvem, como o Google Docs, podem manter os históricos de arquivos mais detalhados de todos os tempos, mas extrair arquivos deles sem as senhas originais e a autenticação de dois fatores apresenta seu próprio desafio, acrescenta.

A sobrevivência é apenas o primeiro passo. O material também deve permanecer legível à medida que os programas mudam. “Todos esses tipos de conteúdo digital não envelhecem como o papel”, diz Quinn. “Eles se tornam ilegíveis quando os formatos ficam desatualizados.”

Isso geralmente exige a migração regular de materiais, como documentos de processamento de texto, planilhas e arquivos CAD, para formatos de arquivo atuais, mantendo um registro preciso do que exatamente foi concluído. Christopher J diz: Broome, da Biblioteca Urbana-Champaign da Universidade de Illinois, disse que se tais conversões fossem tratadas de maneira descuidada, poderiam distorcer o texto original. Aparentemente foi o que aconteceu quando o Departamento de Justiça divulgou e-mails vinculados ao falecido financista e criminoso sexual Jeffrey Epstein, que foram prejudicados por erros de exposição.

Ainda é difícil usar o arquivo salvo. Os arquivos digitais podem conter materiais protegidos por direitos autorais juntamente com correspondências confidenciais, incluindo cartas pessoais e contas médicas, localizadas nas mesmas caixas de entrada e pastas que contêm os arquivos que o pesquisador deseja. Isto torna as instituições cautelosas quanto à abertura de coleções em grande escala. Embora um ficheiro digital possa, teoricamente, ser aberto a partir de qualquer lugar com ligação à Internet, os arquivos ainda exigem rotineiramente uma visita ao local, se é que permitem o acesso, diz Liz Gelant, professora de património cultural digital na Universidade de Loughborough. Os pesquisadores devem agendar e pagar pelas viagens e, em seguida, pesquisar vastas coleções de sistemas potencialmente desconhecidos no tempo que tiverem.

As “grandes quantidades” de material digital produzido por agências governamentais dos EUA também retardaram o processamento de solicitações da Lei de Liberdade de Informação, diz Jason R. Barron, professor da Escola de Informação da Universidade de Maryland e ex-diretor de litígios da Administração Nacional de Arquivos e Registros. As agências devem primeiro tentar localizar arquivos potencialmente relevantes, muitas vezes pesquisando palavras-chave, e depois remover ou redigir qualquer coisa classificada, sensível ou isenta de divulgação.

“Não é incomum que um candidato espere anos, ou em alguns casos até mais de uma década, para receber respostas completas”, diz Baron.

A automação pode ajudar, com muita supervisão humana. Num artigo de 2025, Baron explorou o uso de inteligência artificial e técnicas de aprendizagem automática para identificar parágrafos potencialmente isentos ao abrigo da Lei de Liberdade de Informação que protege o “processo deliberativo” da agência. O software também pode ajudar a detectar informações confidenciais, como números de seguro social, e extrair texto de documentos digitalizados ou vídeos arquivados por meio de reconhecimento óptico de caracteres e transcrição automatizada.

A IA também pode exibir arquivos relevantes para uma questão específica em um arquivo extenso, incluindo documentos que uma simples pesquisa por palavra-chave pode perder. Como aponta Baron, os mesmos métodos já estão sendo usados ​​em casos de e-discovery, quando grandes coleções de arquivos de empresas, e-mails e outros registros devem frequentemente ser pesquisados ​​em busca de material relevante para o processo.

No entanto, os desafios permanecem, diz Gaillant, que lidera um projeto internacional sobre aplicações de inteligência artificial em registos governamentais. Uma delas é a falta de dados de e-mail disponíveis publicamente para treinar a IA para lidar com mensagens de diferentes tipos e origens. Em parte devido a preocupações com a privacidade, diz Gelant, os investigadores ainda recorrem frequentemente a um conjunto de cartas de décadas atrás que investigadores do governo obtiveram da Enron.

Mesmo que a IA melhore na análise de materiais de arquivo, é pouco provável que alivie os investigadores humanos da necessidade de lerem eles próprios documentos relevantes. “Ainda é importante para um usuário humano voltar aos documentos e ser capaz de ler apenas e-mails individuais para entender o contexto”, diz ela.

Tudo isto pressupõe que os registos sobreviverão o tempo suficiente para serem lidos, o que foi exactamente o que tornou os combates em Washington tão duvidosos. Os arquivistas e o software em que confiam estão a trabalhar para garantir isso, antes que os registos das decisões de hoje fiquem presos em formatos mortos ou apagados dos fios sem que o público tenha a oportunidade de os ver.



Link da fonte

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *