Última hora

Última hora

Digitalizar o passado

Em leitura:

Digitalizar o passado

Tamanho do texto Aa Aa

Hildelies Balk, Diretora do Projeto IMPACT: “O problema em transformar um documento histórico num texto legível por uma máquina é que como é tão antigo, tudo é diferente de um documento moderno, tem fontes antigas, palavras antigas e uma organização muito complicada.”

Todos os anos, milhões de livros são digitalizados e colocados online, mas uma vez digitalizados permanecem inúmeros erros, pois os computadores têm dificuldade na leitura de textos antigos, com fontes e grafias desconhecidas.

Clemens Neudecker, Coordenador técnico para Projetos Europeus, Biblioteca de Koninklijke: “Este é o “Princípios Matemáticos” de Isaac Newton. Nota-se o que apelidamos de trespassar, é a tinta da página ao lado que se vê através do papel, vê-se que o papel está deformado e que existe um longo “s” que pode muito facilmente ser confundido com um “f”. “

Investigadores da Biblioteca Nacional da Holanda passaram quatro anos a trabalhar num projeto europeu, com o intuito melhorar as ferramentas de programação que permitem ler livros antigos.

Hildelies Balk: “Melhoramos o software para uma melhor qualidade de imagem, reconhecimento ótico de caracteres, pós-correção de documentos e linguagem tecnológica para o tornar mais acessível.”

Este conhecimento já foi integrado no programa de digitalização líder de mercado e os resultados têm sido muito melhores.

Clemens Neudecker: “Aqui temos um exemplo da imagem a ser esticada. As margens também precisam de ser cortadas. O próximo passo é transformar isto numa imagem a preto e branco, para aumentar o contraste do fundo e do primeiro plano.”

“No fim do processo, o utilizador obtém o texto completamente reconhecido com as características estruturais também, os parágrafos por exemplo e os destaques também são detetados.”

O projeto afirma conseguir uma melhoria de pelo menos 15% na precisão do texto digitalizado.

O que significa que arquivos valiosos poderão ficar mais acessíveis.

Hildelies Balk: “O texto que não é totalmente digital é virtualmente invisível. Toda a gente está habituada a usar um motor de busca e procurar por uma palavra, se não a encontrar é porque basicamente não existe.”

http://www.digitisation.eu/