Hildelies Balk, Diretora do Projeto IMPACT: “O problema em transformar um documento histórico num texto legível por uma máquina é que como é tão antigo, tudo é diferente de um documento moderno, tem fontes antigas, palavras antigas e uma organização muito complicada.”
Todos os anos, milhões de livros são digitalizados e colocados online, mas uma vez digitalizados permanecem inúmeros erros, pois os computadores têm dificuldade na leitura de textos antigos, com fontes e grafias desconhecidas.
Clemens Neudecker, Coordenador técnico para Projetos Europeus, Biblioteca de Koninklijke: “Este é o “Princípios Matemáticos” de Isaac Newton. Nota-se o que apelidamos de trespassar, é a tinta da página ao lado que se vê através do papel, vê-se que o papel está deformado e que existe um longo “s” que pode muito facilmente ser confundido com um “f”. “
Investigadores da Biblioteca Nacional da Holanda passaram quatro anos a trabalhar num projeto europeu, com o intuito melhorar as ferramentas de programação que permitem ler livros antigos.
Hildelies Balk: “Melhoramos o software para uma melhor qualidade de imagem, reconhecimento ótico de caracteres, pós-correção de documentos e linguagem tecnológica para o tornar mais acessível.”
Este conhecimento já foi integrado no programa de digitalização líder de mercado e os resultados têm sido muito melhores.
Clemens Neudecker: “Aqui temos um exemplo da imagem a ser esticada. As margens também precisam de ser cortadas. O próximo passo é transformar isto numa imagem a preto e branco, para aumentar o contraste do fundo e do primeiro plano.”
“No fim do processo, o utilizador obtém o texto completamente reconhecido com as características estruturais também, os parágrafos por exemplo e os destaques também são detetados.”
O projeto afirma conseguir uma melhoria de pelo menos 15% na precisão do texto digitalizado.
O que significa que arquivos valiosos poderão ficar mais acessíveis.
Hildelies Balk: “O texto que não é totalmente digital é virtualmente invisível. Toda a gente está habituada a usar um motor de busca e procurar por uma palavra, se não a encontrar é porque basicamente não existe.”
http://www.digitisation.eu/