PÁXINA DE RECURSOS   En castellano ►


DIXITALIZAR DOCUMENTOS: A BIBLIOTECA VIRTUAL

A imaxe dixital non somente revolucionou o mundo da fotografía profesional ou a de consumo. Un campo no que está a ter unha tremenda repercusión é o dos arquivos, bibliotecas e hemerotecas. Actualmente, estanse vendendo unha chea de cámaras dixitais e escáneres que teñen como destiño converter inmensos fondos documentais a soporte dixital.

Primeiro foi a introducción de produtos audiovisuais e multimedia. Logo, o servizo de consulta de catálogos web, mediante o que podemos localizar un libro, unha revista ou unha lámina; saber se está disponible; consultar a sua ficha bibliográfica, e mesmo ler o seu contido.

Dende hai uns anos, foron incorporandose aos fondos documentos en soporte dixital que mesmo se poden ler na sua totalidade pola rede, e xa apareceron os primeiros libros feitos directamente para este medio. Os fondos máis valiosos dos arquivos documentais están normalmente impresos en papel. Moitos deles son antigos, algúns estropeados polo tempo e o uso, ou con problemas de conservación. A dixitalización vai supor un grande esforzo, pero moitas bibliotecas universitarias e estatais xa puxeron mans á obra.

O certo é que, a diferencia do papel, o soporte dixital compatibiliza ben os seus dous máximos intereses: a disponibilidade da información e a preservación dos orixinais.

Trátase de dixitalizar texto e imaxe. Un bo número de orixinais son monocromos e trátanse, polo tanto, en escala de grises, aínda que capturalos en cor pode axudar a eliminar eventuais manchas no papel. Moitas das ilustracións son gravados impresos coa mesma tinta calcográfica que o texto, polo que o seu tratamento non difire demasiado. Noutras ocasións, as imaxes e mesmo o texto son en cor.

Outra característica dos textos antigos é que, a efectos técnicos, son imaxes. Moitos son manuscritos, e noutros que xa presentan tipografía de imprenta o propio aspecto da páxina é parte sustancial.

Para os libros máis modernos, nos que o interese está na información, o proceso pode continuar co recoñecemento óptico de caracteres -OCR-, que os transformará en texto editable. Pode facerse daquela unha nova paxinación de texto e imaxes, elaborando o libro dixital como unha nova versión -moito máis manexable- do orixinal.

Formatos e tamaño
Además da sua utilidade, os recursos informáticos que consume o texto editable son ridículos en comparación cunha imaxe.

Cada páxina DIN-A4 branca chea de texto negro en Arial ou Times de 11 puntos supón en formato RTF ou nun documento PDF uns 15 KB, mentras que como imaxe en escala de grises e a 240 ppp de resolución ocupa en memoria 5,5 MB, que poden converterse en 200 KB ao gardar un arquivo TIFF con compresión LZW.

Contrariamente ao que se poida pensar, o texto negro ben definido sobre branco puro difícilmente se reduce máis con JPEG, mesmo á compresión máxima e coa degradación que produce. Sen embargo, a nosa páxina si que pode baixar a uns 150 KB en formato GIF con 16 niveis de gris, suficientes para non endurecer demasiado os caracteres, e mesmo a menos de 100 KB en PNG de 8 bits.

e
Recorte ao 100% de zoom dun texto, en formato PNG (1,21 KB)
indistinguible do orixinal (37 KB) e das copias en TIFF
(LZW, 23,7 KB) ou en GIF (1,38 KB).

e
Copia gardada en JPEG coa opción Gardar como,
a un nivel de calidade de 0 (24,2 KB).

e
Copia gardada en JPEG coa opción Gardar para web
e con calidade 0 (1'93 kb).

Todo isto pode comprobarse fácilmente a partir de varios orixinais distintos en escala de grises. Demóstrase, polo tanto, que se queremos publicar na rede un documento de texto a modo de imaxe, mesmo manuscrito e/ou con gravados ou xilografías en negro, GIF e PNG son os formatos adecuados, e non JPEG.

O mesmo podemos dicir das capturas de pantalla con cadros de diálogo e ferramentas de programas, coas que se ilustran tantos tutoriais.

Captura: escáner versus cámara
A decisión de empregar un ou outro medio de dixitalización -escáner ou cámara- depende das condicións nas que hai que realizala e, máis que nada, das características e estado do orixinal.

Hai anos que os escáneres acadaron frecuencias de resolución óptica idóneas para dixitalizar documentos, e a sua velocidade tamén mellorou notablemente.

Son ideais para láminas, páxinas soltas ou libros pouco grosos que non se estragan ao abrilos 180 graos. Téñense feito, ademáis, aparellos nos que o cristal -e por tanto a área de impresión- chega até un dos bordos, permitindo dixitalizar páxinas de libros abertos até 90 graos.

Outras vantaxes son a estabilidade no nivel de iluminación e de enfoque, ou o control da resolución e tamaño dos arquivos creados.

As cámaras dixitais, pola sua parte, son máis versátiles, aínda que requiren un maior control dos parámetros de captura. A sua principal vantaxe é que permiten dixitalizar documentos de tamaños maiores que os escáneres, e orixinais que non sexan totalmente planos e presenten irregularidades, incluidas certas aplicacións de cartón, tea, madeira e outros materiais que impidan manter a sua superficie pegada ao cristal dun escáner.

Segundo o tamaño do orixinal, a cámara pode apartarse máis ou menos para realizar a captura. O tamaño do documento resultante depende moito desta distancia e, sobre todo, dos megapíxeles do sensor. O idóneo, ademáis, é empregar trípodes ou soportes especiais, así como un sistema de iluminación controlado:

e
Esquema de iluminación para un documento orixinal plano ou
aberto 180 graos: toma vertical e duas luces a 45 graos.

e
Á esquerda, adaptación con soporte para unha apertura
de 120 graos: a cámara colócase a 30 graos e está acompañada
por un foco inclinado 15 graos. Á dereita, con soporte para
una apertura a 90 graos: cámara a 45 graos e foco perpendicular.

Tratamento e archivado
Logo da dixitalización, os documentos poden precisar un tratamento de axuste e dimensionado que unhas veces pode ser case completamente automático e outras supón un proceso longo e delicado.

En xeral, un libro pode xerar moitos arquivos informáticos, xa que precisa tantos escaneados como páxinas (ou máis, se se extraen á parte as ilustracións). Se o destiño é a conversión OCR, somente se precisa unha copia ao tamaño adecuado.

Pero en láminas e libros especiais que se ofrecen en imaxes, é habitual chegar a tres versións: unha a bastante resolución, hábil para a consulta en detalle e impresión a bó tamaño; outra a tamaño intermedio, adecuada para a visualización nunha pantalla, e unha terceira en miniatura, para unha ficha de datos ou previsualización nun catálogo.

Obviamente, o mellor é dixitalizar cada páxina unha única vez cos requerimentos da primeira versión, que se garda nun formato adecuado para a impresión, como TIFF. As outras versións fanse a partir desta, habitualmente en JPEG.

Esta cantidade de arquivos require unha nomenclatura extensa, que sexa eficaz para a sua localización e acorde coas propostas de normalización das institucións competentes. Un exemplo:

BBBBBBBB_FFF_SSSSSSSSSS_NN_PPPP_C_V

O tramo B identifica a biblioteca, fundación ou arquivo. F refírese aol fondo documental. S é a sinatura da obra. N o número de volume. P a páxina. C a cobertura, e V a versión.

As coberturas habituais son: p para páxina completa, z para página dupla e d para detalle. No caso de que se rexistren varios detalles na mesma páxina, ordénanse alfabéticamente como da, db, dc

En canto ao tratamento como imaxe, hai técnicas específicas para os documentos dixitalizados. A maneira de aplicar a ferramenta Niveis ou enfocar os textos, ademáis doutros consellos para a dixitalización, constituirán o groso do próximo artigo.

 

PÁXINA DE RECURSOS   En castellano ►