PÁGINA DE RECURSOS   En galego ►


DIGITALIZAR DOCUMENTOS.
LA BIBLIOTECA VIRTUAL

La tecnología de imagen digital no solamente ha revolucionado el mundo de la fotografía profesional o la de consumo particular. Un campo en el que está teniendo una tremenda repercusión es el de los Archivos, bibliotecas y hemerotecas. Actualmente se están vendiendo multitud de cámaras digitales y escáneres que tienen como destino servir para la conversión de inmensos fondos documentales a soporte digital

Primero fue la introducción de productos audiovisuales y multimedia. Después el servicio de consulta de catálogos web, mediante el cual podemos localizar un libro, revista o lámina, saber si está disponible, su ficha bibliográfica e incluso su contenido. Desde hace unos años se incorporan a los fondos documentos en soporte digital, que se pueden incluso leer en su totalidad a través de la red, y han aparecido los primeros libros creados directamente en esta modalidad.

Los fondos más valiosos de los archivos documentales suelen estar impresos en papel. Muchos de ellos son antiguos, algunos estropeados por el tiempo y el uso, o con problemas de conservación. Su digitalización va a suponer un gran esfuerzo, pero muchas bibliotecas universitarias y estatales ya han puesto manos a la obra, convencidas de las ventajas del soporte digital, que al contrario que el papel, compatibiliza bien sus dos intereses máximos: la disponibilidad de la información y la preservación de los originales.

Se trata de digitalizar texto e imagen. Un buen número de originales son monocromos y por tanto se tratan en escala de grises, aunque capturarlos en color puede ayudar a eliminar eventuales manchas en el papel. Muchas de las ilustraciones son grabados impresos con la misma tinta calcográfica que el texto, por lo que su tratamiento no difiere demasiado. En otras ocasiones las imágenes e incluso el texto son en color.

Otra característica de los textos antiguos es que a efectos técnicos son imágenes. Muchos son manuscritos, y en otros que ya presentan tipografía de imprenta, el propio aspecto de la página es parte sustancial.

Para los libros más modernos, en los que el interés se centra en la información, el proceso puede continuar con el reconocimiento óptico de caracteres -OCR- que los transformará en texto editable. Se puede entonces hacer una nueva paginación de texto e imágenes, elaborando el libro digital como nueva versión, mucho más manejable, del original.

Formatos y tamaño
Además de su utilidad, los recursos informáticos que consume el texto editable son ridículos en comparación con una imagen. Cada página DIN-A4 blanca llena de texto negro Arial o Times de 11 puntos supone en formato rtf o en un documento pdf unos 15 kb, mientras que como imagen en escala de grises y a 240 ppp de resolución ocupa en memoria 5'5 mb, que se pueden convertir en 200 kb al guardar un TIF con compresión LZW.

Contrariamente a lo que se pueda pensar, el texto negro bien definido sobre blanco puro, difícilmente se reduce más con JPEG, incluso a la compresión máxima y con la degradación que conlleva. Sin embargo, nuestra página si que puede bajar a unos 150 kb en formato GIF con 16 niveles de gris, suficientes para no endurecer demasiado los caracteres, e incluso a menos de 100 kb en PNG de 8 bits.

d
Recorte al 100% de zoom de un texto, en formato
PNG -
1'21 kb- indistinguible del original -37 kb- y de
las copias en TIF (lzw) -
23'7 kb- o en GIF -1'38 kb-

d
Copia guardada en jpg con la opción
"Guardar como" a calidad 0 -
24,2 kb-

d
Copia guardada en jpg con la opción
"Guardar para web", calidad 0 -
1'93 kb-

Esto es muy fácil de comprobar a partir de varios originales diferentes en escala de grises, y se demuestra por tanto que si queremos mostrar en la red como imagen un documento de texto, incluso manuscrito y/o con grabados o xilografías en negro, GIF y PNG son los formatos adecuados, y no JPG. Lo mismo cabe decir para las capturas de pantalla con cuadros de diálogo y herramientas de programas con las que se ilustran tantos tutoriales.

Captura: escáner vs cámara
La decisión de utilizar uno u otro medio depende de las condiciones en las que hay que realizar la digitalización, y sobre todo de las características y el estado del original.

Los escáneres hace años que alcanzaron frecuencias de resolución óptica idóneas para digitalizar documentos, y su velocidad también ha mejorado notablemente. Son ideales para láminas, páginas sueltas o libros poco gruesos que no se dañen al ser abiertos 180 grados. Se han construido además aparatos en los que el cristal, y por tanto el área de impresión, llega hasta uno de los bordes, permitiendo digitalizar páginas de libros abiertos 90 grados. Otras ventajas son la estabilidad en el nivel de iluminación y de enfoque, o el control de la resolución y tamaño de los archivos creados.

Las cámaras digitales son más versátiles, aunque requieren un mayor control de los parámetros de captura. Su principal ventaja es que permiten digitalizar documentos de tamaños mayores que los escáneres, y originales que no sean totalmente planos, por presentar irregularidades o incluso aplicaciones de cartón, tela, madera y otros materiales, que impiden mantener su superficie pegada al cristal de un escáner.

Según el tamaño del original, la cámara se puede alejar más o menos. El tamaño del documento resultante depende mucho de esta distancia y sobre todo de los megapíxeles del sensor. Lo idóneo además es utilizar trípodes o soportes especiales, además de un sistema de iluminación controlado.

d
Esquema de iluminación para original plano o
abierto 180º, toma vertical y dos luces a 45º

d
Izquierda, adaptación con soporte para apertura a 120º
cámara a 30º y un foco a 15º. Derecha, con soporte
para apertura a 90º, cámara a 45º y foco vertical.

Tratamiento y archivo
Tras la digitalización los documentos pueden necesitar un tratamiento de ajuste y dimensionado que unas veces puede ser casi completamente automático, y otras significa un proceso largo y delicado.

En general un libro puede generar muchos archivos informáticos, ya que necesita tantos escaneados como páginas, o más, si se extraen aparte las ilustraciones. Si el destino es la conversión OCR, sólamente se precisa una copia a tamaño adecuado. Pero en láminas y libros especiales que se ofrecen en imágenes, es habitual llegar a tres versiones: una a bastante resolución, hábil para la consulta en detalle e impresión a buen tamaño, otra a tamaño intermedio, adecuado para su visualización en pantalla, y una tercera tamaño miniatura, para ficha de datos o previsualización en catálogo.

Obviamente, lo mejor es digitalizar cada página una única vez, con los requerimientos de la primera versión, que se guarda en un formato adecuado para la impresión, como TIF. Las otras versiones se hacen a partir de ésta, habitualmente en JPG.

Esta cantidad de archivos requiere una nomenclatura extensa, que sea eficaz para su localización, y acorde con las propuestas de normalización de las instituciones competentes. Un ejemplo:

BBBBBBBB_FFF_SSSSSSSSSS_NN_PPPP_C_V

El tramo B identifica a la biblioteca, fundación o archivo. F se refiere al fondo documental. S es la signatura de la obra, N el número de volumen, P la página, C la cobertura y V la versión. Las coberturas habituales son: p para página completa, z para doble página y d para detalle. En caso de varios detalles en la misma página, se ordenan alfabéticamente como da, db, dc, etc.

En cuanto al tratamiento como imagen, hay técnicas específicas para los documentos digitalizados. La manera de aplicar Niveles, enfocar los textos, manejar los programas de OCR y otros consejos para la digitalización, serán el tema del próximo artículo.

 

PÁGINA DE RECURSOS   En galego ►