Digitalización de documentos

De Wikipedia, la enciclopedia libre
Ir a la navegación Ir a la búsqueda
Digitalizando obras del dominio público en Uruguay.

La digitalización de documentos es un proceso tecnológico que permite, mediante la aplicación de técnicas fotoeléctricas o de escáner, convertir la imagen contenida en un documento en papel en una imagen digital.[1]

La digitalización de documentos es una forma de capturar y almacenar imágenes utilizando la tecnología computacional.[2]​ Una cámara digital o un escáner sacan una fotografía electrónica, que convierte la imagen del documento en códigos numéricos para que sean tratados por el ordenador mediante un software de captura.[1]​ La información digitalizada queda posteriormente almacenada en diversos soportes que permiten guardar grandes cantidades de datos en poco espacio.

La digitalización de documentos forma parte esencial de la preservación digital encargándose de la conservación de la información de los documentos.

Objetivo[editar]

El objetivo básico de la digitalización de documentos es la transferencia de la información a otro soporte distinto del original. El documento pasa de un estado analógico a uno digital o informático.[1]​ Los documentos en formato informático, es aquella digitalizada con almacenamiento en soporte magnético u óptico.[2]​ La información queda registrada por señales binarias; la calidad de las copias siempre es idéntica. La digitalización de documentos permite:

  • Preservar los documentos originales del deterioro por su uso y generar copias de seguridad.
  • Preservar sólo el contenido informativo.

La tecnología digital permite capturar los valores de cualquier imagen al margen de su soporte, polaridad, dimensiones, etc. Cualquier imagen o conjunto de ellas puede ser estructurada en bases de datos y ser recuperada en nuevos formatos.

Evolución[editar]

El comienzo de la digitalización se dio debido a la necesidad del ser humano por almacenar y transmitir la información necesaria en distintos soportes. Antes de realizarse la digitalización tal y como la conocemos hoy en día, se crearon una serie de instrumentos modificados con el paso del tiempo explicados a continuación.

En 1895 el instrumento utilizado se denominaba Telediágrafo, permitía transmitir las imágenes al formato digital por medio de métodos eléctricos. Su uso consistía en dibujar la imagen en una lámina de estaño empleando una tinta no conductora de goma-laca con alcohol, para posteriormente ser fijada en un rodillo que trabajaba como transmisor. Entretanto el receptor utilizaba un lápiz óptico sincronizado con el Telediágrafo, por lo que enviaba y recibía línea a línea la imagen que pretendía digitalizarse. Este proceso de digitalización podía costar hasta media hora.[3]

Posteriormente, con la llegada del Belinógrafo en 1913 la técnica utilizada mejoró notablemente, ya que se utilizaba una fotocelda para traspasar la imagen a través de la línea telefónico conocido como FAX. En los años 40 al construirse las primeras computadoras, simplemente se agregaban números para realizar múltiples cálculos. Ya en la década de los 80 se realizaban los primeros escáneres digitales, lo que en lugar de enviarse la imagen a fax se almacenaba en un PC.[3]

Estos primeros aparatos mencionados al capturar los documentos que pretendían digitalizarse contenían una deficiente resolución, pero con el avance de la tecnología y el paso del tiempo han mejorado notablemente hasta la actualidad, utilizando para el proceso de digitalización sistemas mucho más innovadores y eficaces.

Clases y tipos[editar]

Los diferentes tipos de documentos que podemos encontrar son materiales de soporte magnético y de soporte óptico de caracteres.

Soporte óptico de caracteres (Optical Character Recognition) significa Reconocimiento Óptico de Caracteres (OCR). Es la tecnología que permite convertir imágenes de caracteres en letra de máquina, en caracteres capaces de ser interpretados o reconocidos por un ordenador.[2]​ Obtiene como resultado final un archivo en un formato de texto editable, cuyos formatos de salida en los que se presentan estos archivos pueden ser variados (pdf, txt, etc.).

Este procedimiento es utilizado en la informática como procedimiento para digitalizar un texto a través de un escáner.

Para poder realizar un reconocimiento de los caracteres, el software debe inspeccionar la imagen pixel a pixel buscando formas que coincidan con los rasgos de los caracteres.[4]

El soporte óptico permite analizar elementos del documento como (imágenes, tablas, texto, etc.) para su posterior digitalización.

Este sistema revolucionó en su momento el mundo digital pudiendo evitar la introducción manual de los datos a un ordenador y reconociéndolos automáticamente. Con el paso del tiempo la técnica se ha ido perfeccionando con la evolución y mejora de su efectividad. En la actualidad el soporte óptico además de permitir mantener la estructura de los documentos originales en el archivo de salida, reconoce caracteres contenidos en documentos manuscritos, diagramas, partituras, etc. A pesar de ello, debemos destacar que dispone de una efectividad limitada, debido a que deben realizarse posteriores revisiones y correcciones manualmente del texto escaneado.[4]

En la actualidad existe un sistema de reconocimiento óptico más avanzado denominado de ABBYY FineReader, basado en tres principios fundamentales IPA (Integridad, Intencionalidad y Adaptabilidad). [5]

Respecto a la utilización del OCR es aplicable en diversos ámbitos y sectores (Actividad Jurisdiccional, Centros de Documentación, etc.) para la digitalización de formularios, informes, documentos administrativos, etc. En el sector cultural, en la preservación del patrimonio el OCR digitaliza principalmente documentos históricos en soporte microfilm o papel.[4]

Entre las ventajas que presenta el soporte óptico de caracteres encontramos:[4]

  • Búsqueda y recuperación de documentos.
  • Explotación de los documentos.
  • Reducción de costes económicos

Los inconvenientes que muestra son los siguientes:[4]

  • Escasez de conocimiento y expertos en las instituciones.
  • Elevado coste de generar texto electrónico
  • Deficiente digitalización de documentos históricos anteriores al siglo XIX.

Las recomendaciones técnicas que deben plantearse para una mayor resolución de los documentos digitalizados con el soporte óptico de caracteres, es establecer una resolución mínima de 300 ppp en documentos de textos con tipos de letra claros y 600 ppp para documentos con letras pequeñas u originales de poca calidad (prensa).[4]

Soporte magnético. Esta categoría hace referencia los materiales audiovisuales, entre los materiales que pueden digitalizarse encontramos (Cintas de vídeo VHS, Beta, Vinilos, Cassettes, etc.). El proceso de digitalización consiste en la transcripción de señales analógicas en señales digitales cuyo objetivo es facilitar su procesamiento (comprensión, codificación, etc.), haciendo la señal derivada (digital) con menos ruidos e interferencias a las señales analógicas.[6]

El proceso de digitalización analógica está formado de cuatro procesos:

  • Muestreo (sampling). Consiste en tomar muestras periódicas de la amplitud de la señal. La velocidad con que se toma esta muestra (el número de muestras por segundo), conocido como frecuencia de muestreo. Cuanto menor es el valor del periodo de muestreo mejor constituida queda la señal analógica. [6]
  • Retención (hold). Las muestras tomadas han de ser retenidas (retención) por un circuito de retención (hold), el tiempo suficiente para permitir evaluar su nivel (cuantificación). Desde el punto de vista matemático este proceso no se contempla, ya que se trata de un recurso técnico debido a limitaciones prácticas, y carece, por tanto, de modelo matemático. [6]
  • Cuantificación. Mide el nivel de voltaje de cada una de las muestras. Consiste en asignar un margen de valor de una señal analizada a un único nivel de salida. Incluso en su versión ideal, añade, como resultado, una señal indeseada a la señal de entrada: el ruido de cuantificación. [6]
  • Codificación.Consiste en traducir los valores obtenidos durante la cuantificación al código binario. Hay que tener presente que el código binario es el más utilizado, pero también existen otros tipos de códigos que también son utilizados. [6]

Entre las ventajas que presenta el soporte magnético encontramos: [6]

  • Al presentar la señal leves alteraciones puede ser reparada y amplificada a través de sistemas de regeneración de señales.
  • Dispone de sistemas de detección y modificación de errores.
  • Facilidad para el procesamiento de la señal.
  • La señal digital permite la multigeneración infinita sin pérdidas de calidad.

Los inconvenientes que muestra son los siguientes: [6]

  • Debe realizarse primeramente una conversión analógica-digital y a continuación una decodificación.
  • La transmisión de señales digitales requiere una sincronización precisa entre los tiempos del reloj del transmisor, con respecto a los del receptor.
  • Al utilizar compresión con pérdida, es improbable reconstruir la señal original idéntica, pero permitiría una parecida dependiendo del muestreo tomado en la conversión de analógico a digital.

Características técnicas[editar]

La digitalización de documentos es un proceso el cual está muy normalizado y el cual debe hacerse bajo unas condiciones determinados y unos requerimientos básicos para una correcta digitalización, es por eso que necesita unas características técnicas determinadas, las cuales pueden depender del formato de origen del documento y la finalidad que se le vaya a dar a la copia digitalizada.[7][8]​ Principalmente las características técnicas de los documentos digitalizados son:

Imagen digital[editar]

A diferencia de las fotografías ordinarias, las digitales están formadas por cadenas de bits, interpretadas por un ordenador, y que presenta una reproducción de la imagen en pantalla.[7]

La imagen digital, es dividida en una matriz de puntos a modo de cuadrícula. Cada uno de estos puntos recibe el nombre de píxel, que toma el valor binario 1 o 0 dependiendo de la luminosidad y el tono lumínico leído por el escáner. A cada píxel se le asigna un valor tonal que está representado por un código binario.[8]

Resolución digital[editar]

La resolución de la imagen viene dada por el número de pixeles que tiene la imagen. Cuanto mayor sea este número mayor será la resolución. La medida de la resolución se determina por el número de píxeles leídos en una distancia lineal de una pulgada (2,54 cm) en el documento digitalizado.[8]

Las resoluciones de escaneado más frecuentemente utilizadas en documentos blanco y negro son 200, 300 y 400 puntos por pulgada. En la digitalización de imágenes color de alta calidad, son típicas resoluciones de 1200 a 2400 puntos por pulgada.

Profundidad de bits o resolución cromática[editar]

La profundidad de bits especifica la cantidad de información de color que está disponible para cada píxel de una imagen. Cuantos más bits de información por píxel haya, más colores disponibles existirán y se podrá apreciar una mayor precisión en la representación del color.[8]

Las imágenes digitales se pueden digitalizar en blanco y negro, a escala de grises o a color.

  • Para la digitalización en blanco y negro, a cada pixel un bit, bien de valor 0 bien de valor 1, correspondiendo al blanco y al negro.
  • Para una escala de grises se aplican 8 bits a cada píxel, de modo que la imagen digital resultante sea capaz de representar 256 valores o tonos de grises.
  • En el caso de las imágenes en color, utilizando 24 bits se obtendrán 16,7 millones de colores.

Tamaño del fichero[editar]

El tamaño del fichero se calcula multiplicando el área de superficie (ancho por alto) del documento a digitalizar (en pulgadas), por la profundidad en bits (en bits/píxel) y por el cuadrado de la resolución. Dado que el tamaño del archivo se representa en Bytes (8 bits), dividiremos el resultado por 8.[8]

Compresión[editar]

La compresión se utiliza para reducir el tamaño del fichero de imagen para su almacenamiento, su procesamiento y transmisión. El tamaño del fichero para las imágenes digitales puede ser muy grande, lo que requiere mayores recursos informáticos para su almacenamiento, procesamiento y transmisión.[7]

Existen dos sistemas de compresión: los sistemas de compresión sin pérdidas y los sistemas de compresión con pérdidas. Los sistemas de compresión sin pérdidas, reducen el código binario pero sin desechar o suprimir ninguna información, los sistemas de compresión con pérdidas sacrifican parte de la información original con el objetivo de conseguir una mayor compresión y, por tanto, un archivo final de tamaño más reducido.[8]

Formatos de ficheros[editar]

Existen diferentes formatos de ficheros de imágenes en el mercado. Cada uno con sus características específicas, sus ventajas e inconvenientes,[8]​ algunos ejemplos son:

  • BMP (Windows Bitmap)
  • GIF (Graphic Interchange Format)
  • TIFF (Tagged Image File Format)
  • JPEG (Joint Photographic Experts Group)
  • PDF (Portable Document Format)
  • SVG (Scalable Vector Graphics)
  • PNG (Portable Network Graphics)
  • RAW

Proceso[editar]

La clave del proceso de digitalización es el compromiso entre el dispositivo de captura y el reproductor para que el resultado represente la fuente original con la mayor fidelidad posible.

La digitalización suele ocurrir en dos partes: Discretización y Cuantificación, estos pueden ocurrir al mismo tiempo, aunque son conceptualmente distintos.[cita requerida] Todo proyecto de digitalización, en general, debe contemplar tres aspectos fundamentales:

  • Los objetivos que se quieren lograr
  • El ámbito de aplicación de aplicación
  • La responsabilidad de las partes involucradas

También deben de tenerse en cuenta tres fases diferente, pero estrechamente ligadas en tres sí:[9]

  • Fase archivística: preparación de la digitalización de documentos según las reglas archivísticas.
  • Fase tecnológica: aplicación de reglas ligadas a la tecnología de la digitalización.
  • Fase legal: cumplimiento de las prescripciones legales para garantizar el valor de los documentos digitalizados.

En el caso específico de digitalizar documentos con origen en formato papel el proceso tiene que realizar:[10]

  • Captura con escáner del documento físico.
  • Indexado de la información extraída del documento.
  • Almacenamiento del documento y la información para una posterior búsqueda.

Fases del proceso[editar]

Antes de empezar a digitlizar, se debería realizar un documento donde se plasmen los criterios que vamos a emplear para la digitalización, de gran utilidad si cambian los equipos que lo desarrollan.[11]

En el proceso de digitalización de documentos se deben de tener en cuenta ciertas pautas para normalizar dicho proceso en los archivos:

Reunir toda la información a procesar[editar]

Eliminando todos los elementos que no sean el documento en sí mismo.

Consideraciones de la descripción[editar]

Seguidamente a la selección de los documentos y previamente a la digitalización, se deben comparar y actualizar las descripciones archivísticas del material objeto de la digitalización. Para poder identificar la documentación digitalizada se deberá registrar como mínimo la información de los elementos obligatorios de ISAD (G). Sin embargo, si se observa algún deterioro físico en el documento original, se hará constar en el área, no obligatoria de “Condiciones de acceso y uso”. Igualmente se hará constar las cuestiones relativas a las restricciones de acceso cuando sea preciso.[8]​ A los elementos obligarios, se le suman, para su inclusión como metadatos, los elementos:[11]

  • Archivo que custodia la documentación.
  • Serie documental a la que pertenece
  • Responsable de la digitalizazción
  • Fecha de la digitalización

Preparación de los orígenes[editar]

También previamente a la digitalización se comprobará que no existan documentos duplicados, que estén libres de elementos que puedan obstaculizar la digitalización (grapas, gomas, etc) y de que estén convenientemente ordenadas. Si el documento a digitalizar es una unidad documental compuesta,[12]​ se recomienda foliar el original a lápiz previamente a la digitalización.[8]

Condiciones de visualización y calibración del monitor[editar]

Es necesario controlar el entorno de visualización, teniendo en cuenta que el monitor (mejor con poca luz) y el documento original (mejor con mucha luz) requieren condiciones de visualización diferentes. También se deben considerar las “condiciones humanas”, ya que seria conveniente que las imágenes se evaluaran bajo las mismas circunstancias. Hay que tener en cuenta también la calibracion del monitor],[13]​ ya que las imágenes pueden verse diferentes en distintos monitores. El método ideal es utilizar hardware de calibración de monitor y el software adjunto.[8]

Obtención de las imágenes[editar]

Es necesario determinar el dispositivo de captura de la imagen más adecuado a la documentación para así garantizar la integridad y la calidad de las imágenes digitales. Por último, se comprobará que el numero de páginas digitalizadas sea igual al de imágenes digitales resultantes del proceso de digitalización.[8]

Control de calidad de la imagen[editar]

Para el control tonal y de color se recomienda incluir en los ficheros maestros escalas o cartas de colores, que sirven para conseguir un mayor control sobre los resultados de un proceso fotográfico, normalmente se incluyen dentro de la propia imagen que se va a reproducir.

Para el control de la resolución y estar dentro de las normas del índice de calidad (QI), se emplea la carta MIRA TEST ISO CHART Nº2, utilizada en la microfilmación. En el caso de usar cámaras digitales tenemos que saber cuál es la resolución óptica de partida que ofrece el sensor de nuestra cámara. Para ello deberíamos conocer los píxeles que ofrece.[8]

Además hay que tener en cuenta las siguientes consideraciones:[11]

  • Durante todo el proceso de digitalización es necesario efectuar controles de calidad.
  • El proceso de digitalización estará supervisado por un técnico en imagen digital.
  • La supervisión se realizará a partir de la visualización de la imagen en el monitor o bien desde la operación matemática del índice de calidad (QI) para la escala de grises y color.
  • El tamaño del archivo digital, el tipo de archivo y la resolución de captura dependerán de las características de los originales a reproducir.
  • Se efectuarán ensayos de acceso a los ficheros con el fin de establecer un equilibrio entre calidad visual aceptable para el usuario y el tamaño del fichero, de manera que el tiempo de captura sea amable.
  • La captura digital de originales de gran formato se realizará para la copia de conservación en formato TIFF, utilizando un sistema de cuadrícula. Para la difusión de estos formatos se realizará una captura general con una resolución óptima en sistema de compresión JPEG o PNG, y se dividirá en coordenadas.
  • Cuando se realicen capturas con un sistema de compresión, se optará por el grado de compresión que garantice que la calidad de la imagen sea óptima y la pérdida de información mínima.
  • En las imágenes digitales obtenidas se incorporarán los metadatos adecuados de control.
  • La capacidad mínima de captura del sensor será de 6000 píxeles en escala de grises y color RGB.
  • Podrán realizarse todos aquellos procesos encaminados a la mejora y optimización de la imagen captada bajo las directrices del responsable técnico que supervise los trabajos.

Tratamiento de las imágenes[editar]

Una vez escaneados los documentos, se deberá verificar que las imágenes digitales estén correctamente alineadas, que no tengan imágenes añadidos, que sean una representación exacta de la unidad documental, que sean visibles y legibles y que tengan un índice de calidad. Si estas premisas no se cumplen se deberá realizar el tratamiento de optimizacion de las imágenes.

Una vez realizada la digitalización se revisará cada una de las imágenes de cada fichero, subsanando las deficiencias detectadas.Una vez revisado se deberá conservar un “fichero maestro” o Copia de conservación (Son reproducciones digitales de alta calidad realizadas con fines de preservación, en formatos RAW o TIFF sin compresión agresiva que afecte a la calidad de la imagen) de todos los documentos digitales y una copia de consulta.[8]

Creación de los ficheros de consulta y ficheros de divulgación[editar]

A partir de cada fichero maestro deberá crearse un fichero de consulta en formato PDF (documentación encuadernada), JPG o PNG (documentación suelta). Estos ficheros de consulta se pueden hacer bien por defecto o bien por demanda.[8]

Marca de agua[editar]

Las copias digitales obtenidas deberán ir convenientemente provistas de una marca de agua visible, que identifique el Archivo de procedencia/la institución que custodia los documentos originales.[11]​ Los ficheros maestros (TIFF/PDF) no llevarán inserta en ningún caso marca de agua.

Se debe tener en cuenta que, la marca de agua es un elemento inserto en la imagen que puede ser fácilmente eliminado si se dispone de los medios necesarios. Por tanto, más confiable resulta, la información registrada en el metadato “responsable de la digitalización” ya que en dicho elemento se consignará la persona e institución responsables de dicha digitalización.[8]

Almacenamiento y soportes de conservación[editar]

Se deben elegir como soportes de almacenamiento de las imágenes digitales aquellos que ofrezcan una mayor garantía para la conservación y preservación inalterable de la información. Las imágenes estarán archivadas en una estructura jerárquica de carpetas, reflejando el esquema de organización de los fondos dentro del Archivo de procedencia. Esta estructura aparecerá duplicada, una de ellas destinada a las imágenes de conservación y otra para las de consulta.

Los responsables de la custodia de las copias comprobarán periódicamente la legibilidad de todos los soportes en los que se han alojado las copias digitales.

Ventajas e inconvenientes[editar]

Ventajas[editar]

  • Rápido acceso a múltiples usuarios en todo el mundo
  • Las imágenes pueden rehacerse y mejorarse electrónicamente
  • Se pueden obtener copias de alta calidad
  • La recuperación automatizada facilita la búsqueda de la información
  • Las imágenes pueden reproducirse muchas veces sin pérdida de calidad
  • Las imágenes digitales no se deterioran con el uso.

Inconvenientes[editar]

  • Gran inversión para sustentar las tecnologías de conversión y recuperación de registros
  • Faltan estándares en muchas áreas
  • El almacenamiento digital no ofrece características de permanencia: necesita revisión continúa y una transferencia periódica
  • Los sistemas de recuperación se vuelven obsoletos
  • Aunque en disminución progresiva, los costos de producción y almacenamiento son altos
  • El tiempo y los costos para capturar y almacenar imágenes de alta resolución aumentan a medida que aumenta su calidad. Reproducir en color es más costoso.

Véase también[editar]

Referencias[editar]

  1. a b c González Mesa, Elda (2006). «La digitalización de documentos, ¿amiga o enemiga?». La Habana, Cuba. 
  2. a b c Sociedad informática del Gobierno Vaco (2008). «Metodología de Digitalización de Documentos». Vitoria-Gasteiz. Consultado el 14 de diciembre de 2017. 
  3. a b Imaging Center. «Origen y concepto de Digitalizacion». Consultado el 16 de diciembre de 2017. 
  4. a b c d e f Observatorio Vasco de la Cultura (2011). OCR: tecnología para el reconocimiento óptico de caracteres en una imagen. País Vasco. Consultado el 16 de diciembre de 2017. 
  5. ABBYY (2017). «Que es Reconocimiento óptico de carácteres (OCR)». Consultado el 16 de diciembre de 2017. 
  6. a b c d e f g El rincón de Alex. «PROCESO DE DIGITALIZACIÓN DE LA SEÑAL ANALÓGICA.». Consultado el 16 de diciembre de 2017. 
  7. a b c IFLA (2002). «Directrices para proyectos de Digitalización de colecciones y fondos de dominio público, en particular para aquellos custodiados en bibliotecas y archivos». La Haya, Holanda. Consultado el 14 de diciembre de 2017. 
  8. a b c d e f g h i j k l m n ñ Junta de Castilla y León (2011). «Recomendaciones para la digitalizacion de documentos en Archivos». Castilla y León. Consultado el 14 de diciembre de 2017. 
  9. Bermúdez Muñoz, María Teresa. «Guía para la digitalización de documentos». Consultado el 10 de diciembre de 1017. 
  10. «Que es digitalizar un documento. Proceso de digitalización de documentos.». 2015. Consultado el 10 de diciembre de 2017. 
  11. a b c d Archivos de Andalucía. Consejería de cultura. (2 de julio de 2010). «Recomendaciones técnicas digitalizacion». Consultado el 9 de diciembre de 2017. 
  12. [1]
  13. [2]