Digital Record Object Identification

Digital Record Object IDentification (DROID) es una herramienta de software gratuito y código abierto que han desarrollado los Archivos Nacionales del Reino Unido y que permite recopilar información sobre los formatos de un lote de archivos, ayudando así a definir y evaluar un plan de preservación de los mismos.

Historia

DROID nace en el 2005 para uso interno del Archivo Nacional británico, como herramienta imprescindible e inseparable en el desarrollo del proyecto PRONOM.^[1] PRONOM es la base de datos del Archivo Nacional del Reino Unido que mantiene un registro de formatos de archivo de gran amplitud y en constante actualización. DROID se hacía necesario en este sistema para explorar en los formatos de archivo incluidos en PRONOM, y así apoyar un proyecto de continuidad digital de la información de una organización. Desde entonces se han sucedido varias versiones, la última del 2011, permitiéndose el acceso libre al código fuente mediante licencia BSD y su descarga gratuita.

Especificación

La última versión de DROID es la 6.2.1^[2] aunque algunas de sus funcionalidades son aplicables a anteriores versiones. Está escrita en Java 6 y funciona en cualquier plataforma que tenga Java Runtime Environment 6 standard (JRE) en una versión 23 o superior. Se aconseja que JRE esté incrustado y no instalado en el ordenador, pues es la forma en que más se ha probado para un gran lote de archivos, si bien utilizar esta opción supone renunciar a actualizaciones de seguridad o de corrección de errores.^[3] Dependiendo del número de archivos con los que trabaja, puede requerir varios gigabytes de disco (alrededor de 1 GB para unos 10 millones de ficheros).^[4] DROID requiere una versión 1.7 o 1.8 de Java y trabaja en un API público. Se ha probado en las siguientes plataformas:

Ubuntu Server de 32 bits / OpenJDK Java

Escritorio de Ubuntu 64 bits / Java de Oracle

Red Hat Enterprise Linux Server de 64 bits / OpenJDK

Linux Mint / Centos

CentOS 64 bits / Java de Oracle

Microsoft Windows XP (64 bits) / Java de Oracle

Microsoft Windows 7 (64 bits) / Java de Oracle

Microsoft Windows 10 (64 bits)

Microsoft Windows Server 2008 (64 bits) / Java de Oracle

Mac OS Mountain Lion / Java / Mac OS X

Funcionamiento y usos

DROID puede analizar automáticamente un gran número de archivos en lotes, identificando su formato y llegando hasta el nivel de versión. DROID recoge toda esta información en una base de datos, a través de la cual una organización puede entender qué información se está creando y evaluar los riesgos, de cara a una hipotética preservación. Para facilitar la toma de decisiones, DROID puede generar contenidos Hash que al compararse con una base de datos Hash exterior, permiten detectar si los archivos son de contenido único o generalista, si tienen contenido malicioso o si hay duplicados. La información recogida sobre los archivos y carpetas analizados^[5] es la siguiente:

Tipo: los categoriza en archivo, carpeta o archivo de archivos, cada uno con su identificación de formato y archivo

Nombre de archivo: el cual es independiente de su ubicación en un disco o dentro de una rchvio de archivos

Extensión de archivo: homogeneiza las extensiones de archivo y las clasifica para facilitar órdenes de tarea. Muestra una gran cantidad de criterios de filtrado

Aviso de disparidad de extensión de archivo: detecta y emite una alerta de incompatibilidad cuando el nombre de archivo no coincide con el del formato

Ubicación: utiliza para ello una URI o una ruta de archivo, si la hubiera

Tamaño: como número de bytes utilizado

Última modificación

nº de identificación de formato: 0 para los no identificables, 1 para los inequívocos y 2 para los que poseen más de un formato.

formatos de archivo: identifica cuatro tipos de información:

nombre del formato (por ej. Microsoft Word; versión (por ej. 97-2003)
versión
PUID (siglas de Persistent Unique Identifier) identificador PRONOM único y persistente asignado por el Archivo Nacional Británico. Por ej., para Microsoft Word 97-2003 es fm/40
MIME type: es otro esquema de identificación convencional. Para fm/40 sería "application/msword"

método de identificación: DROID muestra tres diferentes maneras de identificar los formatos:

extensión: puede no ser fiable pues un archivo puede nombrarse de cualquier manera y no identifica la versión
Firma: más fiable pues, según la guía de la National Archives, es improbable que un archivo pase a tener otro patrón de firma de formato diferente al suyo
Contenedor: identifica los archivos incrustados, por ej. en un ZIP

Hash de contenido: la probabilidad de que dos archivos diferentes tengan el mismo Hash es casi nulo, permitiendo así identificar los duplicados

Estado: registra si el análisis del archivo se ha realizado correctamente. En caso contrario aparece como acceso denegado o no reconocible.

DROID almacena la información en una base de datos Apache Derby (escrito en Java) y con extensión *.droid en archivos zip de 64 bits. De este modo puede conectarse con muchas otras herramientas de gestión de datos para la explotación más compleja de la información. Por ej., se puede exportar en XML hacia los metadatos de preservación o como archivos separados por comas (CSV) o columnas para su tratamiento en Access o Excel.^[6]