Alta disponibilidad

Alta disponibilidad (High availability) es un protocolo de diseño del sistema y su implementación asociada que asegura un cierto grado absoluto de continuidad operacional durante un período de medición dado. Disponibilidad se refiere a la habilidad de la comunidad de usuarios para acceder al sistema, someter nuevos trabajos, actualizar o alterar trabajos existentes o recoger los resultados de trabajos previos. Si un usuario no puede acceder al sistema se dice que está no disponible. El término tiempo de inactividad (downtime) es usado para definir cuándo el sistema no está disponible.

Tiempo de inactividad

Típicamente tiempo de inactividad planificado es el resultado del mantenimiento que resulta perjudicial para la operación del sistema y usualmente no puede ser evitado con la configuración actualmente instalada. Eventos que generan tiempos de inactividad planificados quizás incluyen parches al software del sistema que requieran un rearranque o cambios en la configuración del sistema que toman efecto después de un rearranque. En general el tiempo de inactividad planificado es usualmente el resultado de un evento lógico o de gestión iniciado.

Tiempos de inactividad no planificado surgen de algún evento físico tales como fallos en el hardware o anomalías ambientales. Ejemplos de eventos con tiempos de inactividad no planificados incluyen fallos de potencia, fallos en los componentes de CPU o RAM, una caída por recalentamiento, una ruptura lógica o física en las conexiones de red, rupturas de seguridad catastróficas o fallos en el sistema operativo, aplicaciones y middleware.

Muchos puestos computacionales excluyen el tiempo de inactividad planificado de los cálculos de disponibilidad, asumiendo, correcta o incorrectamente, que el tiempo de actividad no planificado tiene poco o ningún impacto sobre la comunidad de usuarios computacionales. Al excluir el tiempo de inactividad planificado, muchos sistemas pueden reclamar tener una fenomenal alta disponibilidad, la cual da la ilusión de disponibilidad continua. Sistemas que exhiben verdadera disponibilidad continua son comparativamente raros y caros, y ellos tienen diseños cuidadosamente implementados que eliminan cualquier punto de fallo y permiten que el hardware, la red, el sistema operativo, middleware y actualización de aplicaciones, parches y reemplazos se hagan en línea.

Cálculos porcentuales

Disponibilidad es usualmente expresada como un porcentaje del tiempo de funcionamiento en un año dado. En un año dado, el número de minutos de tiempo de inactividad no planeado es registrado para un sistema, el tiempo de inactividad no planificado agregado es dividido por el número total de minutos en un año (aproximadamente 525.600) produciendo un porcentaje de tiempo de inactividad; el complemento es el porcentaje de tiempo de funcionamiento el cual es lo que denominamos como disponibilidad del sistema. Valores comunes de disponibilidad, típicamente enunciado como número de "nueves" para sistemas altamente disponibles son:

99,9% = 43.8 minutos/mes u 8,76 horas/año ("tres nueves")
99,99% = 4.38 minutos/mes o 52.6 minutos/año ("cuatro nueves")
99,999% = 0.44 minutos/mes o 5.26 minutos/año ("cinco nueves")

Es de hacer notar que tiempo de funcionamiento y disponibilidad no son sinónimos. Un sistema puede estar en funcionamiento y no disponible como en el caso de un fallo de red. Se puede apreciar que estos valores de disponibilidad son visibles mayormente en documentos de ventas o marketing, en lugar de ser una especificación técnica completamente medible y cuantificable.

Medida e interpretación

Claramente como la disponibilidad medida está sujeta a algún grado de interpretación. Un sistema que ha estado en funcionamiento por 365 días en un año no bisiesto quizá ha sido eclipsado por un fallo de red que duró 9 horas durante un periodo de uso pico; la comunidad de usuarios verá el sistema como no disponible, mientras el administrador del sistema reclamara el 100% de “tiempo de funcionamiento”. Sin embargo siguiendo la verdadera definición de disponibilidad, el sistema estará aproximadamente 99.897% disponible (8751 horas de time out de las 8760 horas por año no bisiesto).

También sistemas experimentando problemas de rendimiento son frecuentemente estimados como entera o parcialmente no disponibles por los usuarios mientras administradores quizás tengan una diferente (y probablemente incorrecta, ciertamente en el sentido del negocio) percepción. Similarmente no disponibilidad de funciones de aplicación no seleccionadas quizás pasen inadvertidas para administradores sin embargo podrían ser devastadoras para usuarios una verdadera medida de disponibilidad es integral.

Disponibilidad debe ser medida para ser determinada, idealmente con herramientas de monitorización comprensivas ("instrumentación") que son ellas mismas altamente disponibles. Si hay una falta de instrumentación, sistemas soportando un alto volumen de procesamiento de transacciones a través del día y la noche tales como procesamiento de tarjetas de crédito o conmutadores telefónicos, son frecuentemente e inherentemente mejor monitorizados, al menos por los mismos usuarios, que sistemas que experimentan pausas periódicas en la demanda.

Conceptos relacionados

Tiempo de recuperación esta cercanamente relacionado con la disponibilidad, que es el tiempo total requerido para un apagón planificado o el tiempo requerido para la recuperación completa de un apagón no planificado. Tiempo de recuperación puede ser infinito con ciertos diseños y fallos del sistema, recuperación total es imposible. Uno de tales ejemplos es un incendio o inundación que destruye un centro de datos y sus sistemas cuando no hay un centro de datos secundario para recuperación frente a desastres.

Otro concepto relacionado es disponibilidad de datos, que es el grado para el cual las bases de datos y otros sistemas de almacenamiento de la información que registran y reportan fielmente transacciones del sistema. Especialistas de gestión de la información frecuentemente enfocan separadamente la disponibilidad de datos para determinar perdida de datos aceptable o actual con varios eventos de fracasos. Algunos usuarios pueden tolerar interrupciones en el servicio de aplicación pero no pérdida de datos.

Diseño de un sistema de alta disponibilidad

Paradójicamente, añadiendo más componentes al sistema total puede socavar esfuerzos para lograr alta disponibilidad. Esto es debido a que sistemas complejos tienen inherentemente más puntos de fallos potenciales y son más difíciles de implementar correctamente. La mayoría de los sistemas altamente disponibles extraen a un patrón de diseño simple: un sistema físico multipropósito simple de alta calidad con redundancia interna comprensible ejecutando todas las funciones interdependientes emparejadas con un segundo sistema en una localización física separada.

Este clásico patrón de diseño es común entre instituciones financieras por ejemplo. La industria de la informática y las comunicaciones ha establecido el Servicio Forum de la Disponibilidad acogerá la creación de productos de infraestructura de red, servicios y sistemas de alta disponibilidad. El mismo principio de diseño básico se aplica más allá de la informática en diversos campos como potencia nuclear, aeronáutica y cuidados médicos.

Diseño de un sistema de alta disponibilidad de capa 3

Los diseño jerárquico de la red tienen como características principal la alta disponibilidad en capa 3 y para su implementación en redes LAN se utilizan los protocolos como HSRP,GLBP y VRRP.

Enlaces externos

Conceptos de alta disponibilidad e implementación con IBM WebSphere Application Server en Wayback Machine (archivado el 13 de mayo de 2014).

Datos: Q1622420