El día Lunes 03 de Diciembre a las 16:05 PM se pasó a producción un fragmento de código que contenía una modificación para agregar soporte multi-lenguaje a algunas propiedades básicas del proceso como nombre y descripción. Dicho código generó un error que impedía a la plataforma leer el nombre/descripción de los procesos desde la base de datos provocando así un fallo al momento de generar la búsqueda.
Esto ocasionó que los procesos desaparecieran del home durante entre las 16:05 y las 16:48. El sistema estuvo disponible de manera intermitente entre las 16:48 y las 17:30.
Recibimos una notificación del error 3 minutos después de que se hiciera el paso a producción. Inmediatamente iniciamos el proceso de recuperación de la última versión del código en los servidores afectados lo que usualmente toma no más de 10 minutos. En esta ocasión los despliegues de nuevas versiones de la aplicación de manera sistemática tomaron más tiempo de lo usual (cerca de 30 minutos) ya que los test de conectividad para verificar la salud de las instancias tomaron tiempo adicional en aprobar el paso a producción.
Esto implicó que durante al menos 30 minutos solo pudimos ir haciendo actualizaciones parciales a la plataforma. Al rededor de las 16:48 el sistema se empezó a recuperar de manera gradual y ya a las 17:30 el sistema estaba totalmente disponible.
El sistema solo se vió afectado en los componentes de Home y Monitoreo. La evaluación, bajo ciertos parámetros continuó funcionando aunque de manera intermitente.