Problemas con el acceso al home de la plataforma
Incident Report for Rankmi
Postmortem

¿Qué pasó?

El día Lunes 03 de Diciembre a las 16:05 PM se pasó a producción un fragmento de código que contenía una modificación para agregar soporte multi-lenguaje a algunas propiedades básicas del proceso como nombre y descripción. Dicho código generó un error que impedía a la plataforma leer el nombre/descripción de los procesos desde la base de datos provocando así un fallo al momento de generar la búsqueda.

Esto ocasionó que los procesos desaparecieran del home durante entre las 16:05 y las 16:48. El sistema estuvo disponible de manera intermitente entre las 16:48 y las 17:30.

¿Cómo lo solucionamos?

Recibimos una notificación del error 3 minutos después de que se hiciera el paso a producción. Inmediatamente iniciamos el proceso de recuperación de la última versión del código en los servidores afectados lo que usualmente toma no más de 10 minutos. En esta ocasión los despliegues de nuevas versiones de la aplicación de manera sistemática tomaron más tiempo de lo usual (cerca de 30 minutos) ya que los test de conectividad para verificar la salud de las instancias tomaron tiempo adicional en aprobar el paso a producción.

Esto implicó que durante al menos 30 minutos solo pudimos ir haciendo actualizaciones parciales a la plataforma. Al rededor de las 16:48 el sistema se empezó a recuperar de manera gradual y ya a las 17:30 el sistema estaba totalmente disponible.

¿Qué afectó?

El sistema solo se vió afectado en los componentes de Home y Monitoreo. La evaluación, bajo ciertos parámetros continuó funcionando aunque de manera intermitente.

Importante:

  • Durante este incidente no se registró perdida de información.
  • Las personas que se encontraban respondiendo las encuestas y dentro de un proceso no se vieron afectadas.
Posted Dec 03, 2018 - 22:15 GMT-03:00

Resolved
El incidente ha sido resuelto y el sistema se encuentra operable al 100% nuevamente.
Posted Dec 03, 2018 - 19:18 GMT-03:00
Monitoring
El problema ya ha sido detectado y se ha desplegado un parche que corrige el error. Tomará unos 15 minutos para que se propague por toda la infraestructura. El servicio se reincorporará de manera paulatina.
Posted Dec 03, 2018 - 16:53 GMT-03:00
Identified
Estamos experimentando problemas con los nombres y descripciones de los procesos en el home. Hemos identificado el problema y estamos trabajando para solucionarlo.
Posted Dec 03, 2018 - 16:19 GMT-03:00
This incident affected: API and App.