Incidencia para acceder a la plataforma
Incident Report for Rankmi
Postmortem

Resumen:

Experimentamos una interrupción del servicio de 1 hora 45 minutos.
El sistema fue restablecido exitosamente
Los protocolos de seguridad y respaldo del sistema lograron que no se registrara pérdida de información.

¿Qué pasó?

El día de viernes 8 de marzo a las 11:40 AM aproximadamente se produjo un problema durante una actualización rutinaria. La configuración de la infraestructura no fue reconocida por el software lo que generó que las personas no pudiesen iniciar sesión.

Posteriormente, para revertir la situación se desplegó una mejora que no era compatible con un parche del sistema operativo desplegado automáticamente por Amazon Web Services (AWS). Lamentablemente no recibimos una notificación previa de este cambio en nuestra infraestructura para poder prevenir este potencial problema.

Lo anterior generó que los servidores en nuestra infraestructura funcionaran de manera aleatoria e impredecible lo que, luego de unos minutos, nos mantuvo con el servicio caído durante un periodo de 1 horas y 45 minutos aproximadamente. Para no provocar problemas de acceso, la aplicación se pasó a modo mantención.

¿Cómo lo solucionamos?

Nuestros ingenieros trabajaron en recuperar la configuración inicial y además actualizar la aplicación para que sea compatible con la nueva versión de AWS. Esto se logró configurando el ambiente de staging (pruebas y demos) para que se comportara como el ambiente de producción.

Es importante recalcar que este tipo de problemas es sumamente inusual y a la vez complejo de solucionar. A pesar de esto, nuestros protocolos de emergencias funcionaron dentro de lo esperado.

Con el objetivo de mantener un servicio acorde a lo que nuestros clientes esperan vamos a revisar y mejorar nuestros procesos de recuperación de errores para hacer estos más eficientes.

Posted Mar 08, 2019 - 15:19 GMT-03:00

Resolved
This incident has been resolved.
Posted Mar 08, 2019 - 15:17 GMT-03:00
Monitoring
El sistema ha sido levantado. Estamos monitoreando el api para estar atentos ante cualquier problema
Posted Mar 08, 2019 - 14:40 GMT-03:00
Update
We are continuing to work on a fix for this issue.
Posted Mar 08, 2019 - 14:31 GMT-03:00
Update
El servicio se ha reincorporado parcialmente.
Posted Mar 08, 2019 - 14:21 GMT-03:00
Identified
Hemos identificado un problema para acceder al login de la aplicación.

Estamos trabajando para solucionar el inconveniente
Posted Mar 08, 2019 - 12:32 GMT-03:00
This incident affected: APIs - Servicios (API) and Aplicación web.