Inestabilidad en app.rankmi.com
Incident Report for Rankmi
Postmortem

El 16 de abril de 2018, a las 12:26pm, se efectuó el paso a producción cotidiano para la actualización de la plataforma. Ese paso a producción provocó que app.rankmi.com no estuviera disponible.

El problema se produjo por un error circunstancial en donde el deploy se ejecutó sólo parcialmente. Esto generó distintas versiones de la plataforma en nuestros servidores de Amazon lo que produjo un error generalizado en el proceso de recuperación automático de nuestra infraestructura.

Si bien este tipo de errores en los pasos a producción pueden ocurrir, por lo general son fáciles de solucionar y no suelen afectar la disponibilidad de nuestros servicios. En este caso en particular nos demoramos en detectar el problema ya que pensamos que tenía relación con un incidente reciente que habíamos experimentado con nuestro proveedor de servidores AWS. Es por esto que destinamos nuestras energías es buscar una posible solución en algo que no había presentado problemas.

Es importante mencionar que nuestras bases de datos y cualquier tipo de información no se vio afectada producto de este incidente.

Sentimos las molestias que esto ha podido ocasionar. Saludos cordiales, Equipo Rankmi

Posted Apr 17, 2018 - 11:30 GMT-03:00

Resolved
Se finalizó la investigación.
Nuestros sistemas se encuentran funcionando con normalidad.
Posted Apr 16, 2018 - 23:38 GMT-03:00
Update
Resultados de la investigación: a las 12:26PM del día de hoy se efectuó un paso a producción rutinario. En este release se incluían cambios a la base de datos en forma de migraciones. Una de las migraciones, por causas que estamos investigando, fue ejecutada de manera incorrecta. Esto generó que las versiones de la aplicación fueran distintas en alguno de los servidores generando errores e inconsistencias en el funcionamiento del API. Lo anterior generó un loop en el sistema de monitoreo del sistema reemplazando las máquinas dado que estas no respondían.

Finalmente la configuración se reestableció de manera automática previo reinicio del monitor de salud permitiendo que el servicio levantara nuevamente.

Actualmente estamos monitoreando el estado del API.
Posted Apr 16, 2018 - 16:01 GMT-03:00
Monitoring
Actualmente estamos revisando las configuraciones en nuestros servicios de monitoreo y distintos servidores para identificar la causa raíz del problema. Estamos en contacto directo con el soporte de Amazon para tener claridad de una solución.
Posted Apr 16, 2018 - 14:47 GMT-03:00
Update
app.rankmi.com está nuevamente disponible para todos los usuarios.

Hemos detectado una posible causa del problema: La verificación en la salud de nuestras instancias de servidores por parte del balanceador de carga está arrojando falso positivo. El sistema asume que hay un error masivo e intenta reemplazar los servidores para levantar el sistema de manera automática. Esto genera un loop y la acción se repite.
Estamos investigando junto a encargados de Amazon una posible causa y solución a largo plazo.
Posted Apr 16, 2018 - 13:21 GMT-03:00
Investigating
A las 12:41 PM se generó una alerta del sistema de monitoreo de la aplicación por lo que la dirección app.rankmi.com no está disponible. Estamos trabajando para solucionar y restablecer el sistema.
Posted Apr 16, 2018 - 12:34 GMT-03:00