El día Jueves 3 de Abril, fue detectado en nuestro cluster de Kubernetes una indisponibilidad de tipo de instancias en AWS, por que lo nuestros servicios perdieron la habilidad de escalar y recuperarse a fallas. Pudimos identificar un problema en nuestros sistemas para el aprovisionamiento de instancias para el correcto escalado de nuestros serivicios.
La incidencia comenzó aproximadamente a las 5:30 pm y se extendió por 25 minutos, cuando logramos estabilizar los servicios afectados.
Acciones:
Plan de acción:
Se han agregado nuevos tipos de instancia soportados a nuestra infraestructura, lo que nos permitirá obtener los recursos de cómputo desde una mayor cantidad de tipos de instancia disponibles .
On Thursday, April 3rd, an instance type unavailability was detected in our Kubernetes cluster on AWS, causing our services to lose the ability to scale and recover from failures. We identified an issue in our systems related to instance provisioning, which affected the proper scaling of our services.
The incident began at approximately 5:30 PM and lasted for 25 minutes until we were able to stabilize the affected services.
Actions Taken:
Action Plan: