Fallas en algunos servicios
Resolved
Dec 12 at 09:07am CST
🛠️ Postmortem de Incidente
Ameniti – Fallas en algunos servicios
Fecha: 11–12 de diciembre
Estado: Resuelto
✨ Resumen Ejecutivo
La noche del 11 de diciembre, Ameniti presentó una interrupción parcial en algunos de sus servicios principales, incluyendo el sitio web, APIs y aplicaciones móviles.
El incidente fue causado por un archivo de logs que creció de forma exponencial tras un despliegue rutinario, provocando un consumo inesperado de memoria en uno de nuestros servidores.
El incidente fue identificado, contenido y resuelto en un periodo aproximado de 1 hora y 48 minutos, sin pérdida de información ni afectación a los procesos financieros.
⏱️ Línea de Tiempo
Dic 11 – 11:04 pm CST
Se detecta un número elevado de errores en distintos servicios de Ameniti.
El equipo de Soporte inicia la investigación.Dic 12 – 12:00 am CST
Se confirma un comportamiento anómalo persistente.
Se intensifica el monitoreo para identificar la causa raíz.Dic 12 – 12:30 am CST
Se identifica el origen del problema y se aplica una corrección inmediata.
Los servicios comienzan a recuperarse de manera gradual.Dic 12 – 12:52 am CST
Todos los servicios se encuentran completamente operativos.
Incidente resuelto.
🔍 Causa Raíz
Durante la mañana del 11 de diciembre, como parte de los procedimientos normales del equipo de desarrollo, se realizó un reemplazo de código para corregir un bug interno.
Durante este proceso:
- Se utilizó un archivo
.logtemporal para pruebas y validación. - El archivo no fue eliminado antes de llevar los cambios a producción.
- El motor financiero de Ameniti, que se ejecuta diariamente a las 00:00 hrs, procesó aproximadamente 6,000 pagos y cargos.
- Cada transacción fue registrada en el archivo
.log, provocando un crecimiento exponencial del archivo.
Normalmente, los archivos de logs no representan un problema; sin embargo, en esta ocasión:
- El archivo alcanzó un tamaño inusual en muy poco tiempo.
- El mitigador automático de errores de Ameniti, impulsado por AmenitiAI, intentó aplicar un hotfix automático.
- Al desplegar el hotfix, el archivo defectuoso se duplicó.
- Esto generó un incremento superior al 300% en el uso de memoria de uno de los servidores, provocando que dejara de responder.
La red distribuida de Ameniti Node intentó absorber la carga para evitar una caída total del sistema; sin embargo, también replicó el archivo defectuoso, amplificando el impacto.
⚙️ Impacto
Servicios afectados de forma parcial:
- Sitio Web Ameniti
- Canales de Soporte
- Ameniti API – Reservaciones
- Ameniti API – Autenticación
- Ameniti API – Apps iOS y Android
No hubo:
- Pérdida de datos
- Errores en pagos procesados
- Inconsistencias en estados de cuenta o balances
✅ Resolución
- El archivo
.logfue eliminado. - El proceso de logging fue corregido y limitado.
- Se liberó memoria y se estabilizó el servidor afectado.
- Se validó el estado de todos los servicios y procesos financieros.
Ameniti se encuentra completamente estable y operando con normalidad.
💚 Cierre
Agradecemos profundamente la paciencia y confianza de nuestra comunidad.
En Ameniti seguimos comprometidos con una plataforma segura, estable y confiable, y utilizamos cada incidente como una oportunidad para fortalecer nuestros sistemas.
Si tienes dudas adicionales, nuestro equipo de soporte está siempre disponible.
— Equipo Ameniti
Affected services
Updated
Dec 12 at 12:52am CST
Los servicios se han recuperado.
Affected services
Updated
Dec 12 at 12:30am CST
Hemos identificado la falla y realizado una reparación inmediata; los servicios comienzan a recuperarse de manera gradual.
Affected services
Updated
Dec 12 at 12:00am CST
Hemos continuado observando un número inusual de errores en algunos servicios de Ameniti. Continuamos evaluando los sistemas para identificar la causa.
Affected services
Created
Dec 11 at 11:04pm CST
Hemos identificado un número elevado de errores en algunos servicios de Ameniti, el equipo de Soporte ha iniciado la investigación.
Affected services