Regresar
No disponible

Fallas en algunos servicios

Dic 11 at 11:04pm CST
Servicios afectados
Sitio Web Ameniti
Canales de Soporte Ameniti
Ameniti API - Reservaciones
Ameniti API - Autenticación
Ameniti API - iOS and Android Apps

Resuelto
Dic 12 at 09:07am CST

🛠️ Postmortem de Incidente

Ameniti – Fallas en algunos servicios

Fecha: 11–12 de diciembre

Estado: Resuelto


✨ Resumen Ejecutivo

La noche del 11 de diciembre, Ameniti presentó una interrupción parcial en algunos de sus servicios principales, incluyendo el sitio web, APIs y aplicaciones móviles.

El incidente fue causado por un archivo de logs que creció de forma exponencial tras un despliegue rutinario, provocando un consumo inesperado de memoria en uno de nuestros servidores.

El incidente fue identificado, contenido y resuelto en un periodo aproximado de 1 hora y 48 minutos, sin pérdida de información ni afectación a los procesos financieros.


⏱️ Línea de Tiempo

  • Dic 11 – 11:04 pm CST

    Se detecta un número elevado de errores en distintos servicios de Ameniti.

    El equipo de Soporte inicia la investigación.

  • Dic 12 – 12:00 am CST

    Se confirma un comportamiento anómalo persistente.

    Se intensifica el monitoreo para identificar la causa raíz.

  • Dic 12 – 12:30 am CST

    Se identifica el origen del problema y se aplica una corrección inmediata.

    Los servicios comienzan a recuperarse de manera gradual.

  • Dic 12 – 12:52 am CST

    Todos los servicios se encuentran completamente operativos.

    Incidente resuelto.


🔍 Causa Raíz

Durante la mañana del 11 de diciembre, como parte de los procedimientos normales del equipo de desarrollo, se realizó un reemplazo de código para corregir un bug interno.

Durante este proceso:

  • Se utilizó un archivo .log temporal para pruebas y validación.
  • El archivo no fue eliminado antes de llevar los cambios a producción.
  • El motor financiero de Ameniti, que se ejecuta diariamente a las 00:00 hrs, procesó aproximadamente 6,000 pagos y cargos.
  • Cada transacción fue registrada en el archivo .log, provocando un crecimiento exponencial del archivo.

Normalmente, los archivos de logs no representan un problema; sin embargo, en esta ocasión:

  • El archivo alcanzó un tamaño inusual en muy poco tiempo.
  • El mitigador automático de errores de Ameniti, impulsado por AmenitiAI, intentó aplicar un hotfix automático.
  • Al desplegar el hotfix, el archivo defectuoso se duplicó.
  • Esto generó un incremento superior al 300% en el uso de memoria de uno de los servidores, provocando que dejara de responder.

La red distribuida de Ameniti Node intentó absorber la carga para evitar una caída total del sistema; sin embargo, también replicó el archivo defectuoso, amplificando el impacto.


⚙️ Impacto

Servicios afectados de forma parcial:

  • Sitio Web Ameniti
  • Canales de Soporte
  • Ameniti API – Reservaciones
  • Ameniti API – Autenticación
  • Ameniti API – Apps iOS y Android

No hubo:
- Pérdida de datos
- Errores en pagos procesados
- Inconsistencias en estados de cuenta o balances


✅ Resolución

  • El archivo .log fue eliminado.
  • El proceso de logging fue corregido y limitado.
  • Se liberó memoria y se estabilizó el servidor afectado.
  • Se validó el estado de todos los servicios y procesos financieros.

Ameniti se encuentra completamente estable y operando con normalidad.


💚 Cierre

Agradecemos profundamente la paciencia y confianza de nuestra comunidad.

En Ameniti seguimos comprometidos con una plataforma segura, estable y confiable, y utilizamos cada incidente como una oportunidad para fortalecer nuestros sistemas.

Si tienes dudas adicionales, nuestro equipo de soporte está siempre disponible.

Equipo Ameniti

Actualizado
Dic 12 at 12:52am CST

Los servicios se han recuperado.

Actualizado
Dic 12 at 12:30am CST

Hemos identificado la falla y realizado una reparación inmediata; los servicios comienzan a recuperarse de manera gradual.

Actualizado
Dic 12 at 12:00am CST

Hemos continuado observando un número inusual de errores en algunos servicios de Ameniti. Continuamos evaluando los sistemas para identificar la causa.

Creado
Dic 11 at 11:04pm CST

Hemos identificado un número elevado de errores en algunos servicios de Ameniti, el equipo de Soporte ha iniciado la investigación.