Falla general del servicio (resuelto)

Jueves 18

  • 08pm, se ha detectado un problema de inestabilidad en el servidor. El caso está siendo investigado.
  • 10pm, el problema proviene del servicio de virtualización, posiblemente un fallo en el kernel del contenedor o incluso un problema de hardware RAM. Básicamente el VM deja de operar aleatoriamente cada cierto tiempo. El caso sigue siendo investigado. Se esperan constantes intermitencias en las siguientes horas hasta que se pueda determinar el mejor plan de acción.

Viernes 19

  • 07am, el problema de inestabilidad continua. Será necesario reestablecer una image de respaldo general del sistema para luego reponer los respaldos individuales de todos los clientes en ese servidor. El proceso puede demorar aproximadamente unas 8 horas.
  • 10am, Las operaciones de restauración de imagen del sistema están por empezar. Necesariamente el servidor será apagado para realizar dichas tareas. Se estima tiempo de finalización a las 16HLV
  • 11am, se ha detectado que la causa del problema es el servicio MySQL de la máquina virtual, por lo que el sistema host no presenta problemas pero si la virtual que aloja al servicio Plesk. Se está probando una configuración distinta de mysql para ver si no se vuelve a sobrecargar, también se activará el watchdog que vigilará en caso de sobrecarga para actuar sobre el servicio. La restauración de imagen que podría demorar hasta 8 horas queda suspendida por lo pronto.
  • 12pm, La reconfiguración de mysql no funcionó, se procede a la restauración de la imagen.  El proceso puede demorar aproximadamente unas 8 horas.
  • 4pm, Una nueva instancia virtual está siendo configurada. Todos los datos y respaldos de los clientes están a salvo y asegurados en servicios y serán reestablecidos tan pronto el nuevo servidor esté operativo. Las 20HLV sigue siendo una tentativa para regresar a operatividad.
  • 9pm. El proceso de restauración continua en proceso, la imagen ha sido movida a otro rack y está siendo repuesto, son varios terabytes de datos así que demorará algunas horas más.
  • 11pm, lamentablemente la migracion a otro rack (hardware) no funcionó como se esperaba. El servidor funciona pero extremadamente lento. Se ha decidido formatear completamente todo el servidor y empezar a reinstalar y reconfigurar todo. De nuevo: todos los datos de los clientes están a salvo en respaldos remotos. Más noticias tan pronto sea posible.

Sabado 20

  • 2am, el servidor ha sido reinstalado, la instancia virtual ha sido restaurada, se están ahora restaurando los datos de los clientes. El servicio debería regresar a la normalidad en breve.

El servicio vuelve a estar operativo. Aún se realizan tareas menores y por tanto el servicio de soporte continua limitado. La caida en general afectó las últimas 24 horas en un 52%, lo cual representa un 3% del los ultimos 30 días,


Publicado

en

por

Etiquetas: