WinterNode - MC.LON3 Unavailable – Detalles del incidente

mc.lon3.winternode.com en mantenimiento

MC.LON3 Unavailable

Resuelto
Interrupción mayor
Iniciado el hace 23 díasDuró alrededor de 21 horas

Afectado

London - Minecraft

Interrupción mayor de 6:27 PM a 9:23 PM, En funcionamiento de 9:23 PM a 11:07 PM, Rendimiento degradado de 11:07 PM a 3:30 PM

mc.lon3.winternode.com

Interrupción mayor de 6:27 PM a 9:23 PM, En funcionamiento de 9:23 PM a 11:07 PM, Rendimiento degradado de 11:07 PM a 3:30 PM

Actualizaciones
  • Resuelto
    Resuelto

    A las 7:20 a. m. de hoy, recibimos una respuesta de nuestro proveedor de servicios diciendo que todavía creen que se trata de un problema relacionado con el software y que debemos consultar a un "profesional de Linux" para obtener más ayuda.

    Hemos aplicado los últimos parches al nodo para reducir la probabilidad de que siga siendo un error de software extraño. Sin embargo, es posible que se requiera una mayor intervención por nuestra parte.

    Desde el último reinicio detectado a las 4:46 p. m., hora del Pacífico, el 25 de agosto de 2024, no hemos recibido ninguna notificación nueva de reinicios inesperados ni de problemas con los servicios del cliente. Por este motivo, cerraremos este incidente y evaluaremos nuestras opciones para el futuro.

  • Supervisando
    Supervisando

    El equipo de soporte técnico de nuestro proveedor de servicios solo está disponible de 8 a. m. a 6 p. m. de lunes a viernes. Si bien hemos probado otras vías, no podemos acceder al mismo equipo que maneja las intervenciones, a menos que haya uno activo. Sin embargo, nuestro ticket fue priorizado y esperamos que sea respondido al comienzo de su turno en aproximadamente 3 horas a partir de ahora. Desde nuestra última actualización, ocurrieron algunos reinicios inesperados más, pero se ha estabilizado en las últimas horas.

    Todavía esperaremos la respuesta de nuestro proveedor de servicios para asegurarnos de que podemos reducir la probabilidad de otro incidente prolongado.

  • Investigando
    Actualizar

    Hemos solicitado más información a nuestro proveedor de servicios sobre este problema. Aunque parece que un reinicio de la máquina ha restablecido la conectividad de red y ha permitido a los clientes encender su servidor, se solicita a los clientes de MC.LON3 que se abstengan de encender su servidor si esperan que permanezca en línea durante un tiempo, para evitar la pérdida de datos debido a apagados no ordenados.

    Seguiremos monitoreando la situación desde nuestra parte y transmitiremos cualquier actualización adicional a medida que surja. Agradecemos su paciencia.

  • Investigando
    Investigando

    Nuestro sistema de monitoreo activó otra alerta automática a las 14:55. Ya se abrió automáticamente una solicitud de intervención y se cerró posteriormente a las 15:05 con los resultados de la prueba y se cree que está "relacionado con el software y no puede ser reparado por los técnicos del centro de distribución".

    Para dar contexto, cuando el proveedor de servicios cerró su intervención a la 1:43 p. m., hora del Pacífico, realizó un reemplazo de hardware a uno que "recientemente pasó nuestras exhaustivas verificaciones de preparación"/"servidor de repuesto que se sabe que funciona" y trasladó nuestras unidades de la máquina anterior.

    Nuestro equipo ahora analizará el IPMI e investigará por qué podría ocurrir esto.

  • Supervisando
    Supervisando

    Nuestro proveedor de servicios concluyó su intervención a las 13:43, hora del Pacífico. Desde entonces, hemos realizado diligentemente los cambios necesarios de nuestra parte para restablecer la red en la máquina. Estaremos monitoreando cualquier problema adicional. Se recomienda a todos los clientes de MC.LON3 que enciendan su servidor y notifiquen a nuestro equipo de soporte si enfrentan algún problema al iniciar su servidor.

    Se proporcionará más información sobre este incidente en la Actualización de incidente "Resuelto".

  • Investigando
    Actualizar

    A las 11:33 a. m., hora del Pacífico, todavía estamos esperando la intervención del proveedor de servicios. Nuestro sistema de monitoreo ha estado informando breves momentos de estado activo y no operativo para las solicitudes de ping. No podemos verificar de forma remota el estado del servidor hasta que haya concluido la intervención. Pedimos disculpas por las molestias.

  • Investigando
    Investigando

    Nuestro sistema de monitoreo ha activado una alerta automática y nuestro equipo ha sido notificado. Actualmente estamos investigando este incidente de nuestra parte y con el proveedor.