WinterNode - MC.LON3 Unavailable – Detalles del incidente

Sistemas funcionando con normalidad

MC.LON3 Unavailable

Resuelto
Interrupción mayor
Iniciado el hace 4 mesesDuró 2 días

Afectado

London - Minecraft

Interrupción mayor de 6:21 AM a 12:36 AM, En funcionamiento de 6:21 AM a 7:05 PM, Interrupción mayor de 12:36 AM a 5:49 PM, En funcionamiento de 7:05 PM a 5:49 PM

mc.lon3.inviernode.com

Interrupción mayor de 6:21 AM a 5:49 PM

mc.lon5.inviernode.com

En funcionamiento de 6:21 AM a 5:49 PM

Actualizaciones
  • Resuelto
    Resuelto

    Estimados clientes de MC.LON3,

    Nos complace informarle que la base de datos MySQL se ha migrado con éxito a MC.LON5.

    Si está utilizando nuestras bases de datos MySQL, deberá realizar las siguientes acciones:

    • Restablezca sus contraseñas de MySQL visitando la página Bases de datos.

    • Reconfigura los complementos o mods en el nuevo host de la base de datos MySQL y actualiza la contraseña a la que se acaba de asignar según el punto anterior. Las contraseñas actuales que se usaban en MC.LON3 ya no funcionan .

    Tus IP han cambiado, pero tus puertos siguen siendo los mismos. 💙 Si estás usando un subdominio provisto por WinterNode, necesitarás volver a crearlos para asegurarte de que apunten a la nueva combinación de IP y puerto asignada a tu servidor. Si estás usando tu propio dominio, asegúrate de que tus registros DNS estén actualizados como corresponde. Además, para los clientes con una IP dedicada, hemos agregado puertos IP dedicados adicionales para su uso. 🤣

    Como parte de nuestro esfuerzo por resolver este problema, aplicaremos automáticamente un crédito del 50 % del monto de renovación de su servicio a su cuenta dentro de las próximas 24 horas. No es necesario que haga nada y el crédito se aplicará a su próxima factura, ajustando los pagos automáticos.

    También nos complace anunciar que MC.LON5 cuenta con un hardware mejorado, que ofrece un mejor rendimiento para sus servicios.

    Realmente apreciamos su paciencia y comprensión mientras trabajamos en este incidente durante los últimos días.

    Se ha restablecido todo el acceso. Si necesita ayuda, nuestro equipo de soporte estará encantado de ayudarle en nuestro servidor de Discord.

  • Actualizar
    Actualizar

    Hemos cambiado con éxito la conexión de MC.LON3 a MC.LON5. Se han restaurado los archivos del servidor y es posible que pueda verlos en el Administrador de archivos (no en SFTP por el momento, ya que aún necesitamos realizar cambios en el lado del administrador) suponiendo que el nodo no esté actualmente en modo de mantenimiento.

    Por favor, no interactúe todavía con su servidor , ya que aún necesitamos reasignar las IP (desafortunadamente, se le asignarán nuevas IP), también necesitará eliminar y volver a crear sus subdominios para apuntar a las nuevas IP, y aún necesitamos restaurar la base de datos MySQL.

    Cruzamos los dedos 🤞 y tocamos madera para decir que estamos en la recta final. Como siempre, os mantendremos informados.

  • Actualizar
    Actualizar

    Hemos enviado con éxito un correo electrónico a todos los clientes de MC.LON3 suscritos a este incidente.

    Actualmente estamos en el proceso de restaurar los datos de los clientes de MC.LON3 desde la copia de seguridad del 28 de agosto a las 2 a. m., hora central, a nuestro nuevo nodo MC.LON5. También tuvimos la suerte de poder obtener lentamente una copia de seguridad de MySQL entre los constantes reinicios inesperados de MC.LON3, pero nos gustaría recordarles a los clientes que no se realizan copias de seguridad de MySQL.

    En este momento, estamos trabajando con nuestro proveedor de panel para restaurar el acceso del cliente a través de nuestra nueva instancia.

    Ya está prevista una compensación en forma de crédito en cuenta para aquellos clientes afectados por este incidente.

    Agradecemos su paciencia y apoyo mientras superamos este incidente juntos.

    La máquina MC.LON3 también sigue sin estar en línea en el momento de esta actualización. Si vuelve a estar en línea, no se recomienda realizar ningún cambio, ya que el acceso se está transfiriendo a MC.LON5 y/o no se transferirán los datos de MC.LON3.

  • Identificado
    Identificado

    Poniendo este incidente al día...

    Durante la noche y la mañana del 29 de agosto, hemos observado numerosos reinicios de máquinas. Debido a la velocidad de los reinicios inesperados, es difícil diagnosticar el nodo o impedir que se inicien servicios. Este problema sigue ocurriendo en este momento.

    Alrededor de las 9 a. m., hora del Pacífico, hoy, utilizamos todos los canales de comunicación con nuestro proveedor para expresar nuestra frustración y brindar más información para que nuestro proveedor de servicios reevalúe el problema como NO relacionado con el software.

    Alrededor de las 11:59 a. m., el diagnóstico de hardware de nuestro proveedor marcó la prueba de reinicio en el sistema operativo del cliente como "INACTIVO". Cuando intentaron cambiar a otro servidor de repuesto, descubrieron errores SMART en ambas unidades. Puede leer más sobre qué son los errores SMART en este artículo proporcionado por Seagate: https://www.seagate.com/support/kb/my-system-reported-a-smart-error-on-the-drive-184619en

    A los pocos minutos de recibir este aviso, nuestro equipo tomó la decisión de que el equipo de intervención intentara reemplazar una unidad para poder evaluar la situación y, al menos, volver a poner en funcionamiento el sistema operativo. También solicitamos en un ticket independiente que se intentara reemplazar también el hardware de RAM. Esta solicitud se cerró porque la solicitud de reemplazo de la unidad aún estaba en curso.

    Acabamos de recibir la siguiente comunicación con respecto a la solicitud de reemplazo de unidad.

    Fecha 2024-08-29 21:38:05 BST (UTC +01:00), Reemplazo de componente:

    Después de una profunda resolución de problemas, los errores inteligentes en los discos fueron causados por la tarjeta Raiser.

    Reemplacé la tarjeta Raiser, probé varias veces el disco en el servidor y no se mostraron errores.

    enviado de vuelta al cliente de rescate

    ping ok

    ipmi está bien

    Sin embargo, en este momento, seguimos observando reinicios inesperados y alertas de equipos fuera de servicio. Aún estamos analizando internamente nuestras opciones.

    Mantendremos informados a nuestros clientes sobre este incidente. Pedimos disculpas por las molestias, pero este problema no está bajo nuestro control directo.

    Recomendamos suscribirse a este incidente a través del correo electrónico: https://status.winternode.com/cm0fynyjy00271jjf1rhsvohj/subscribe/email

  • Investigando
    Investigando

    Tras el incidente anterior, nuestro sistema de monitoreo activó una alerta automática a las 11:21 p. m., hora del Pacífico, el 28 de agosto y notificó a nuestro equipo. Actualmente estamos investigando este incidente y monitoreando nuestras comunicaciones con nuestro proveedor de servicios para asegurarnos de que se tome una decisión.