WinterNode - Historial de avisos

Sistemas funcionando con normalidad

Historial de avisos

ago 2024

MC.LON3 Unavailable
  • Resuelto
    Resuelto

    Estimados clientes de MC.LON3,

    Nos complace informarle que la base de datos MySQL se ha migrado con éxito a MC.LON5.

    Si está utilizando nuestras bases de datos MySQL, deberá realizar las siguientes acciones:

    • Restablezca sus contraseñas de MySQL visitando la página Bases de datos.

    • Reconfigura los complementos o mods en el nuevo host de la base de datos MySQL y actualiza la contraseña a la que se acaba de asignar según el punto anterior. Las contraseñas actuales que se usaban en MC.LON3 ya no funcionan .

    Tus IP han cambiado, pero tus puertos siguen siendo los mismos. 💙 Si estás usando un subdominio provisto por WinterNode, necesitarás volver a crearlos para asegurarte de que apunten a la nueva combinación de IP y puerto asignada a tu servidor. Si estás usando tu propio dominio, asegúrate de que tus registros DNS estén actualizados como corresponde. Además, para los clientes con una IP dedicada, hemos agregado puertos IP dedicados adicionales para su uso. 🤣

    Como parte de nuestro esfuerzo por resolver este problema, aplicaremos automáticamente un crédito del 50 % del monto de renovación de su servicio a su cuenta dentro de las próximas 24 horas. No es necesario que haga nada y el crédito se aplicará a su próxima factura, ajustando los pagos automáticos.

    También nos complace anunciar que MC.LON5 cuenta con un hardware mejorado, que ofrece un mejor rendimiento para sus servicios.

    Realmente apreciamos su paciencia y comprensión mientras trabajamos en este incidente durante los últimos días.

    Se ha restablecido todo el acceso. Si necesita ayuda, nuestro equipo de soporte estará encantado de ayudarle en nuestro servidor de Discord.

  • Actualizar
    Actualizar

    Hemos cambiado con éxito la conexión de MC.LON3 a MC.LON5. Se han restaurado los archivos del servidor y es posible que pueda verlos en el Administrador de archivos (no en SFTP por el momento, ya que aún necesitamos realizar cambios en el lado del administrador) suponiendo que el nodo no esté actualmente en modo de mantenimiento.

    Por favor, no interactúe todavía con su servidor , ya que aún necesitamos reasignar las IP (desafortunadamente, se le asignarán nuevas IP), también necesitará eliminar y volver a crear sus subdominios para apuntar a las nuevas IP, y aún necesitamos restaurar la base de datos MySQL.

    Cruzamos los dedos 🤞 y tocamos madera para decir que estamos en la recta final. Como siempre, os mantendremos informados.

  • Actualizar
    Actualizar

    Hemos enviado con éxito un correo electrónico a todos los clientes de MC.LON3 suscritos a este incidente.

    Actualmente estamos en el proceso de restaurar los datos de los clientes de MC.LON3 desde la copia de seguridad del 28 de agosto a las 2 a. m., hora central, a nuestro nuevo nodo MC.LON5. También tuvimos la suerte de poder obtener lentamente una copia de seguridad de MySQL entre los constantes reinicios inesperados de MC.LON3, pero nos gustaría recordarles a los clientes que no se realizan copias de seguridad de MySQL.

    En este momento, estamos trabajando con nuestro proveedor de panel para restaurar el acceso del cliente a través de nuestra nueva instancia.

    Ya está prevista una compensación en forma de crédito en cuenta para aquellos clientes afectados por este incidente.

    Agradecemos su paciencia y apoyo mientras superamos este incidente juntos.

    La máquina MC.LON3 también sigue sin estar en línea en el momento de esta actualización. Si vuelve a estar en línea, no se recomienda realizar ningún cambio, ya que el acceso se está transfiriendo a MC.LON5 y/o no se transferirán los datos de MC.LON3.

  • Identificado
    Identificado

    Poniendo este incidente al día...

    Durante la noche y la mañana del 29 de agosto, hemos observado numerosos reinicios de máquinas. Debido a la velocidad de los reinicios inesperados, es difícil diagnosticar el nodo o impedir que se inicien servicios. Este problema sigue ocurriendo en este momento.

    Alrededor de las 9 a. m., hora del Pacífico, hoy, utilizamos todos los canales de comunicación con nuestro proveedor para expresar nuestra frustración y brindar más información para que nuestro proveedor de servicios reevalúe el problema como NO relacionado con el software.

    Alrededor de las 11:59 a. m., el diagnóstico de hardware de nuestro proveedor marcó la prueba de reinicio en el sistema operativo del cliente como "INACTIVO". Cuando intentaron cambiar a otro servidor de repuesto, descubrieron errores SMART en ambas unidades. Puede leer más sobre qué son los errores SMART en este artículo proporcionado por Seagate: https://www.seagate.com/support/kb/my-system-reported-a-smart-error-on-the-drive-184619en

    A los pocos minutos de recibir este aviso, nuestro equipo tomó la decisión de que el equipo de intervención intentara reemplazar una unidad para poder evaluar la situación y, al menos, volver a poner en funcionamiento el sistema operativo. También solicitamos en un ticket independiente que se intentara reemplazar también el hardware de RAM. Esta solicitud se cerró porque la solicitud de reemplazo de la unidad aún estaba en curso.

    Acabamos de recibir la siguiente comunicación con respecto a la solicitud de reemplazo de unidad.

    Fecha 2024-08-29 21:38:05 BST (UTC +01:00), Reemplazo de componente:

    Después de una profunda resolución de problemas, los errores inteligentes en los discos fueron causados por la tarjeta Raiser.

    Reemplacé la tarjeta Raiser, probé varias veces el disco en el servidor y no se mostraron errores.

    enviado de vuelta al cliente de rescate

    ping ok

    ipmi está bien

    Sin embargo, en este momento, seguimos observando reinicios inesperados y alertas de equipos fuera de servicio. Aún estamos analizando internamente nuestras opciones.

    Mantendremos informados a nuestros clientes sobre este incidente. Pedimos disculpas por las molestias, pero este problema no está bajo nuestro control directo.

    Recomendamos suscribirse a este incidente a través del correo electrónico: https://status.winternode.com/cm0fynyjy00271jjf1rhsvohj/subscribe/email

  • Investigando
    Investigando

    Tras el incidente anterior, nuestro sistema de monitoreo activó una alerta automática a las 11:21 p. m., hora del Pacífico, el 28 de agosto y notificó a nuestro equipo. Actualmente estamos investigando este incidente y monitoreando nuestras comunicaciones con nuestro proveedor de servicios para asegurarnos de que se tome una decisión.

MC.LON3 Unavailable
  • Resuelto
    Resuelto

    A las 7:20 a. m. de hoy, recibimos una respuesta de nuestro proveedor de servicios diciendo que todavía creen que se trata de un problema relacionado con el software y que debemos consultar a un "profesional de Linux" para obtener más ayuda.

    Hemos aplicado los últimos parches al nodo para reducir la probabilidad de que siga siendo un error de software extraño. Sin embargo, es posible que se requiera una mayor intervención por nuestra parte.

    Desde el último reinicio detectado a las 4:46 p. m., hora del Pacífico, el 25 de agosto de 2024, no hemos recibido ninguna notificación nueva de reinicios inesperados ni de problemas con los servicios del cliente. Por este motivo, cerraremos este incidente y evaluaremos nuestras opciones para el futuro.

  • Supervisando
    Supervisando

    El equipo de soporte técnico de nuestro proveedor de servicios solo está disponible de 8 a. m. a 6 p. m. de lunes a viernes. Si bien hemos probado otras vías, no podemos acceder al mismo equipo que maneja las intervenciones, a menos que haya uno activo. Sin embargo, nuestro ticket fue priorizado y esperamos que sea respondido al comienzo de su turno en aproximadamente 3 horas a partir de ahora. Desde nuestra última actualización, ocurrieron algunos reinicios inesperados más, pero se ha estabilizado en las últimas horas.

    Todavía esperaremos la respuesta de nuestro proveedor de servicios para asegurarnos de que podemos reducir la probabilidad de otro incidente prolongado.

  • Actualizar
    Actualizar

    Hemos solicitado más información a nuestro proveedor de servicios sobre este problema. Aunque parece que un reinicio de la máquina ha restablecido la conectividad de red y ha permitido a los clientes encender su servidor, se solicita a los clientes de MC.LON3 que se abstengan de encender su servidor si esperan que permanezca en línea durante un tiempo, para evitar la pérdida de datos debido a apagados no ordenados.

    Seguiremos monitoreando la situación desde nuestra parte y transmitiremos cualquier actualización adicional a medida que surja. Agradecemos su paciencia.

  • Investigando
    Investigando

    Nuestro sistema de monitoreo activó otra alerta automática a las 14:55. Ya se abrió automáticamente una solicitud de intervención y se cerró posteriormente a las 15:05 con los resultados de la prueba y se cree que está "relacionado con el software y no puede ser reparado por los técnicos del centro de distribución".

    Para dar contexto, cuando el proveedor de servicios cerró su intervención a la 1:43 p. m., hora del Pacífico, realizó un reemplazo de hardware a uno que "recientemente pasó nuestras exhaustivas verificaciones de preparación"/"servidor de repuesto que se sabe que funciona" y trasladó nuestras unidades de la máquina anterior.

    Nuestro equipo ahora analizará el IPMI e investigará por qué podría ocurrir esto.

  • Supervisando
    Supervisando

    Nuestro proveedor de servicios concluyó su intervención a las 13:43, hora del Pacífico. Desde entonces, hemos realizado diligentemente los cambios necesarios de nuestra parte para restablecer la red en la máquina. Estaremos monitoreando cualquier problema adicional. Se recomienda a todos los clientes de MC.LON3 que enciendan su servidor y notifiquen a nuestro equipo de soporte si enfrentan algún problema al iniciar su servidor.

    Se proporcionará más información sobre este incidente en la Actualización de incidente "Resuelto".

  • Actualizar
    Actualizar

    A las 11:33 a. m., hora del Pacífico, todavía estamos esperando la intervención del proveedor de servicios. Nuestro sistema de monitoreo ha estado informando breves momentos de estado activo y no operativo para las solicitudes de ping. No podemos verificar de forma remota el estado del servidor hasta que haya concluido la intervención. Pedimos disculpas por las molestias.

  • Investigando
    Investigando

    Nuestro sistema de monitoreo ha activado una alerta automática y nuestro equipo ha sido notificado. Actualmente estamos investigando este incidente de nuestra parte y con el proveedor.

jul 2024

Undetermined problem - details to follow
  • Resuelto
    Resuelto

    Experimentamos un problema con nuestro conmutador de distribución de red que proporciona conectividad a nuestra infraestructura de Chicago. Después de reiniciar el conmutador, se restableció la conectividad en todos los nodos.

    Si aún tiene problemas, háganoslo saber a través del chat en vivo o Discord.

  • Investigando
    Investigando

    Hemos detectado un problema relacionado con los servicios de WinterNode.com Chicago y estamos investigando activamente.

    Más detalles a seguir.

jun 2024

No se reportaron avisos este mes

jun 2024 a ago 2024

Siguiente