Buenos dias,
Os expongo un caso que tengo entre manos por si alguien se ha encontrado en la misma situación.
Nuestro entorno Vmware se compone de 3 Host ESX 4 conectados a una cabina de discos (SAN). Estos 3 host trabajan con HA habilitado. Las maquinas virtuales se definen en los volúmenes presentados desde la SAN.
Esta mañana uno de los tres host ha dejado de estar disponible, no podemos entrar en la gestión via ssh o en local, al introducir las credenciales se queda "congelado" sin mostrarte el prompt del sistema. Las maquinas residentes en este host siguen funcionando.
Al cambiar a la ventana de logging se muestra el mensaje de error siguiente (aproximado, la pantalla corta el mensaje y el log corre bastante) :
LINSCSI : SCSILinuxAbortCommand: The driver failed....
LINSCSI: SCSILinusAbortCommand: Failed driver....
He buscado el error en las KB y la explicacion más aproximada es la referente a este articulo :
Por lo que dice hace referencia a algun problema del storage. Deduzco que se trata de un problema con el storage local ya que las maquinas SAN siguen funcionando.
Posteriormente hemos comprobado que algunas maquinas no se han podido encender ya que el HA decia que no habia recursos suficientes. Como nos urgia, nos hemos visto forzados a desactivar el HA, encender las maquinas afectadas y hacer que los hosts trabajen "isolados".
Viendo que el host afectado no contesta ni responde a nada, pero sus maquinas funcionan, hemos decidido probar a apagar una maquina de manera ordenada, concretamente la maquina que utilizamos como servidor VSphere, con la idea de registrarla por consola en otro host. Con esto queríamos asegurar que la maquina de gestion la tendríamos disponible. El caso es que, al ir a registrarla en local por consola, nos dice que los ficheros estan bloqueados. He seguido las instrucciones de desloqueo de las KB de vmware pero no han dado su fruto, hacen referencia al caso que el bloqueo se de desde la maquina donde ejecutas esas instrucciones y en nuestro caso no es posible ya que no podemos entrar a la maquina en cuestion.
En resumen, tenemos un host que no funciona el qual no podemos administrar y que tiene bloqueadas las maquinas virtuales. Al mover la maquina de gestion am otro nodo nos hemos quedado sin gestion por vcenter y ahora las maquinas trabajan en modo independiente.
Varias son las preguntas :
- Si apagamos el host afectado,¿que posibilidades hay que no vuelva a encederse?
- En caso que no se encienda y desde la SAN los demas host sigan viendo que estas maquinas estan bloqueadas,¿como podemos recuperar o registrar estas maquinas en otro host?
- ¿Existe algun comando para forzar la migracion a otro host aunque el host origen este corrupto? Algo asi a cuando se pierde un controlador de dominio y desde otro ejecutas los comandos para "usurpar" los roles afectados.
Tengo la espereranza que solo se trate de reiniciar el host y ya esta pero nos preparamos para lo peor...
Un saludo.
Eduardo Ferreiro.