14 Juin 2018

SSD grand public et Serveur de prod … ;-(

Bonjour à tous,

Petit retour d’expérience sur un serveur client.

Nous avons un nouveau client depuis Mars, tout se passe très bien etc. Lors de mon audit je lui ai fait remarqué que sur son serveur de prod il y a 2 SSD Kingston de 256 Go non officiel HP. Je fais mon printscreen et lui envoi ma remarque (dans le logiciel HP Raid, le serveur détecte ces disques comme n’étant pas des disques HP original et qu’il n’y aura pas de contrôle de led d’activité). Je lui explique que c’est “moyen” et que je préférerais avoir des disques dur SAS d’origine HP.

Tout se passe  bien pendant quelques mois, l’activité suis son cours. Hier soir je fais la maintenance des serveurs à distance (contrôle de backup etc.) et je décide d’éteindre les 2 VM sur ce serveur et le serveur physique (dépoussiérage prévu le lendemain matin à 07h00, avant reprise de la prod).

Le lendemain j’arrive, dépoussiérage etc, remise en route du serveur physique (2012 R2), RAS.

Remise en route des VM et là ça coince, impossible de les redémarrer. Je reçoit dans la foulée ce message “The operation cannot be performed while the object is in its current state. ”

Comme tout le monde, je commence à vérifier les VM, VHDX etc. Une fois que j’ai fais le tour allez hop on lance quelques petites recherches google sans plus de résultat.

Après analyse je me rend compte que le soucis n’est pas des VM en elle même mais plutôt sur la partie physique (partie matériel), impossible de créer des fichiers sur le bureau, à la racine du C par contre c’est possible sur les autres disques dur qui compose le serveur (RAID 5 de 600 Go).

Par habitude, je regarde dans les outils HP Raid et là je vois des avertissements qui ne me plaisent pas dans le genre “le disque dans la cage 1 baie 1 disque1 va devenir inopérationnel”. Ce message est pour les 2 disques dur SSD.

Je retourne voir le client et lui dit :

Moi -> “Mr le client j’ai un doute sur vos disques car si je me souvient bien lors de mon audit, il y a quelques mois, il n’y avait que quelques messages d’avertissements et là j’en ai beaucoup trop” (Oui j’ai une assez bonne mémoire visuelle 😉 )

Client -> Ha bon ha bon, ça m’étonnerait de toute façon que les deux disques dur tombent en panne en même temps, impossible … en plus ils n’ont que quelques Mois.

Moi -> Ben oui je veux bien mais si les outils HP me retournent ces messages, c’est qu’il y a un truc qui colle pas. Ensuite je lui fait la bonne vieille remarque ” Vous savez Mr, l’informatique c’est comme nous, un jour on est là, le lendemain et ben … peut être plus”

Dans le doute il cherche dans son bureau et trouve un SSD tout neuf, je décide de le mettre en place à la place d’un disque et la reconstruction se fait. Je décide ensuite d’enlever le second disque pour n’en laisser qu’un de valide (c’est vrai l’avantage du SSD pour la reconstruction RAID c’est top 1 heure). Le client en trouve un second quasi neuf, allez hop je le met et ça reconstruit, du coup plus de message d’erreur disque inopérationnel disparait des outils HP Raid, cool on avance mais les VM ne démarre toujours pas.

En powershell je fais un Get-PhysicalDisk et là dans la colonne Healthstatus je vois = scan needed. Allez hop chkdsk /f c et le serveur redémarre et analyse (la boule au ventre quand même du serveur physique qui ne va pas démarrer me guette…) Le chkdsk analyse, répare et le serveur redémarre ouffff, c’est déjà ça de fait.

Nous relançons les VM et ça redémarre picco bello c’est gagné.

Du coups je dis au client

Moi -> “Vous savez ça ne m’intéresse pas d’avoir un serveur qui démarre rapidement sur des SSD, je préfère la longévité du système et préfère attendre 10 min de plus devant le serveur (ou plutôt la machine à café).

Client -> “Oui pas faux”

Moi -> “Alors svp, appeler votre partenaire qui vous vends le matériel et commandez lui 2 Disques dur SAS 10 000 tr/min”

Client -> ” Ok je le fais en urgence”

Conclusion => Même si le matériel grand public peut, dans certain cas, fonctionner sur les serveurs et est moins cher que du matériel Pro, ce n’est pas un hasard et il y a une bonne raison. Ici dans notre cas je pense aux cellules du SSD qui ont fait le tour et qui commençait à faiblir. Ne pas oublier qu’un Serveur tourne 24/7/365 et ça les SSD grands public ne sont pas conçu pour …