Nun bin auch ich mal in den Genuss gekommen, dass mir eine NVMe bei Hetzner kaputt gegangen ist. Mitten in der Nacht meldete mein Monitoring – !! ALAAARM !!. Eine der beiden NVMe ist ausgefallen, aber das war eh nur eine Frage der Zeit.

In meinem Falle waren/sind Toshiba NVMe’s verbaut, wobei diese beiden schon lange über Ihrer Lebenserwartung angekommen sind. Die Angabe Wearout 255% gibt mir schon den Hinweis das diese schon bald ausfallen werden. Hier mal ein Beitrag von mir zu diesem Thema: Proxmox Disk Wearout – Wie ist der Wert zu deuten? Erklärung

Systemzustand analysieren und beim Support melden

Als erstes wenn wir bemerken das eine Disk ausgefallen ist, ist natürlich das finden der entsprechenden Disk. Das ist meist schwierig, da keiner sich die Serialnummer aufschreibt. Aber Hetzner bietet einem an die “heile” Disk anzugeben, um damit die 2 Defekte zu identifizieren. Aber hier mal eine Liste an was Ihr so in dieser Brenzlichen Situation tun/beachten solltet.

  • Ruhe bewahren – Eure Daten sind nicht verloren
  • Disks identifizieren und die richtige aufschreiben / dokumentieren
  • System bestenfalls in einen sicheren Zustand bringen, ggf. jetzt schon ausschalten
  • Beim Hetzner Support melden, mit genauen und bestmöglichen Informationen
  • Für Rückfragen zur Verfügung stehen

System ist wieder Verfügbar

Offizielle Hetzner Anleitungen: HIER KLICKEN <– Hier findet Ihr fast alles.

Nachdem der Techniker von Hetzner deine Disk ausgetauscht hat, wird das System auch wieder gestartet und sollte sobald dir wieder zur Verfügung stehen. Jetzt heißt es deine Raids oder gar Spiegel neu zu synchronisieren.

Schau dir erstmal an ob die neue Disk erkannt wird. Je nachdem was für ein OS du installiert hast unterscheidet sich das natürlich. Wenn alles stimmt, muss man überlegen wie diese Disk in das System eingebunden war. In einem MDADM und/oder ZFS Dateisystem oder vielleicht sogar beides?

Schau dir bestenfalls mal die Partitionsinformationen von der noch gesunden Disk an. Das auslesen geht sogar super einfach mit ” sfdisk –dump /dev/<deine-disk>“. Damit lässt sich auch die Partitiontable zu der neuen Disk kopieren. Aber folge einfach der Hetzneranleitung.

  • Ruhe bewahren – Euren Daten geht es weiterhin gut
  • Systemzustand analysieren
  • Neue Disk identifizieren – Bestandsdisk identifizieren
  • Eure Raid-Konfiguration verstehen – (MDADM, ZFS, Raid-Controller)
  • Ggf. Partitionen widerherstellen (sfdisk) [GPT oder MBR?]
  • Weiterhin Ruhe bewahren – Nicht die falsche Disk auswählen – Tasse Kaffee holen
  • Die Partitionen wieder in die Raid Spiegel aufnehmen
  • Nach und nach… Nicht sofort alles.. Das Spiegeln dauert seine Zeit
  • Status prüfen und das nächste Verbund Spiegeln
  • Fertig
ZFS - Alles wieder OK?
ZFS – Alles wieder OK?

Weitere Hinweise und Tipps

Ganz ehrlich, wenn ihr euch nicht zurecht findet, fragt bitte jemanden der euch helfen kann. Wählt Ihr die falsche Disk aus, kann das unter Umständen zum Datenverlust führen. In meiner Discord Community sind viele nette helfende Hände die dir hilfreiche Tipps geben können. Zum Discord Kanal

Grundsätzlich ist der Ausfall einer Disk kein Beinbruch, denn die Chance das die zweite oder weitere Disks ausfallen während dessen sind wirklich gering. Mach dich also nicht verrückt wenn das Spiegel teilweise mehrere Stunden oder Tage dauern kann. Große HDDs sind nicht die schnellsten und brauchen gerade auch wenn Last auf denen liegt sehr lange.

  • Denkst du zukünftig an deine Backups?
  • Klappt auch dein Restore? Getestet?
  • Funktioniert dein Monitoring? Bekommst du zeitnah Info wenn etwas ausfällt?
  • Sind Unternehmensrelevante Prozess betroffen? Doppelte Absicherung?
  • Im Falle das ALLES ausfällt, hast du zumindest einen groben Plan?