Im Folgenden wird eine Einführung in das Thema RAID gegeben, unter besonderer Berücksichtigung der aktuellen Technologien von Intel, die unter der Produktbezeichnung Intel Matrix-RAID geführt werden. Seit Mitte 2004, ab dem Intel ICH6R-Southbridge Chipsatz, steht diese Technologie zur Verfügung, die alle Vorteile von RAID 0 und RAID 1 auf nur zwei Festplatten vereinigt.

Einführung in RAID unter besonderer Berücksichtigung von Intel Matrix-RAID.

Zum besseren Verständnis folgt hier zunächst eine ausführliche Einführung in das Thema RAID im Allgemeinen, gefolgt von einer Darstellung der möglichen Aufbauten von RAID Systemen und den gebräuchlichsten RAID Leveln. Im weiteren Verlauf folgt dann eine Abhandlung über das Matrix-Intel RAID im Speziellen.

Einleitung

In der Einleitung wird definiert, was der Begriff RAID bedeutet, um welche Art von Technologie es sich hierbei handelt, wie diese strukturiert ist und auf welche technischen Entwicklungen der Vergangenheit sie zurück geht. Weiterhin werden die Anwendungsvorteile von RAID in der Vergangenheit und heute untersucht.

RAID gehört zu den Begriffen, die im Zusammenhang mit Computersystemen zwar von vielen Anwendern bereits einmal gehört wurden, ohne dass sich allerdings bislang einer breiten Öffentlichkeit erschlossen hat, um was es sich bei einem RAID System genau handelt. Dies könnte damit zusammen hängen, dass sich die exakte Bedeutung der Abkürzung RAID im Laufe der vergangenen Jahre geändert hat.

Ursprünglich wurde der Begriff erstmalig im Jahre 1987 in einer Facharbeit der Autoren Patterson, Gibson und Katz an der University of California in Berkeley eingeführt, wobei die Begriffserklärung damals „redundant array of inexpensive disks“, also „Redundante Anordnung kostengünstiger Festplatten“ lautete.

Es verbarg sich dahinter eine Technologie, die innerhalb eines Rechnersystems mehr als eine Festplatte zu einem einzigen logischen Laufwerk zusammenfassen konnte. Für den Anwender erscheint dieser Festplattenverbund als nur eine Festplatte in seinem Rechner, Zielsetzung und Hintergrund war zum damaligen Zeitpunkt die Vermeidung hoher Kosten durch die Anschaffung großer Datenträger. Stattdessen wurden mehrere Festplatten mit kleinerer Kapazität gebündelt, wobei dem höhere Risiko von Ausfällen und Datenverlusten mit dem Schreiben redundanter, also mehrfach vorhandener Daten im Festplattenverbund begegnet wurde. Gehören Redundanzen gewöhnlicherweise zu Speichererscheinungen, die es zu vermeiden gilt, so wurden sie hier als Sicherheitselement forciert. Die Anordnung solcher mehrfach auf den Platten vorhandener Daten bezeichnete man als RAID-Level.

Die damalige Technologie trug dem Umstand Rechnung, dass zu dieser Zeit Festplatten mit großem Volumen unverhältnismäßig teuer waren, während mehrere kleinere Volumen, kalkuliert über den Gesamtwert ihres Speichervolumens in der Anschaffung vergleichsweise günstiger lagen.

Die Situation hat sich im Laufe der letzten Jahre geändert, die Preise, selbst für große Festplatten sind drastisch gesunken, so dass die Bündelung von Platten zur Reduzierung von Anschaffungskosten schon bald keinen Sinn mehr machte, schon gar nicht vor dem Hintergrund des Aufwandes, den es zur Einrichtung eines RAID Systems zu tragen galt.

Anstelle der Kostenproblematik traten nun zwei andere Probleme, vor allem vor dem Hintergrund moderner Servertechnologie. Hier war es nun zum einen nötig, einen weitaus höheren Datendurchsatz darstellen zu können, da immer mehr Anwender gleichzeitig auf immer größere Datenvolumina zugreifen sollten, zum anderen sollten Systeme insofern sicherer werden, als dass es möglich sein sollte, im laufenden Rechnerbetrieb einzelne Festplatten entnehmen und ersetzen zu können, ohne den Rechner- bzw. Serverbetrieb als solchen zu unterbrechen oder zu stören.

Die RAID-Technologie, ursprünglich aus Gründen der Kostenersparnis eingeführt, lieferte auch für diese Anforderung ein überzeugendes Konzept. Innerhalb der Begriffserklärung wurde nur eine minimale Änderung vorgenommen, aus dem ehemaligen Begriff „inexpensive“ wurde stattdessen der Begriff „independent“, also unabhängig, so dass RAID heutigen Tages mit „redundant array of independent disks“ definiert wird, also „Redundante Anordnung unabhängiger Festplatten“.

Die Redundanz, also das vorkommen mehrfach gespeicherter Daten im Festplattenverbund ist nach wie vor nicht nur erwünscht, sondern die herausragende Eigenschaft der RAID-Systeme, die RAID-Level, also die Regeln der gezielten Anordnung der Festplatten und die Regeln über die Verteilung von Daten innerhalb des gesamten Systems nach wie vor bestimmend, da das Entnehmen einer einzelnen Festplatte aus einem RAID System, ohne den Betrieb des Rechners zu unterbrechen und ohne während der Demontage auf Daten verzichten zu müssen der Hintergrund dafür ist, RAID überhaupt einzusetzen.

Im weiteren Verlauf wird auf die gebräuchlisten RAID-Levels eingegangen werden, an dieser Stelle sei nur bereits gesagt, dass heutzutage fast ausschließlich RAID 0, Raid 1 und RAID 5 eingesetzt werden.

Zusammengefaßt wurde also bisher beschrieben, dass ein RAID System aus mindestens zwei Festplatten besteht, die innerhalb eines Rechnersystems als einziges logisches Laufwerk auftauchen, zunächst um Kosten in der Anschaffung zu sparen, später, um Systeme mit mehr Datendurchsatz (höhere Transferraten) und höherer Betriebssicherheit zu realisieren. Daten werden hierzu grundsätzlich an mehreren Stellen des Festplattenverbundes gespeichert (Redundanz), wobei die Regeln des Zusammenwirkens der Festplatten durch den RAID Level definiert sind.

RAID Aufbau

Der folgende Abschnitt informiert über die beiden gebräuchlichen Methoden zum Aufbau von RAID Systemen: Hardware RAID und Software RAID.

Man unterscheidet zwei elementare Methoden zum Aufbau eines RAID Systems, zum einen den Hardware RAID, bei dem ein spezieller Controller das Zusammenwirken der beteiligten Festplatten regelt, zum anderen den Software RAID, bei dem das Zusammenwirken angeschlossener Platten ausschließlich durch die beteiligte Systemsoftware abgewickelt wird.

Der Hardware RAID ist ein physisches Gerät, ein sogenannter Controller, zumeist im selben Gehäuse untergebracht, wie auch die beteiligten Festplatten. Nachteilig wirkt sich hierbei aus, dass diesem Gerät zwar die reibungslose Steuerung der Platten untereinander obliegt, bei einem Ausfall des Controllers allerdings das gesamte System temporär unbrauchbar wird.

Beim Software Raid kann als nachteilig gesehen werden, dass die gesamte Rechenlast durch Zugriffe auf den Festplattenverbund über den Hauptprozessor des Rechners abgewickelt werden muß, was die Performance einschränkt. Hinzu kommt, dass in diesem Fall keine Pufferbatterie eingesetzt werden kann, die bei einem Systemabsturz vor Datenverlusten schützen würde. Da der Prozessor die entsprechenden Arbeiten im System übernimmt, sind Daten, die sich zum Zeitpunkt eines Ausfalles oder Absturzes lediglich im Cache befunden haben verloren.

Beim Hardware RAID sind batteriegestützte Speicherungen von flüchtigen Daten hingegen üblich.

Moderne Betriebssysteme wie MS Windows, SUN Solaris, Linux, Mac OS X, HP-UX, OpenBSD oder FreeBSD verfügen heutzutage über die Fähigkeit, Software RAID steuern zu können.

RAID Level

In diesem Abschnitt werden die spezifischen RAID Level, also die Systeme zum Zusammenwirken der einzelnen Festplatten und Datenströme näher betrachtet.

Zur besseren Strukturierung der zahlreichen RAID Levels, die in der Vergangenheit und heute eine Rolle gespielt haben, sollen diese im Folgenden in drei Gruppen unterschieden werden:

Die erste Gruppe umfaßt diejenigen Level, die sich heute weitgehend durchgesetzt haben (RAID 0, RAID 1 und RAID 5) und die im Folgenden ausführlicher besprochen werden sollen.

Die zweite Gruppe umfaßt diejenigen RAID Level, die heutzutage als mehr oder weniger bedeutungslos oder überholt gelten. Diese werden lediglich in einem kurzen Abriß erläutert.

Die dritte Gruppe schließlich beschäftigt sich mit sogenannten Kombinations-RAIDs, von denen eines, das Matrix RAID von Intel herausgegriffen und näher erläutert werden soll.

Gruppe 1

Unter dem RAID 0 versteht man einen RAID Level der atypischerweise ohne Redundanz arbeitet, womit er streng genommen gar nicht unter die Definition eines RAID fallen würde.

Hier kommt ein technisches Verfahren zum Einsatz, dass als Striping bezeichnet wird und unter dem man versteht, dass die beteiligten Festplatten in Blöcke gleicher Größe aufgeteilt werden. Bei entsprechender Verteilung der Daten auf diese Blöcke können nun Zugriffe parallel erfolgen, was zu einer signifikanten Geschwindigkeitssteigerung führt. Fällt eine der beteiligten Platten im Betrieb aus, so können Daten mit hoher Wahrscheinlichkeit nicht mehr rekonstruiert werden. Teilrekonstruktionen können gelingen, wobei deren Erfolg davon abhängig ist, wie groß die Datenblöcke auf den einzelnen Platten sind. Je kleiner das gewählte Größenmaß, je effektiver ist eine Wiederherstellung verlorener Daten.

Im Gegensatz zu diesem RAID Level arbeitet RAID 1 mit einer vollständigen Redundanz der beteiligten Daten. Mindestens zwei beteiligte Platten bestehen aus exakt den gleichen Daten, so dass im Falle von Ausfällen immer mindestens eine vollständige Speicherung der Daten zur Verfügung steht und der Betrieb unterbrechungsfrei weitergeführt werden kann, auch wenn einzelne beteiligte Platten ausgetauscht werden müssen. Durch parallele Lesezugriffe auf die beteiligten Platten des Verbundes kann ein hoher Datendurchsatz erreicht werden. Nachteile liegen bei diesem Level lediglich in der Datenkapazität, die durch die komplette Spiegelung des Platteninhaltes immer nur so groß sein kann, wie die kleinste beteiligte Festplatte.

RAID 5 schließlich vereint die Vorteile beider anderen Level und ist somit, trotz hoher Anschaffungskosten eines RAID 5 Controllers die meist eingesetzte Methode zum Aufbau eines RAID Systems. Die Verteilung der Daten über die beteiligten Festplatten (meistens fünf) ist paritätisch gesteuert, so dass beim Ausfall einer Platte die daran beteiligten Daten vollständig wieder hergestellt werden können. Die Kapazität errechnet sich hier aus der Multiplikation der kleinsten Plattengröße im Verbund mit der Gesamtzahl der vorhandenen Festplatten. Der Lesezugriff erfolgt im störungsfreien Betrieb sehr schnell.

Als Ergänzung zum RAID 5 sei noch erwähnt, dass es eine noch junge Methode gibt, die durch die gezielte Vorhersage von Plattenausfällen, auf der Grundlage von internen Fehlerstatistiken, darum bemüht ist, im Falle, dass der Ausfall einer Platte statistisch gesehen bevor steht, diese Platte präventiv im System bereits zu synchronisieren.

Gruppe 2

Wie bereits ausgeführt, werden in der Gruppe zwei diejenigen RAID Level in Kurzform dargestellt, die heutigen Tages entweder keine oder nur noch eine sehr beschränkte Bedeutung im Aufbau von RAID Systemen aufweisen können.

NRAID
Es werden mehrere Festplatten zusammen geschlossen, ohne das ein Gewinn beim Datendurchsatz entsteht. Stattdessen lassen sich allerdings größere Gesamtkapazitäten erreichen, wenn mit Festplatten unterschiedlicher Größen gearbeitet wird. Ansonsten weißt NRAID eine große Ähnlichkeit mit RAID 0 auf.

RAID 2
Raid 2 wurde in früheren Zeiten bei Großrechenanlagen verwendet und spielt heutigen Tages keine Rolle mehr. Während ein überdurchschnittlicher Datendurchsatz erreicht werden konnte, bestand ein entsprechendes System immer mindestens aus 3 Festplatten

RAID 3
Raid 3 gilt als der Vorläufer von RAID 5 und wurde von ihm weitgehend ersetzt. Hierbei wird die gesamte Redundanz auf einer zusätzlichen Platte, der sogenannten Paritätsplatte gespeichert, was Vorteile im Fall von Plattenausfällen mit sich brachte.

RAID 4
Unter Raid 4 werden ebenfalls Paritätsinformationen berechnet und auf eine gesonderte Platte geschrieben. Hauptnachteil ist hier, dass diese Festplatte bei jedem Schreib- und Lesezugriff beteiligt ist, wodurch keine hohen Datendurchsätze erreicht werden können.

RAID 6
Die Funktionsweise eines RAID 6 ist mit einem RAID 5 zu vergleichen, wobei dieses System bis zu zwei gleichzeitige Festplattenausfälle verkraften kann. Es werden hierzu immer mindestens vier Festplatten benötigt, hinzu kommt, dass das Berechnungssystem der Paritätsbits sehr komplex ist und viel Rechenleistung in Anspruch nimmt.

RAIDn
RAIDn hebt die gewöhnten Definitionen der RAID Level auf, insofern, als dass es hier zu einer Definition über die Gesamtzahl der Festplatten, sowie die Anzahl der Platten, die gleichzeitig ausfallen dürfen kommt.

RAID DP
Das RAID DP ist eng am RAID 4 orientiert, wobei allerdings anstelle von einer direkt zwei Paritäten errechnet und gespeichert werden. Der Vorteil liegt darin, dass zwei beliebige Festplattenfehler gleichzeitig kompensiert werden können, was die Verfügbarkeit solcher Systeme drastisch steigert.

Gruppe 3

In dieser Gruppe werden die Kombinations-RAID Level in Kurzform dargestellt, zu denen auch das Intel Matrix-RAID gehört, auf das dann im nächsten Abschnitt ausführlicher eingegangen wird.

Unter Kombinations-RAIDs versteht man solche Konstruktionen, bei denen ein RAID unter einem spezifischen Level noch einmal zu einem zweiten RAID zusammengefasst wird. Die Nomenklatur der Level folgt dann dem Prinzip, dass die ineinander fließenden Levelbezeichnungen aneinander gehangen werden und zwar so, wie auch die RAID Konstruktion errichtet ist. Fasst man zum Beispiel mehrere RAID 0 Gruppen zu einem Raid 5zusammen, so entsteht dabei ein RAID 05. Umgekehrt würde die Bezeichnung RAID 50 gebildet, wenn aus mehreren RAID 5 Arrays wiederum ein RAID 0 gebildet würde.

So sind zahlreiche Kombinationen möglich, deren Stärken und Schwächen jeweils stark mit den bereits untersuchten Einzellevels zusammen hängen. Häufig dienen diese Kombinationen genau dem Zweck, die spezifischen Schwachstellen bestimmter Level auszugleichen.

Heraus gegriffen werden soll nun an dieser Stelle das Intel Matrix-RAID, als Kombination von RAID 0 und RAID 1, da wir uns im Folgenden ohnehin mit dieser Technologie beschäftigen.

Die Technik wurde von Intel ab dem Chipsatz Intel ICH6R-Southbridge integriert, der Mitte 2004 auf den Markt kam. Hierzu werden zwei Festplatten am Rechner betrieben, die vom integrierten Raid Controller in je zwei Bereich aufgeteilt werden. Ein Bereich wird sodann auf die andere Festplatte gespiegelt, der andere Bereich dient zur Aufnahme beliebiger Daten. Hintergrund für den Anwender ist nun, dass er seine ersetzbaren und dauerhaft auf anderen Datenträgern verfügbaren Daten, wie Betriebssysteme oder Programme im aufgeteilten Bereich ablegt, wo sie nach einem Ausfall jederzeit per Installation vom Originaldatenträger wieder hergestellt werden können. Die nicht ersetzbaren Daten hingegen werden in dem redundanten Teil des Laufwerks abgelegt, wo sie dauerhaft und permanent durch die Spiegelung auf die zweite Platte gesichert und wiederherstellbar sind und bleiben.

INTEL RAID

Dieser Abschnitt beschäftigt sich abschließend mit den spezifischen Eigenschaften der des Intel Matrix-RAID, insbesondere die Anforderungen an Chipsätze, Systemvoraussetzungen und Betriebssysteme. Weiterhin werden spezifische Begriffe aus dem Bereich der Matrix-RAID Technologie erklärt und besprochen.

Unter dem Produktnamen Intel Matrix Storage Manager ist aktuell ein RAID System verfügbar, dass die Vorteile von RAID 0 und RAID 1 Systemen effektiv miteinander verbindet. Die beiden Entwicklungsschwerpunkte hierbei lauten Schutz und Leistung.

In Ergänzung zu einem RAID 0 steht hierbei durch die zusätzliche RAID 1 Festplatte mehr Sicherheit zur Verfügung, umgekehrt werden bessere Leistungswerte erreicht, durch Datenspeicherung auf einer RAID 0 Platte.

Unterstützt werden hierbei die folgenden Chipsätze:

Intel 925X Chipset family
Intel 915 Chipset family
Mobile Intel 915 Chipset family
Intel 910GL Chipset
Mobile Intel 910GML Chipset
Intel 875P Chipset
Intel 865 Chipset family

wobei einer der folgenden Controller zum Einsatz kommen muss:
Intel 82801FR I/O Controller Hub (ICH6R) – RAID and AHCI
Intel 82801FM I/O Controller Hub (ICH6M) – AHCI
Intel 82801ER I/O Controller Hub (ICH5R) – RAID

Ergänzend sind die folgenden Mindestanforderungen an das System nötig:
Intel Pentium 4 Prozessor
Motherboard mit einem der unterstützten Chipsätze
Zwei Serial ATA Festplatten

Als Betriebssysteme kommen in Frage:
Microsoft Windows Server 2003
Microsoft Windows XP Home Edition
Microsoft Windows XP Professional
Microsoft Windows 2000 Professional
Microsoft Windows 2000 Advanced Server

Im Zusammenhang mit dem Intel Matrix-RAID taucht der Begriff „AHCI“ auf (Advanced Host Controller Interface“. Hiermit ist ein Standard gemeint, der es dem Festplattentreiber erlaubt, in Bezug auf Serial ATA Festplatten bestimmte zusätzliche Features zu ermöglichen, wie das „Native Command Queuing“ oder die Funktion „Hot Plug“, die im Folgenden noch erklärt werden.

Unter Native Command Queuing (NCQ) versteht man ein Verfahren, bei dem ein ATA Treiber mehr als ein Rechnerkommando gleichzeitig annahmen kann und diese im Verlauf jederzeit dynamisch erneut abrufen kann. Dieses Feature erlaubt eine deutliche Erhöhung der Speicherperformance in Situation verschiedenster Zugriffsbelastungen.

„Hot Plug“ (auch Hot Swap“ genannt), beschreibt ein Feature innerhalb des Intel RAID, dass es erlaubt, im laufenden Betrieb einzelne Festplatten auszutauschen und wieder zu montieren, ohne dass es zu Unterbrechungen am System kommt.

Fazit

War es zu Beginn der Entwicklung von RAID Systemen vor 20 Jahren eher der Aspekt der Kostenersparnis, der die Entwickler dazu veranlasste, nach intelligenten Lösungen zur Verbindung mehrerer Festplatten zu suchen, so wurden im Laufe der Jahre vielmehr die Aspekte Leistung (Datendurchsatz/Geschwindigkeit) und Sicherheit in den Fokus gerückt.

Große Servermodelle, vor allem im Bereich von Internet-Technologien, mit umfangreichen Gruppen gleichzeitiger Anwender, desweiteren immer umfangreichere Datenmengen, die vor dem Hintergrund erhöhter Netzwerkgeschwindigkeiten möglich wurden und heutzutage längst nötig sind, verbunden mit einer wachsenden Sensibilität für Datensicherheit, auch im Bereich privater Anwendungen, öffnen den Markt für Lösungen, wie sie vor nicht allzu langer Zeit noch den Großrechenanlagen vorbehalten waren.

Die Intel RAID Technologie ist ein Beispiel dafür, wie eine ursprüngliche Entwicklung aus dem HighEnd Bereich heutigen Tages auch für den Anwender am heimischen PC nutzbringend eingesetzt werden kann.

Die Kombination von zwei bereits sehr fortschrittlichen RAID Levels in einem System, das ohne externe Controller, ohne riesige Disk-Arrays und ohne komplexe Verwaltungsstrukturen auskommt, wird sicherlich weiterhin Schule machen. Ob hier Angesichts der Relevanz privat gesicherter Daten vielleicht mit Kanonen auf Spatzen geschossen wird sei dahingestellt. In jedem Fall gehört die Verzweiflung des Anwenders angesichts verlorener Daten und Dokumente seit Intel Matrix-RAID eindeutig der Vergangenheit an.

Eine Antwort auf „Intel Raid unter besonderer Berücksichtigung von Intel Matrix-RAID“

„Hinzu kommt, dass in diesem Fall keine Pufferbatterie eingesetzt werden kann, die bei einem Systemabsturz vor Datenverlusten schützen würde.“ – Wer sagt das?

Ein Hardware RAID braucht diese Pufferbatterie, damit Daten und Parität gemeinsam geschrieben werden. Wenn dies nicht derfall ist, dann ist die Information die teilweise geschrieben wurde unbrauchbar. Dieser Schutz ist bei Hardware RAID absolute Pflicht.

Heutige Software RAID Lösungen nutzen eher eine alles oder nichts Strategie. Die Strategie dahinter nennt sich CopyOnWrite (COW). Hierbei wird die neue/veränderte Information jeweils in freie Bereiche geschrieben und so der Altzustand erhalten. Ein Plattencheck mit Transaktionslogs ist so nicht nötig. Zudem benötigt diese Art der Speicherung weniger IO’s. COW ist im Web denke ich recht gut beschrieben.

Mann kann auch hier Batterie Backups nutzen. Dies geht bis Möglichkeiten wie ZeusRAM, also einen RAM mit Batteriebackup, welches die Daten auf SSD zurückschreibt, wenn der Strom ausfällt. Beim Rechnerneustart werden diese Daten wieder in die Platten zurückgeschrieben.

Es ist wichtig, nicht nur den RAID Controller alleine zu sehen. Erst die Software hinter dem Controller macht das Gesamtkonzept mit aus.

Schreibe einen Kommentar Antworten abbrechen

This site uses Akismet to reduce spam. Learn how your comment data is processed.