5 1 0: Deduplizierung

From SEPsesam
This page is a translated version of the page 5 1 0:Deduplication and the translation is 100% complete.
Other languages:


Docs latest icon.png Willkommen in der aktuellsten Version der SEP sesam Dokumentation 5.1.0 Apollon. Frühere Versionen der Dokumentation finden Sie hier: Documentation Archiv.


Übersicht


Wenn ähnliche Systeme auf demselben Speichergerät gesichert werden, besteht die Möglichkeit zur Redundanz innerhalb der gesicherten Daten. Ein Datenspeicher muss jedoch nur eine Kopie der Dateien enthalten, um sie rücksichern zu können.

Wie funktioniert die Deduplizierung?

SEP sesam Si3 wendet Deduplizierung auf der Blockebene an. Bei dieser Deduplizierungstechnik werden die Daten in Blöcke unterteilt, die dann überprüft und Duplikate übersprungen werden. Nur eindeutige Blöcke werden an den Speicher gesendet. Durch die Eliminierung redundanter Blöcke wird die Größe der gesicherten Daten reduziert, da keine doppelten Daten gesichert werden. Da identische Daten nur einmal gespeichert werden, verringert sich der Speicherplatzbedarf und die Netzlast, da keine Duplikate über das Netz übertragen werden.

SEP sesam bietet einen Hybrid aus beidem:

um die bestmöglichen Szenarien für eine effiziente Datensicherung in unterschiedlichen Umgebungen zu ermöglichen. Beide Methoden verwenden einen konfigurierten Si3 Deduplication Store, der eine spezielle Lizenz erfordert. Siehe Lizensierung für Details.

Deduplizierungsoptionen: HW und SW

Hardware-Deduplizierung (HW-Deduplizierung) bezieht sich auf eine Hardware, die speziell für die Deduplizierung von Datenspeichern ausgelegt ist. SEP unterstützt Appliances wie HPE StoreOnce, Fujitsu CS800, Quantum DXi, etc., oder jedes Plattenarray mit Deduplizierung. (Die vollständige Liste finden Sie unter SEP sesam Storage Hardware Support Matrix.)
Der Vorteil der Hardware-Deduplizierung ist, dass die Integration, Verwaltung und Überwachung der Deduplizierung für das Speichergerät bereits erledigt ist. Sie bieten eine hohe Skalierbarkeit, haben eine Leistungsgarantie, sind aber mit höheren Kosten verbunden.
Sie können als Sicherungsspeicher verwendet werden und die Deduplizierung auf der Hardware ist völlig transparent für die SEP sesam Software. Wenn die Deduplizierungs-Appliance auch eine Replikation durchführt, ist das Replikat dem SEP sesam Sicherungs-Server unbekannt (außer der Catalyst Kopie).

Software (SW) Deduplizierung bezieht sich hier auf die im SEP Si3 integrierte Deduplizierung. Der Vorteil der Si3 Deduplizierung ist die flexible Preisgestaltung, sie ist bereits in der Volumenlizenz enthalten (siehe Lizensierung oder kontaktieren Sie sales@sep.de). Si3 Deduplizierung unterstützt jede direkt angeschlossene Festplatte, bietet globale Deduplizierung mit quellseitiger (Si3S) und zielseitiger (Si3T) Deduplizierung, Replikation und Verschlüsselung, und ermöglicht Einzeldateirücksicherung (SFR) und Sofortige Wiederherstellung (Instant Recovery).

SEP Tip.png Hinweis
Ab SEP sesam V. 5.0.0 Jaglion sind zwei Si3-Datenspeichertypen verfügbar. Es wird dringend empfohlen, den neueren Typ SEP Si3 NG Deduplizierungsspeicher zu verwenden, da der alte Typ (Si3) bald obsolet sein wird. Si3 NG ist gegenüber dem alten Si3 vorteilhaft, da er eine bessere Leistung und Ressourceneinsparung bietet und er Ihnen ermöglicht, Ihre Daten direkt in ein S3 Cloud Storage oder in ein Azure Storage zu sichern und die gewünschten Elemente direkt von dort rückzusichern. Zusätzlich bietet er die neue Funktion des Immutable Storage – SiS (Unveränderlicher Speicher). Weitere Details finden Sie unter Konfiguration eines Si3 NG Deduplication Store.

Sie können Sicherungen auch auf HPE StoreOnce Catalyst Stores duplizieren, allerdings müssen in diesem Fall andere Voraussetzungen erfüllt werden. Details finden Sie in der HPE StoreOnce Dokumentation.

Cloud-Optionen
  • SEP sesam bietet Integration mit dem Hewlett Packard Enterprise (HPE) StoreOnce Catalyst-Speichersystem und unterstützt HPE Cloud Bank Storage als Catalyst-Kopierziel für die Datenreplikation und HPE Cloud Volumes für die direkte Sicherung und Replikation. Einzelheiten finden Sie unter HPE StoreOnce Configuration.
Si3 Verschlüsselung

Um Ihre Daten vor unberechtigtem Zugriff zu schützen, bietet SEP sesam Si3 Deduplizierung eine Si3-Verschlüsselung, die auf der Ebene Datenspeicher definiert ist. Sie unterscheidet sich von der Verschlüsselung auf der Ebene der Sicherungsaufträge. Standardmäßig ist die Si3-Verschlüsselung deaktiviert.

Wenn die Si3-Verschlüsselung aktiviert ist (durch Angabe des Verschlüsselungspassworts), werden die Daten nach der Deduplizierung verschlüsselt. Die Daten werden verschlüsselt und so bei der Übertragung an den Speicherserver verschlüsselt gespeichert. Ohne das Passwort können die Daten auf dem Si3-Datenspeicher nicht gelesen werden. Details finden Sie unter Verschlüsselung des Si3 NG Deduplication Store.

==Si3 zielseitige Deduplizierung (Si3T)

Si3T bedeutet, dass die Deduplizierung auf dem Zielort - dem Si3 Repository - stattfindet. Dies ist eine Block-Level-Inline-Daten-Deduplizierungs-Lösung, bei der die Daten direkt vom SEP sesam Server oder Remote Device Server auf das Sicherungsmedium geschrieben werden. Sicherungen werden während des Schreibvorgangs auf das Speicherziel dedupliziert. Da die Datenredundanzen unvermindert über das Netzwerk übertragen und direkt am Ziel dedupliziert werden, erhöht sich zwar die Netzwerklast, aber die Speicherplatzeinsparungen sind enorm.
SEP sesam analysiert die Datenblöcke und erkennt, ob die Daten einzigartig oder bereits im Si3 Repository vorhanden sind. Nur die einzigartigen Blöcke, die noch nicht gespeichert wurden, werden zum Repository geschickt, während die doppelten mit einem Stub-Objekt ersetzt werden. Dieses Stub-Objekt zeigt auf das Repository und wird zum Abrufen gespeicherter Daten verwendet.
Nicht alle Daten sind für die Deduplizierung geeignet: verschlüsselte Dateien, Festplattenblöcke mit einer nicht standardisierten Größe usw. können nicht dedupliziert werden. Weitere Informationen finden Sie unter Anwendungsfälle Datendeduplizierung.

==Si3 quellseitige Deduplizierung (Si3S)

Si3S bedeutet, dass die Daten dedupliziert werden, bevor sie über das Netzwerk gesendet werden, wodurch die Sicherung extrem bandbreiteneffizient ist. Während der Sicherung berechnet SEP sesam die Hashwerte der zu sichernden Daten auf dem Client und fragt den Speicher ab, um festzustellen, ob der Hashwert des Blocks dort bereits gespeichert ist. Wenn ja, sendet SEP sesam nur den Hashwert, wenn nicht, sendet es nur geänderte oder unbekannte Blöcke des Ziel-Si3 Deduplication Stores an den Sicherungsserver.

Der Vorteil der Si3S-Deduplizierung ist, dass nur neue oder geänderte Daten während der Sicherung zum Sicherungsserver übertragen werden. Dadurch wird die Bandbreitennutzung optimiert und weniger Speicherkapazität benötigt. Im Gegensatz zur zielbasierten Deduplizierung am Speicherort erfordert die quellbasierte Deduplizierung jedoch einen deutlich höheren Rechenaufwand und ist daher nicht für jedes Szenario geeignet. Ob die Sicherungsfenster reduziert werden, hängt von der Datenstruktur ab - beachten Sie, dass das Hashing von Datenpaketen sehr rechenintensiv ist und solche Sicherungen unter Umständen noch länger dauern. Sie sollten sich überlegen, welche Clients auf diese Weise belastet werden können. Generell kann die quellseitige Deduplizierung eine hervorragende Lösung für Umgebungen mit einer geringen täglichen Datenänderungsrate und einer geringen Bandbreite zwischen dem Sicherungsserver und dem gesicherten Client sein.

Nicht alle Daten sind für die Deduplizierung geeignet: verschlüsselte Dateien, Festplattenblöcke mit einer nicht standardisierten Größe usw. können nicht dedupliziert werden. Weitere Informationen finden Sie unter Anwendungsfälle Datendeduplizierung.

Warum SEP sesam Si3 Deduplizierung verwenden?

  • Bei der Si3-Deduplizierung handelt es sich um eine Inline-Deduplizierung, bei der Redundanzen aus den Daten entfernt werden, bevor sie auf den Sicherungsspeicher geschrieben werden. Im Vergleich zur Post-Process-Deduplizierung reduziert sie die benötigte Festplattenkapazität und spart eine Menge Festplattenspeicher und Bandbreite, da Daten in ihrer ursprünglichen Größe nie auf die Festplatte geschrieben werden und weniger Daten über das Netzwerk transportiert werden müssen.
  • Sehr effektiv, da ein Block mit variabler Länge Ansatz verwendet wird. Der Deduplizierungsalgorithmus verwendet fortschrittliche kontextabhängige Ankerpunkte, um eine Datenfolge zu betrachten und sie in Blöcke variabler Länge zu unterteilen, die auf den Merkmalen der Daten selbst basieren. Auf diese Weise wird bei der Wiederholung eines Blocks ein Zeiger auf das Original gespeichert, anstatt den Block erneut zu speichern. Dies führt zu einer erheblichen Platzersparnis im Vergleich zur Deduplizierung mit fester Länge.
  • Da jeder Block (Chunk) komprimiert wird, ist die Datengröße auf binärer Ebene kleiner, wodurch weniger Speicherplatz benötigt wird und mehr Daten in der verfügbaren Speicherkapazität gespeichert werden können.
  • Die Si3-Verschlüsselung für den Si3-Deduplizierungsspeicher ist eine der SEP sesam-Verschlüsselungsarten, die zur Einhaltung der Datenschutzgesetze beitragen kann, da Sie einen vollständig verschlüsselten Deduplizierungsspeicher erhalten. Details finden Sie unter Verschlüsselung des Si3-NG-Deduplizierungsspeichers.
  • SEP sesam bietet Replikation, um den unterbrechungsfreien Betrieb von geschäftskritischen Anwendungen zu unterstützen und den Fernzugriff auf kritische Daten und Anwendungen im Katastrophenfall sicherzustellen. Nur geänderte Datenblöcke werden über ein Netzwerk gesendet und auf den Zielserver repliziert.
    • Die Replikation erfolgt asynchron (nach einem Zeitplan zu einem vom Benutzer festgelegten Zeitpunkt) und wird in der Regel nach einer Sicherung am primären Standort auf einem sekundären Datenserver oder in der Cloud durchgeführt.
    • Durch die Verwendung von Near-Continuous Data Protection (Near-CDP - fast-kontinuierliche Datensicherung), basierend auf geplanten häufigen Replikationsaufträgen (ähnlich wie CDP in Bezug auf RPOs), kann die SEP sesam Replikation kostengünstiger und weniger ressourcenintensiv sein als True-CDP. Da SEP sesam nur inkrementelle Änderungen speichert, ist die Belastung des Netzwerks minimal, während der Durchsatz beschleunigt wird.
    • Da die Aufbewahrungszeit der gesicherten und replizierten Daten auf der Medienpool-EOL basiert und für jeden Medienpool eine andere Aufbewahrungszeit zulässt, können Sie Ihre Aufbewahrungsrichtlinien so anpassen, dass nur die Daten aufbewahrt werden, die Sie benötigen, und Ihren Speicherplatz effizient verwalten.
    • Die Replikation funktioniert nur für Plattenspeicher (nicht für Band).

Was am besten funktioniert

Information sign.png Anmerkung
Wenn Sie Ihre Deduplizierungsmethode wählen, um redundante Sicherungsdaten zu eliminieren, analysieren Sie sorgfältig Ihre bestehende Infrastruktur, Netzwerkbeschränkungen und die Art der Daten, die Sie sichern möchten.
  • Typischerweise ist die quellseitige Deduplizierung gut geeignet für Umgebungen mit einer geringen LAN/WAN-Bandbreite und weniger Datenmengen. Ein weiterer typischer quellseitiger Deduplizierungsfall ist die Sicherung von Remote Data (ROBO) - zum Schutz und zur Speicherung der von Remote- und Zweigstellen erstellten Daten.
  • Andererseits könnte die zielbasierte Deduplizierung besser für große Datensätze in einem schnellen Netzwerk geeignet sein, wie beispielsweise strukturierte Datenbanken, die das Datenvolumen erheblich reduzieren müssen, oder für Daten auf Clients, für die Sie den CPU-Overhead nicht erhöhen wollen.
  • Sie sollten sich über die Einschränkungen der Deduplizierung im Klaren sein, bevor Sie diese konfigurieren. So ist es beispielsweise nicht sinnvoll, bestimmte Daten, wie beispielsweise Mediendateien, zu deduplizieren, die nicht aktiv dedupliziert werden können, da die Dateien eindeutig sind und in komprimierten Medienformaten vorliegen. Dazu gehören MP3, MP4, JPEG, PNG, gezippte Dateien etc.
  • Für verschiedene Datentypen sollten unterschiedliche Deduplizierungsrichtlinien und -verfahren eingerichtet werden. Z.B. Datenbanken in den einen Si3, und Pfadsicherungen in den anderen Si3 Store.

Die Si3-Deduplizierung kann zusammen mit der Si3 Replication verwendet werden, um Sicherungsredundanz für die Notfallwiederherstellung bereitzustellen und die über das Netzwerk übertragenen Daten zu reduzieren.

Anwendungsfälle für die Datendeduplizierung

Die erreichbare Deduplizierungsrate hängt von mehreren Faktoren ab:

Dedup ratio data.png
Datentyp
  • Daten, die verschlüsselt, vorkomprimiert oder reich an Metadaten sind, haben die niedrigsten Deduplizierungswerte (pdf, Audiodateien wie mp3, wma, Videodateien: avi, mkv usw., Bilddateien: jpg, png usw.). (Die einzige Ausnahme besteht darin, wenn die selben Daten wiederholt gesichert werden, dann ist natürlich auch bei solchen Daten die Dedup-Rate sehr gut.)
  • Relationale Datenbanken wie SQL und Oracle können keine hohe Deduplizierungsrate erreichen, da sie einen eindeutigen Schlüssel für jeden DB-Datensatz haben, der verhindert, dass der Deduplizierungsprozess sie als Duplikate identifiziert.
  • Der größte Nutzen kann in virtuellen Umgebungen erzielt werden, in denen mehrere VMs mit Anwendungsimplementierungen und solche, die für Tests und Entwicklung verwendet werden, zu verdoppelten Gastbenutzern und zugehörigen Daten führen.
  • In ähnlicher Weise ist die Deduplizierung für virtuelle Desktop-Infrastrukturen und Endpunkt-Clients von Vorteil, da diese dazu neigen, doppelte Daten zu erzeugen.
SEP Tip.png Hinweis
Anstatt Ihre Daten zu verschlüsseln, verwenden Sie die Si3 Verschlüsselung

.

Veränderungsrate
  • Je höher die tägliche Datenänderungsrate ist, desto geringer ist die Deduplizierungsrate.
  • Der Primärspeicher weist weniger doppelte Daten auf, mäßig doppelte Daten werden in regelmäßigen Abständen archiviert, während weitgehend doppelte Daten für wiederkehrende Sicherungen charakteristisch sind.
Aufbewahrungszeit
  • Daten mit längerer Aufbewahrungszeit und mehr Kopien haben ein besseres Deduplizierungsverhältnis.
Sicherungsmethode
  • Bei einer täglichen Vollsicherung ist die Deduplizierungsrate aufgrund der Datenredundanz höher als bei einer inkrementellen oder differenziellen Sicherung.

Rate und Prozentsatz der Speicherplatzeinsparung

  • Die Deduplizierungsrate ist das Maß für die ursprüngliche Größe der Daten im Vergleich zur Größe der Daten nach der Entfernung der Redundanz.
  • Die Deduplizierungsrate hängt in der Regel vom Anwendungsfall und von der Zeit ab. Die Rate sollte mindestens 4:1 betragen, was bedeutet, dass viermal mehr Daten geschützt werden als der dafür benötigte Speicherplatz.
  • Beachten Sie, dass die Raten nur unter den gleichen Annahmen sinnvoll verglichen werden können.
  • Selbst relativ niedrige Raten können immer noch zu erheblichen Platzeinsparungen führen, da weniger Speicherplatz benötigt wird.
Deduplizierungsbeispiel

Dedup ratio example.png

SEP Video.png Schauen Sie sich das SEP sesam Video Why and how to use deduplication with SEP sesam an, um zusätzliche Informationen zur Berechnung der Deduplizierungsrate und weitere Informationen zu den Deduplizierungsoptionen in der SEP sesam Umgebung zu erhalten.


Siehe auch

Si3 Deduplication Hardware AnforderungenKonfiguration eines Si3 NG Deduplication StoreKonfiguration einer quellseitigen DeduplizierungÜber Replikation - HPE StoreOnceLizenzierungVerschlüsselung des Si3 NG Deduplication Stores

Copyright © SEP AG 1999-2024. Alle Rechte vorbehalten.
Jede Form der Reproduktion der Inhalte dieses Benutzerhandbuches, ganz oder in Teilen, ist nur mit der ausdrücklichen schriftlichen Erlaubnis der SEP AG gestattet. Bei der Erstellung dieses Benutzerhandbuches wurde mit größtmöglicher Sorgfalt gearbeitet, um korrekte und fehlerfreie Informationen bereit stellen zu können. Trotzdem kann die SEP AG keine Gewähr für die Richtigkeit der Inhalte dieses Benutzerhandbuches übernehmen.