HDFS, dauerhafte Datenablage von vielen Datenmengen

Hallo zusammen,

ich mache mir gerade im Rahmen meiner Abschlussarbeit an der Uni Gedanken zu Konzepten in der Scale-Out (Big-Data) Welt.
Folgender Use-Case:

Es ist ein Mittelgroßer Cluster (Mapr bzw. Cloudera) vorhanden der Logdateien nach gewissen Mustern durchsucht und zusammenhänge erkennt. Pro Job werden Datenmengen von ca. 10 TB verarbeitet, diese wiederum liefern einen Output der im kb Bereich liegt und vom User weiter verarbeitet wird. Am Tag laufen rund 10 Jobs!

Nach dem verarbeiteten Job sind die genannten 10 TB Daten eigentlich soweit nutzlos. Allerdings müssen sie aufgrund diverse Regeln für die nächsten x Jahre aufgehoben werden, falls Fehler im Produkt auftreten.

Da HDFS bzw. MaprFS die Datenmenge aufgrund von Ausfallsicherheit mindestens 3-fach repliziert, ist dies ein - wie ich finde - teures Datengrab.

Mit welchen Konzepten bzw. Ansätzen könnte man die Daten für lange Zeit archivieren und wie könnte man in geringer Zeit (weniger als einen Tag) wieder die Daten entsprechend in die Hadoop Umgebung kopieren?
Kosten sind natürlich auch ein wichtiger Faktor.

HDFS, dauerhafte Datenablage von vielen Datenmengen

Trending Articles

Stehenden Stern auf der Motorhaube nachrüsten

SAP HR Tabellen

Aktivierungsanleitung erweiterte Menüs Hörmann Drehtorantrieb RotaMatic

Spurstange Axialgelenk links ausgeschlagen bzw. leichtes Spiel

Fehler code 03022 Lokaler Datenbus 4

Einstellfahrplan Michl3088's Sovol SV01 mit Extrudr BioFusion Grau

W639 Vito Viano Beifahrer Doppelsitz gegen Einzelsitz tauschen

Alarmanlage deaktivieren/Stumm stellen

AW: Störung im Einzugsmotor drücken.

W222 Fernbedienung Fond Entertainment anlernen/koppeln

Fehlercode P1263

Nummernschildbeleuchtung komplett wechseln

Fehler 8011F9 und 801228: Elektrischer Zuheizer, Powermanagement

7 Gang DSG Fehler P177D

Dualbau GmbH

„Ein besonderes Kind“, Professor Doktor Ralf Höcker (Köln) vertieft Zweifel...

DAG, Remove Exchange

HILFE VW PHAETON Mit Motorstörung

Volvo V50 1.6D 2009 / Motor geht immer wieder in den Notlauf / DPF

Binomialverteilung: Keimgarantie von 95% bei Blumenzwiebeln