Hallo zusammen,
ich mache mir gerade im Rahmen meiner Abschlussarbeit an der Uni Gedanken zu Konzepten in der Scale-Out (Big-Data) Welt.
Folgender Use-Case:
Es ist ein Mittelgroßer Cluster (Mapr bzw. Cloudera) vorhanden der Logdateien nach gewissen Mustern durchsucht und zusammenhänge erkennt. Pro Job werden Datenmengen von ca. 10 TB verarbeitet, diese wiederum liefern einen Output der im kb Bereich liegt und vom User weiter verarbeitet wird. Am Tag laufen rund 10 Jobs!
Nach dem verarbeiteten Job sind die genannten 10 TB Daten eigentlich soweit nutzlos. Allerdings müssen sie aufgrund diverse Regeln für die nächsten x Jahre aufgehoben werden, falls Fehler im Produkt auftreten.
Da HDFS bzw. MaprFS die Datenmenge aufgrund von Ausfallsicherheit mindestens 3-fach repliziert, ist dies ein - wie ich finde - teures Datengrab.
Mit welchen Konzepten bzw. Ansätzen könnte man die Daten für lange Zeit archivieren und wie könnte man in geringer Zeit (weniger als einen Tag) wieder die Daten entsprechend in die Hadoop Umgebung kopieren?
Kosten sind natürlich auch ein wichtiger Faktor.
ich mache mir gerade im Rahmen meiner Abschlussarbeit an der Uni Gedanken zu Konzepten in der Scale-Out (Big-Data) Welt.
Folgender Use-Case:
Es ist ein Mittelgroßer Cluster (Mapr bzw. Cloudera) vorhanden der Logdateien nach gewissen Mustern durchsucht und zusammenhänge erkennt. Pro Job werden Datenmengen von ca. 10 TB verarbeitet, diese wiederum liefern einen Output der im kb Bereich liegt und vom User weiter verarbeitet wird. Am Tag laufen rund 10 Jobs!
Nach dem verarbeiteten Job sind die genannten 10 TB Daten eigentlich soweit nutzlos. Allerdings müssen sie aufgrund diverse Regeln für die nächsten x Jahre aufgehoben werden, falls Fehler im Produkt auftreten.
Da HDFS bzw. MaprFS die Datenmenge aufgrund von Ausfallsicherheit mindestens 3-fach repliziert, ist dies ein - wie ich finde - teures Datengrab.
Mit welchen Konzepten bzw. Ansätzen könnte man die Daten für lange Zeit archivieren und wie könnte man in geringer Zeit (weniger als einen Tag) wieder die Daten entsprechend in die Hadoop Umgebung kopieren?
Kosten sind natürlich auch ein wichtiger Faktor.