Parth Shah / Priteshkumar Prajapati
Librería Samer Atenea
Librería Aciertas (Toledo)
Kálamo Books
Librería Perelló (Valencia)
Librería Elías (Asturias)
Donde los libros
Librería Kolima (Madrid)
Librería Proteo (Málaga)
Hadoop jest szeroko stosowany do masowego przechowywania danych. Mimo że jest bardzo odporny na awarie, skalowalny i działa na standardowym sprzęcie, nie zapewnia wydajnego i zoptymalizowanego rozwiązania do przechowywania danych. Gdy użytkownik przesyła pliki o tej samej zawartości do Hadoop, wszystkie pliki są przechowywane w HDFS (Hadoop Distributed File System), nawet jeśli zawartość jest taka sama, co prowadzi do powielania treści, a tym samym do marnowania przestrzeni dyskowej. Deduplikacja danych to proces mający na celu zmniejszenie wymaganej pojemności pamięci, ponieważ przechowywane są tylko unikalne instancje danych. Proces deduplikacji danych jest szeroko stosowany w serwerach plików, systemach zarządzania bazami danych, pamięciach kopii zapasowych i wielu innych rozwiązaniach pamięci masowej. Odpowiednia strategia deduplikacji pozwala na wystarczające wykorzystanie przestrzeni dyskowej w ramach ograniczonych urządzeń pamięci masowej. Hadoop nie zapewnia rozwiązania w zakresie deduplikacji danych. W niniejszej pracy moduł deduplikacji został zintegrowany z frameworkiem Hadoop w celu uzyskania zoptymalizowanego przechowywania danych.