Co to jest Hadoop i dlaczego to ma znaczenie?

Hadoop jest frameworkiem oprogramowania open-source do przechowywania danych i uruchamiania aplikacji na klastrach sprzętu towarowego. Zapewnia on masowe przechowywanie każdego rodzaju danych, ogromną moc obliczeniową i możliwość obsługi praktycznie nieograniczonej liczby jednoczesnych zadań lub zadań.

Historia Hadoopu

Wraz z rozwojem sieci World Wide Web pod koniec lat 1900. i w połowie 2000. powstały wyszukiwarki internetowe i listy, które miały pomóc w znalezieniu odpowiednich danych dotyczących treści. We wczesnych latach, pozycje zapytań były zwracane przez ludzi. W każdym razie, ponieważ sieć rozwijała się od garstki do ogromnej liczby stron, komputeryzacja była konieczna. Powstawały gąsienice internetowe, liczne w miarę jak uczelnie prowadziły badania, a gąsienice internetowe powstawały nowe firmy (Yahoo, AltaVista, itd.).

Jednym z takich przedsięwzięć był open-source’owy indeks internetowy o nazwie Nutch – pomysłodawcy Douga Cutinga i Mike’a Cafarelli. Musieli oni szybciej zwracać zaindeksowane listy poprzez zawłaszczanie informacji i szacunków w poprzek na różnych komputerach, tak aby można było wykonywać liczne zadania w tym samym czasie. W tym czasie, inne narzędzie do wyszukiwania internetowego o nazwie Google było z wyprzedzeniem. Polegało ono na podobnej idei – odkładaniu i przygotowywaniu informacji w sposób obiegowy, zmechanizowany, w celu szybszego zwracania ważnych pozycji zapytań internetowych.

Dlaczego Hadoop jest ważny?

Zdolność do szybkiego przechowywania i przetwarzania ogromnych ilości wszelkiego rodzaju informacji. Przy stale rosnącej ilości informacji i asortymencie, szczególnie z życia online i Internetu Rzeczy (IoT), jest to kluczowa myśl.

Siła obliczeniowa. Odpowiednie modele rejestracji Hadoopa szybko przetwarzają ogromne ilości informacji. Im więcej centrów rejestracji używasz, tym większą masz siłę obsługi.

Adaptacja do wewnętrznej awarii. Informacje i przygotowanie aplikacji są zabezpieczone przed rozczarowaniem sprzętu. W przypadku awarii węzła, zatrudnienie jest konsekwentnie przenoszone do różnych węzłów, aby zapewnić, że rejestracja w obiegu nie zostanie przerwana. Różne duplikaty wszystkich informacji są oczywiście odkładane na później.

Możliwość adaptacji. W przeciwieństwie do tradycyjnych społecznych baz danych, nie trzeba przetwarzać informacji przed ich odkładaniem. Możesz przechowywać tyle informacji, ile potrzebujesz i wybrać sposób ich późniejszego wykorzystania. Zawiera ona nieuporządkowane informacje, takie jak zawartość, zdjęcia i nagrania.

Minimalny wysiłek. Struktura open-source jest bezpłatna i wykorzystuje sprzęt magazynowy do przechowywania ogromnych ilości informacji.

Wszechstronność. Możesz bez większego wysiłku rozwijać swój szkielet, aby poradzić sobie z większą ilością informacji, głównie poprzez włączenie do niego węzłów. Niewielka organizacja jest wymagana.


Jakie są trudności w korzystaniu z Hadoop?

MapReduce pisanie programów komputerowych jest poświadczone, że nie jest przyzwoitym odpowiednikiem dla wszystkich problemów. Jest użyteczny w prostych poszukiwaniach danych i problemach, które mogą być wyizolowane w autonomiczne jednostki, ale nie jest biegły w iteracyjnych i intuicyjnych sprawach dochodzeniowych. MapReduce jest skoncentrowana na rekordach. Ponieważ koncentratory nie komunikują się między sobą poza sortowaniem i porządkowaniem, obliczenia iteracyjne wymagają różnych etapów mieszania/sortowania, aby zakończyć. Powoduje to liczne rekordy pomiędzy etapami MapReduce i jest marnotrawstwem w systematycznych pomiarach.

Istnieje powszechnie uznawany otwór zdolności. Trudno jest odkryć inżynierów oprogramowania na poziomie sekcji, którzy mają odpowiednie umiejętności w zakresie Javy, by móc korzystać z MapReduce. Jest to jedna z przyczyn, dla których dostawcy przekazujący dane są zmuszeni do przedkładania innowacji społecznych (SQL) nad Hadoop. Dużo prościej jest odkryć inżynierów oprogramowania z umiejętnościami SQL niż MapReduce. Co więcej, organizacja Hadoop’a wydaje się być wykonawstwem części i nauką o części, wymagającą informacji na niskim poziomie ram roboczych, sprzętu i ustawień części Hadoop’a.

Bezpieczeństwo informacji. Kolejny test obraca się wokół podzielonych kwestii bezpieczeństwa informacji, jednak pojawiają się nowe urządzenia i innowacje. Konwencja weryfikacyjna Kerberosa jest niesamowitym postępem w kierunku uczynienia warunków Hadoopa bezpiecznymi.

Niezaprzeczalne informacje dla zarządu i administracji. Hadoop nie posiada prostych do wykorzystania, w pełni zautomatyzowanych urządzeń do przetwarzania informacji na tablicy, oczyszczania informacji, administracji i metadanych. Szczególnie brakuje urządzeń do jakości informacji i instytucjonalizacji.