Co to jest i dlaczego ma znaczenie


Hadoop jest frameworkiem oprogramowania open-source do przechowywania danych i uruchamiania aplikacji na klastrach sprzętu towarowego. Zapewnia on masowe przechowywanie wszelkiego rodzaju danych, ogromną moc obliczeniową oraz możliwość obsługi praktycznie nieograniczonej liczby jednoczesnych zadań lub zadań.


Historia Hadoopu


Wraz z rozwojem sieci World Wide Web pod koniec XIX wieku i w połowie 2000 roku powstały wyszukiwarki internetowe i listy, które pomogły znaleźć pożądane dane w zalewie treści. We wczesnych latach, zapytania były zwracane ręcznie. W każdym razie, w miarę jak sieć rozwijała się od kilku stron do obecnej, masowej skali, komputeryzacja była konieczna. W miarę jak uczelnie zaczęły korzystać z sieci do badań, zaczęły powstawać nowe firmy, które zaczęły pełzać po sieci (Yahoo, AltaVista, itd.).

Jednym z takich przedsięwzięć był open-source’owy indeks internetowy o nazwie Nutch – pomysłodawcy Douga Cutting i Mike’a Cafarelli. Musieli oni szybciej zwracać zaindeksowane listy internetowe poprzez zawłaszczanie informacji i szacunków na różnych komputerach, dzięki czemu możliwe było jednoczesne wykonywanie wielu zadań. W tym czasie rozwijało się kolejne przedsięwzięcie internetowe o nazwie Google. Polegało ono na podobnej idei – przechowywaniu i przygotowywaniu informacji w sposób obiegowy, zmechanizowany, tak aby ważne zapytania internetowe mogły być zwracane szybciej.


Dlaczego Hadoop jest znaczący?


Hadoop jest znaczący ze względu na swoją zdolność do szybkiego przechowywania i przetwarzania ogromnych ilości wszelkiego rodzaju informacji. Z ilością informacji i asortymentem stale rosnącym, szczególnie z mediów społecznościowych i Internetu Rzeczy (IoT), Hadoop jest znaczący ze względu na swoje miejsce w dużych analizach danych.

Odpowiednie procedury modelu rejestracji Hadoopa szybko zapewniają dostęp do ogromnych ilości informacji. Im więcej węzłów rejestrujących, tym więcej siły roboczej jest do dyspozycji.

Adaptacja do awarii wewnętrznych
Informacje i przygotowanie aplikacji są zabezpieczone przed awarią sprzętu. W przypadku awarii koncentratora, procesy są konsekwentnie przekierowywane do różnych koncentratorów, aby zapewnić, że rejestracja w obiegu nie zostanie przerwana. Różne duplikaty wszystkich informacji są odkładane efektywnie i bez utraty danych.

Możliwość adaptacji
W przeciwieństwie do konwencjonalnych społecznych baz danych, nie trzeba przetwarzać informacji przed ich odłożeniem. Możesz przechowywać tyle informacji, ile potrzebujesz i wybrać sposób ich późniejszego wykorzystania. Obejmuje to nieuporządkowane informacje, takie jak zawartość, zdjęcia i nagrania.

Minimalny wysiłek
Struktura open-source jest darmowa i wykorzystuje sprzęt do przechowywania ogromnych ilości informacji.

Wszechstronność
Możesz rozwijać swoje ramy, aby poradzić sobie z większą ilością informacji, głównie poprzez włączenie do nich węzłów. Mała organizacja jest wymagana, i to w prosty i intuicyjny sposób


Jakie są trudności w korzystaniu z Hadoopu?

Z MapReduce, pisanie programów komputerowych nie jest dobrym rozwiązaniem dla każdego problemu. Jest użyteczny w prostych zapytaniach o dane i zagadnieniach, które można wyizolować w autonomiczne jednostki, ale nie jest biegły w iteracyjnych i intuicyjnych zadaniach dochodzeniowych. MapReduce jest skoncentrowany na zapisach, a ponieważ węzły nie komunikują się ze sobą poza sortowaniem i porządkowaniem, obliczenia iteracyjne wymagają różnych etapów mieszania i zmniejszania sortowania. Tworzy to liczne rekordy pomiędzy etapami MapReduce i jest marnotrawstwem, jeśli chodzi o efektywne systematyczne obliczanie.

Istnieje ogólnie uznana wada MapReduce, ponieważ trudno jest znaleźć inżynierów oprogramowania na poziomie sekcji (którzy mają odpowiednie umiejętności w zakresie Javy), aby byli wydajni z MapReduce. Jest to jedna z przyczyn, dla których dostawcy oprogramowania starają się przedkładać innowacje społeczne (SQL) nad Hadoop. Dużo łatwiej jest znaleźć inżynierów oprogramowania z umiejętnościami SQL niż MapReduce. Co więcej, organizacja Hadoop wydaje się być sztuką częściową i nauką częściową, wymagającą niskopoziomowych informacji na temat pracujących frameworków, sprzętu i ustawień części Hadoop.

Bezpieczeństwo informacji


Kolejny test obraca się wokół podzielonych kwestii bezpieczeństwa informacji, jednak pojawiają się nowe urządzenia i innowacje. Konwencja weryfikacyjna Kerberosa to niesamowity postęp w kierunku uczynienia Hadoop’a bezpiecznym.

Niewątpliwie, informacje dla zarządu i administracji nie są jednym z mocnych punktów Hadoopa. Hadoop nie posiada prostych w użyciu, w pełni zautomatyzowanych narzędzi do przetwarzania informacji na tablicy, oczyszczania informacji, administracji czy metadanych. Szczególnie brakuje urządzeń do jakości informacji i instytucjonalizacji.