Wat is Hadoop en waarom doet het er toe?

Hadoop is een open-source software framework voor het opslaan van data en het draaien van applicaties op clusters van commodity hardware. Het biedt een enorme opslag voor elk soort data, een enorme rekenkracht en de mogelijkheid om vrijwel onbeperkte gelijktijdige taken of opdrachten uit te voeren.

Hadoop Geschiedenis

Toen het World Wide Web zich eind 1900 en medio 2000 ontwikkelde, werden er webcrawlers en lijsten gemaakt om te helpen bij het vinden van toepasbare gegevens in het midden van de op inhoud gebaseerde substantie. In de beginjaren werden query items geretourneerd door mensen. In ieder geval, aangezien het web zich ontwikkelde van handwerk tot een enorm aantal pagina’s, was automatisering nodig. Webcrawlers werden gemaakt, talrijk als college gedreven onderzoeksbedrijven, en webcrawler nieuwe bedrijven opgestart (Yahoo, AltaVista, en zo verder.).

Een dergelijke onderneming was een open-source web index genaamd Nutch – het geesteskind van Doug Cutting en Mike Cafarella. Ze moesten sneller webgeïndexeerde lijsten teruggeven door zich informatie en schattingen over verschillende pc’s heen toe te eigenen, zodat talrijke opdrachten tegelijkertijd konden worden geoefend. Gedurende deze tijd was een andere web-zoekmachine, Google, in opmars. Het hing af van een soortgelijk idee – het wegzetten en voorbereiden van informatie op een gecirculeerde, gemechaniseerde manier met als doel dat belangrijke web query items sneller konden worden geretourneerd.

Waarom is Hadoop belangrijk?

De capaciteit om snel enorme hoeveelheden informatie op te slaan en te verwerken. Met informatievolumes en assortimenten die zich voortdurend uitbreiden, met name uit het online leven en het internet van de dingen (IoT), is dat een belangrijke gedachte.

Rekenkracht. Hadoop’s toegewijde registratie model procedures enorme informatie snel. Hoe meer registratieknooppunten je gebruikt, hoe meer kracht je hebt om te verwerken.

Aanpassing aan intern falen. Informatie en het voorbereiden van applicaties zijn beveiligd tegen teleurstelling van de apparatuur. In het geval dat een hub uitvalt, wordt de werkgelegenheid naar verschillende hubs omgeleid om ervoor te zorgen dat de gecirculeerde registratie niet te kort komt. Verschillende duplicaten van alle informatie worden op een natuurlijke manier opgeborgen.

Aanpassingsvermogen. In tegenstelling tot conventionele sociale databanken, hoef je geen informatie voor te bereiden voordat je het weglegt. U kunt zo veel informatie opslaan als u nodig heeft en later kiezen hoe u deze wilt gebruiken. Dat omvat ongestructureerde informatie zoals inhoud, foto’s en opnames.

Minimale inspanning. De open-source structuur is gratis en maakt gebruik van wareware-apparatuur om enorme hoeveelheden informatie op te slaan.

Veelzijdigheid. U kunt zonder veel moeite uw raamwerk ontwikkelen om met meer informatie om te gaan, voornamelijk door hubs op te nemen. Er is weinig organisatie nodig.


Wat zijn de moeilijkheden van het gebruik van Hadoop?

MapReduce schrijft computerprogramma’s is certificeerbaar geen fatsoenlijke tegenhanger voor alle problemen. Het is nuttig voor eenvoudige gegevensverzoeken en problemen die kunnen worden geïsoleerd in autonome eenheden, maar het is niet geschikt voor iteratieve en intuïtieve onderzoeksopdrachten. MapReduce is recordconcentratie. Aangezien de hubs niet met elkaar communiceren, afgezien van de doorvoer- en herschikkingen, zijn voor iteratieve berekeningen verschillende gidsmix-/sorteventverlagingsfasen nodig om te kunnen voltooien. Dit maakt tal van records tussen de MapReduce fasen en is een verspilling voor cutting edge systematische figuratie.

Er is een algemeen erkend capaciteitsgat. Het is vaak moeilijk om sectie-niveau software engineers te ontdekken die voldoende Java-capaciteiten hebben om voordelig te zijn met MapReduce. Dat is een verklaring overdracht leveranciers zijn hustling om sociale (SQL) innovatie te zetten over Hadoop. Het is een stuk eenvoudiger om software engineers met SQL vaardigheden te ontdekken dan MapReduce vaardigheden. Bovendien lijkt de Hadoop-organisatie deels vakmanschap en deels wetenschap te zijn, waarbij informatie op laag niveau van werkkaders, apparatuur en Hadoop-partijen nodig is.

Informatiebeveiliging. Een andere test draait om de verdeelde informatiebeveiliging, maar er duiken nieuwe apparaten en innovaties op. De Kerberos verificatieconventie is een ongelooflijke vooruitgang in de richting van het veilig maken van Hadoop condities.

Onmiskenbare informatie voor het bestuur en de administratie. Hadoop heeft geen eenvoudig te gebruiken, volwaardige instrumenten voor de informatie op het bord, het zuiveren van de informatie, het beheer en de metadata. Met name ontbreken apparaten voor informatiekwaliteit en institutionalisering.