Wat het is en waarom het belangrijk is


Hadoop is een open-source software raamwerk voor het opslaan van gegevens en het draaien van applicaties op clusters van commodity hardware. Het biedt massale opslag voor elk soort data, enorme verwerkingskracht en de mogelijkheid om vrijwel onbeperkte gelijktijdige taken of opdrachten uit te voeren.


Hadoop-geschiedenis


Toen het World Wide Web zich eind 1900 en medio 2000 ontwikkelde, werden er webcrawlers en lijsten gemaakt om de gewenste gegevens in een stortvloed van inhoud te helpen vinden. In de beginjaren werden de vragen handmatig teruggestuurd. Aangezien het web zich ontwikkelde van een handvol pagina’s tot zijn huidige massale omvang, was er in ieder geval automatisering nodig. Webcrawlers werden massaal ontwikkeld toen hogescholen het web begonnen te gebruiken voor onderzoek en er nieuwe bedrijven werden gebouwd voor webcrawling (Yahoo, AltaVista, etc.).

Een dergelijke onderneming was een open-source web index genaamd Nutch – het geesteskind van Doug Cutting en Mike Cafarella. Ze moesten sneller webgeïndexeerde lijsten teruggeven door zich informatie en schattingen toe te eigenen over verschillende computers, zodat er veel opdrachten tegelijk konden worden uitgevoerd. In deze periode was er nog een andere webzoekactie in ontwikkeling, Google genaamd. Het hing af van een soortgelijk idee – het opslaan en voorbereiden van informatie op een gecirculeerde, gemechaniseerde manier met als doel dat belangrijke webquery’s sneller konden worden geretourneerd.


Waarom is Hadoop belangrijk?


Hadoop is belangrijk vanwege zijn capaciteit om snel enorme hoeveelheden informatie op te slaan en te verwerken. Met informatievolumes en assortimenten die zich voortdurend uitbreiden, met name van sociale media en het internet van de dingen (IoT), is Hadoop significant vanwege de plaats die het inneemt in big data analyses.

Hadoop’s passende registratiemodelprocedures bieden snel toegang tot enorme hoeveelheden informatie. Hoe meer registratieknooppunten u gebruikt, hoe meer verwerkingskracht er beschikbaar is.

Aanpassing aan intern falen
Informatie en applicatievoorbereiding zijn beveiligd tegen het uitvallen van apparatuur. In het geval dat een hub uitvalt, worden de processen dus omgeleid naar verschillende hubs om er zeker van te zijn dat de gecirculeerde registratie niet tekort komt. Verschillende duplicaten van alle informatie worden efficiënt en zonder verlies van gegevens weggezet.

Aanpassingsvermogen
In tegenstelling tot conventionele sociale databanken hoeft u geen informatie voor te bereiden voordat u deze opbergt. U kunt zoveel informatie opslaan als u nodig heeft en later kiezen hoe u deze wilt gebruiken. Dit omvat ongestructureerde informatie zoals inhoud, foto’s en opnames.

Minimale inspanning
De open-source structuur is vrij en maakt gebruik van hardware om enorme hoeveelheden informatie op te slaan.

Veelzijdigheid
U kunt uw raamwerk ontwikkelen om met meer informatie om te gaan, voornamelijk door hubs op te nemen. Er is weinig organisatie nodig en het gebeurt op een eenvoudige en intuïtieve manier.


Wat zijn de moeilijkheden om Hadoop te gebruiken?

Met MapReduce is het schrijven van computerprogramma’s geen fatsoenlijke oplossing voor elk probleem. Het is nuttig voor eenvoudige gegevensvragen en problemen die kunnen worden geïsoleerd in autonome eenheden, maar het is niet geschikt voor iteratieve en intuïtieve onderzoeksopdrachten. MapReduce is recordconcentratie en aangezien de hubs niet met elkaar communiceren, afgezien van het sorteren en herschikken, zijn er voor iteratieve berekeningen verschillende gidsmix- en sort-degressiefasen nodig om te voltooien. Dit creëert talrijke records tussen de MapReduce fases en is een verspilling in termen van efficiënte systematische figuratie.

Er is een algemeen erkende fout in MapReduce, omdat het moeilijk is om sectie-niveau software engineers (die over voldoende Java-capaciteiten beschikken) te vinden om efficiënt te zijn met MapReduce. Dat is een verklaring voor het feit dat leveranciers proberen om voorrang te geven aan sociale (SQL) innovatie boven Hadoop. Het is een stuk eenvoudiger om software engineers met SQL vaardigheden te vinden dan MapReduce vaardigheden. Bovendien lijkt de Hadoop-organisatie deels kunst en deels wetenschap te zijn, waarbij informatie op laag niveau van werkkaders, apparatuur en Hadoop-partijen nodig is.

Informatiebeveiliging


Een andere test draait om de verdeelde informatiebeveiliging, maar er duiken nieuwe apparaten en innovaties op. De Kerberos verificatieconventie is een ongelooflijke vooruitgang in de richting van het veilig maken van Hadoop.

Het valt niet te ontkennen dat informatie voor het bestuur en de administratie niet een van de sterke punten van Hadoop is. Hadoop beschikt niet over eenvoudig te gebruiken, volwaardige tools voor foruminformatie, informatiezuivering, administratie of metagegevens. Vooral apparaten voor informatiekwaliteit en institutionalisering ontbreken.