Was ist Hadoop und warum ist es wichtig?

Hadoop ist ein Open-Source-Software-Framework zum Speichern von Daten und Ausführen von Anwendungen auf Clustern von Standard-Hardware. Es bietet massiven Speicherplatz für jede Art von Daten, enorme Rechenleistung und die Möglichkeit, praktisch unbegrenzt viele gleichzeitige Aufgaben oder Jobs zu bearbeiten.

Hadoop Geschichte

Als sich das World Wide Web Ende 1900 und Mitte 2000 entwickelte, wurden Web-Crawler und Listen erstellt, um inmitten der inhaltsbasierten Substanz anwendbare Daten zu finden. In den ersten Jahren wurden die Suchbegriffe von Menschen zurückgegeben. Da sich das Web von einer Handvoll zu einer großen Anzahl von Seiten entwickelte, war eine Computerisierung erforderlich. Es wurden Web-Crawler erstellt, die zahlreich waren, da die Hochschulen Forschungsvorhaben vorantreiben und Web-Crawler neue Unternehmen ins Leben riefen (Yahoo, AltaVista und so weiter).

Ein solches Unternehmen war ein Open-Source-Webindex namens Nutch – das Geistesprodukt von Doug Cutting und Mike Cafarella. Sie mussten webindizierte Listen schneller zurückgeben, indem sie sich Informationen und Schätzungen über verschiedene PCs hinweg aneigneten, damit zahlreiche Aufgaben gleichzeitig ausgeführt werden konnten. Während dieser Zeit war ein weiteres Web-Suchtool namens Google im Kommen. Es hing von einer ähnlichen Idee ab – Informationen in einer zirkulierenden, mechanisierten Art und Weise aufzubewahren und aufzubereiten, mit dem Ziel, dass wichtige Web-Abfrageelemente schneller zurückgegeben werden konnten.

Warum ist Hadoop wichtig?

Die Fähigkeit, enorme Mengen jeder Art von Informationen schnell zu speichern und zu verarbeiten. Bei einem ständig wachsenden Informationsvolumen und -sortiment, insbesondere aus dem Online-Leben und dem Internet der Dinge (IoT), ist dies ein Schlüsselgedanke.

Rechenkraft. Hadoops angeeignetes Registrierungsmodell verarbeitet riesige Informationen schnell. Je mehr Registrierungs-Hubs Sie benutzen, desto mehr Handlungskraft haben Sie.

Anpassung an interne Fehler. Informationen und die Vorbereitung von Bewerbungen sind gegen Enttäuschungen bei der Ausrüstung gesichert. Falls ein Hub ausfällt, werden die Mitarbeiter auf andere Hubs umgeleitet, um sicherzustellen, dass die zirkulierenden Registrierungen nicht zu kurz kommen. Verschiedene Duplikate aller Informationen werden natürlich weggeräumt.

Anpassungsfähigkeit. Im Gegensatz zu herkömmlichen Sozialdatenbanken müssen Sie die Informationen nicht vorverarbeiten, bevor Sie sie ablegen. Sie können so viele Informationen speichern, wie Sie brauchen, und wählen, wie Sie sie später nutzen wollen. Das schließt unstrukturierte Informationen wie Inhalte, Bilder und Aufzeichnungen ein.

Minimaler Aufwand. Die Open-Source-Struktur ist kostenlos und verwendet Warenausrüstung, um große Mengen an Informationen zu speichern.

Vielseitigkeit. Sie können ohne großen Aufwand einen Rahmen entwickeln, um mit mehr Informationen umgehen zu können, im Wesentlichen durch die Einbeziehung von Hubs. Wenig Organisation ist erforderlich.
Was sind die Schwierigkeiten bei der Nutzung von Hadoop?

MapReduce, das Schreiben von Computerprogrammen, ist nachweislich kein anständiges Gegenstück für alle Probleme. Es ist nützlich für einfache Datenerhebungen und Probleme, die in autonome Einheiten isoliert werden können, aber es eignet sich nicht für iterative und intuitive Ermittlungsbesorgungen. MapReduce ist rekordverdächtig konzentriert. Da die Knotenpunkte nicht miteinander kommunizieren, außer durch Sortierungen und Neuanordnungen, erfordern iterative Berechnungen verschiedene Phasen der Mischung und Verminderung von Leitfäden, bis sie abgeschlossen sind. Dies führt zu zahlreichen Aufzeichnungen zwischen den MapReduce-Stufen und ist für eine hochmoderne, systematische Berechnung verschwenderisch.

Es gibt ein allgemein anerkanntes Fähigkeitsloch. Es ist in der Regel schwierig, Software-Ingenieure auf Sektionsebene zu finden, die über ausreichende Java-Fähigkeiten verfügen, um mit MapReduce nützlich zu sein. Das ist eine der Erklärungen, warum Anbieter von Transportmitteln versuchen, soziale (SQL) Innovationen über Hadoop zu stellen. Es ist viel einfacher, Software-Ingenieure mit SQL-Fähigkeiten zu finden als mit MapReduce. Darüber hinaus scheint die Hadoop-Organisation teils handwerklich und teils wissenschaftlich zu sein, was Informationen über Arbeitsrahmen, Ausrüstung und Hadoop-Teil-Einstellungen auf niedriger Ebene erfordert.

Informationssicherheit. Ein weiterer Test dreht sich um die geteilten Fragen der Informationssicherheit, wobei jedoch neue Geräte und Innovationen auftauchen. Die Kerberos-Verifizierungskonvention ist ein unglaublicher Fortschritt in Richtung Sicherheit von Hadoop-Bedingungen.

Unbestreitbare Informationen für den Vorstand und die Verwaltung. Hadoop verfügt nicht über einfach zu verwendende, vollwertige Instrumente für die Information des Boards, die Informationsaufbereitung, die Verwaltung und die Metadaten. Besonders fehlen Instrumente für die Informationsqualität und die Institutionalisierung.