Qu’est-ce que le Hadoop et pourquoi est-il important ?

Hadoop est un cadre logiciel à source ouverte pour le stockage de données et l’exécution d’applications sur des grappes de matériel de base. Il offre un stockage massif pour tout type de données, une énorme puissance de traitement et la possibilité de gérer des tâches ou des travaux simultanés pratiquement illimités.

L’histoire de Hadoop

Avec le développement du World Wide Web à la fin des années 1900 et au milieu des années 2000, des crawlers et des listes ont été créés pour aider à trouver des données applicables au milieu de la substance basée sur le contenu. Dans les premières années, les requêtes étaient renvoyées par les gens. Quoi qu’il en soit, le web étant passé de quelques poignées à un nombre énorme de pages, l’informatisation était nécessaire. Les robots d’exploration du web se sont multipliés, à mesure que les universités ont lancé des projets de recherche et que de nouvelles entreprises de robots d’exploration du web ont pris leur essor (Yahoo, AltaVista, etc.).

L’une de ces entreprises a été un index web à code source ouvert appelé Nutch – l’idée de Doug Cutting et Mike Cafarella. Ils avaient besoin de retourner plus rapidement des listes indexées sur le web en s’appropriant des informations et des estimations sur plusieurs PC afin de pouvoir effectuer de nombreuses tâches en même temps. Pendant ce temps, une autre entreprise d’outils de recherche sur le web, appelée Google, était en cours de développement. Elle reposait sur une idée similaire : ranger et préparer les informations de manière circulée et mécanisée, dans le but de renvoyer plus rapidement les éléments importants des recherches sur le web.

Pourquoi Hadoop est-il important ?

La capacité de stocker et de traiter rapidement d’énormes quantités d’informations de toutes sortes. Avec des volumes et des assortiments d’informations en constante augmentation, notamment en provenance de la vie en ligne et de l’Internet des objets (IoT), c’est une idée clé.

Le pouvoir des chiffres. Hadoop s’est approprié un modèle d’enregistrement des procédures d’énormes informations rapidement. Plus vous utilisez de plateformes d’enregistrement, plus vous avez de force de frappe.

Adaptation à la défaillance interne. Les informations et la préparation des demandes sont protégées contre les déceptions du matériel. En cas de panne d’un centre, les emplois sont donc redirigés vers d’autres centres afin de garantir que l’enregistrement diffusé ne soit pas défaillant. Les divers doublons de toutes les informations sont naturellement mis de côté.

Adaptabilité. Contrairement aux bases de données sociales classiques, il n’est pas nécessaire de prétraiter les informations avant de les ranger. Vous pouvez stocker autant d’informations que vous le souhaitez et choisir comment les utiliser plus tard. Cela comprend les informations non structurées comme le contenu, les images et les enregistrements.

Effort minimal. La structure open-source est gratuite et utilise des équipements de stockage pour stocker d’énormes quantités d’informations.

Polyvalence. Vous pouvez sans trop de difficultés développer votre cadre pour traiter davantage d’informations, essentiellement en y incluant des concentrateurs. Peu d’organisation est nécessaire.


Quelles sont les difficultés liées à l’utilisation de Hadoop ?

MapReduce, qui écrit des programmes informatiques, n’est certainement pas une contrepartie valable pour toutes les questions. Il est utile pour les demandes de données simples et les questions qui peuvent être isolées en unités autonomes, mais il n’est pas compétent pour les enquêtes itératives et intuitives. MapReduce est un concentré d’enregistrements. Comme les hubs ne communiquent pas entre eux, sauf par le biais de tris et de réarrangements, les calculs itératifs nécessitent diverses étapes de mixage et de tri-découpage des guides pour être terminés. Cela fait de nombreux enregistrements entre les étapes de MapReduce et est un gaspillage pour une figuration systématique de pointe.

Il y a un trou de capacité généralement reconnu. Il est généralement difficile de trouver des ingénieurs logiciels au niveau des sections qui ont les capacités Java adéquates pour être utiles avec MapReduce. C’est l’une des raisons pour lesquelles les fournisseurs de moyens de transport s’efforcent de faire passer l’innovation sociale (SQL) avant Hadoop. Il est beaucoup plus simple de découvrir des ingénieurs logiciels ayant des aptitudes SQL que des aptitudes MapReduce. De plus, l’organisation de Hadoop semble être en partie artisanale et en partie scientifique, nécessitant des informations de bas niveau sur les cadres de travail, les équipements et les paramètres des portions de Hadoop.

Sécurité de l’information. Un autre test tourne autour des questions de sécurité de l’information, mais de nouveaux appareils et de nouvelles innovations font leur apparition. La convention de vérification Kerberos est une avancée incroyable vers la sécurisation des conditions Hadoop.

Des informations indéniables le conseil et l’administration. Hadoop ne dispose pas d’instruments simples à utiliser, en pleine lumière, pour l’information du conseil d’administration, la purification de l’information, l’administration et les métadonnées. Il manque notamment des dispositifs pour la qualité de l’information et l’institutionnalisation.