Ce que c’est et pourquoi c’est important


Hadoop est un cadre logiciel à source ouverte pour le stockage de données et l’exécution d’applications sur des grappes de matériel de base. Il offre un stockage massif pour tout type de données, une énorme puissance de traitement et la possibilité de gérer des tâches ou des travaux simultanés pratiquement illimités.


L’histoire de Hadoop

Avec le développement du World Wide Web à la fin des années 1900 et au milieu des années 2000, des crawlers et des listes ont été créés pour aider à trouver les données souhaitées dans un flot de contenu. Dans les premières années, les requêtes étaient renvoyées manuellement. Quoi qu’il en soit, comme le web s’est développé à partir d’une poignée de pages jusqu’à son échelle massive actuelle, l’informatisation était nécessaire. Les robots d’exploration du web se sont développés en masse, à mesure que les universités commençaient à utiliser le web pour leurs recherches et que de nouvelles entreprises étaient créées pour l’exploration du web (Yahoo, AltaVista, etc.).

L’une de ces entreprises est un index web open-source appelé Nutch – une idée de Doug Cutting et Mike Cafarella. Il s’agissait de renvoyer plus rapidement des listes indexées sur le web en s’appropriant des informations et des estimations sur différents ordinateurs, afin de pouvoir effectuer de nombreuses tâches en même temps. Pendant ce temps, une autre entreprise de recherche sur le web, appelée Google, était en cours de développement. Elle reposait sur une idée similaire : stocker et préparer des informations de manière mécanisée et circulante, dans le but de répondre plus rapidement aux requêtes importantes du web.


Pourquoi Hadoop est-il important ?


Hadoop est important en raison de sa capacité à stocker et à traiter rapidement d’énormes quantités d’informations de toutes sortes. Avec des volumes et des assortiments d’informations en constante augmentation, notamment en provenance des médias sociaux et de l’Internet des objets (IoT), Hadoop est important en raison de sa place dans l’analyse des grandes données.

Grâce à ses procédures d’enregistrement modèles appropriées, Hadoop permet d’accéder rapidement à d’énormes quantités d’informations. Plus vous utilisez de plateformes d’enregistrement, plus vous disposez d’une force de traitement importante.

Adaptation aux défaillances internes
Les informations et la préparation des demandes sont protégées contre les défaillances de l’équipement. En cas de panne d’un hub, les processus sont par conséquent déviés vers différents hubs afin de garantir que l’enregistrement diffusé ne soit pas défaillant. Les différents doublons de toutes les informations sont stockés de manière efficace et sans perte de données.

Adaptabilité
Contrairement aux bases de données sociales classiques, vous n’avez pas besoin de prétraiter les informations avant de les ranger. Vous pouvez stocker autant d’informations que vous le souhaitez et choisir comment les utiliser plus tard. Cela comprend les informations non structurées comme le contenu, les images et les enregistrements.

Un effort minimal
La structure open-source est gratuite et utilise du matériel informatique pour stocker d’énormes quantités d’informations.

Polyvalence
Vous pouvez développer votre cadre pour traiter davantage d’informations, essentiellement en y incluant des hubs. Peu d’organisation est nécessaire, et cela se fait de manière simple et intuitive


Quelles sont les difficultés d’utilisation de Hadoop ?

Avec MapReduce, écrire des programmes informatiques n’est pas une solution décente pour tous les problèmes. Il est utile pour les requêtes de données simples et les problèmes qui peuvent être isolés en unités autonomes, mais il n’est pas compétent pour les recherches itératives et intuitives. MapReduce est un concentré d’enregistrements et comme les centres ne communiquent pas entre eux, à part pour le tri et le réarrangement, les calculs itératifs nécessitent diverses étapes de mixage et de tri-découpe pour être effectués. Cela crée de nombreux enregistrements entre les différentes étapes de MapReduce et représente un gaspillage en termes de calcul systématique efficace.

Il y a un défaut généralement reconnu avec MapReduce, car il est difficile de trouver des ingénieurs logiciels au niveau des sections (qui ont les capacités Java adéquates) pour être efficace avec MapReduce. C’est l’une des raisons pour lesquelles les fournisseurs de moyens de transport tentent de privilégier l’innovation sociale (SQL) par rapport à Hadoop. Il est beaucoup plus simple de trouver des ingénieurs logiciels ayant des aptitudes SQL que des aptitudes MapReduce. De plus, l’organisation de Hadoop semble être en partie un art et en partie une science, nécessitant des informations de bas niveau sur les cadres de travail, les équipements et les paramètres des portions de Hadoop.

Sécurité de l’information


Un autre test porte sur les questions de sécurité de l’information, mais de nouveaux dispositifs et de nouvelles innovations font leur apparition. La convention de vérification Kerberos est une avancée incroyable vers la sécurisation de Hadoop.

Il est indéniable que l’information destinée au conseil d’administration et à l’administration n’est pas l’un des points forts de Hadoop. Hadoop n’a pas d’outils simples à utiliser et très performants pour l’information du conseil d’administration, la purification de l’information, l’administration ou les métadonnées. Il manque notamment des dispositifs pour la qualité de l’information et l’institutionnalisation.