Che cos’è Hadoop e perché è importante?

Hadoop è un framework software open-source per l’archiviazione dei dati e l’esecuzione di applicazioni su cluster di hardware di materie prime. Fornisce un’archiviazione massiccia per qualsiasi tipo di dati, un’enorme potenza di elaborazione e la capacità di gestire attività o lavori simultanei virtualmente senza limiti.

Storia Hadoop

Con lo sviluppo del World Wide Web alla fine del 1900 e a metà degli anni 2000, sono stati creati dei web crawler e degli elenchi per aiutare a trovare i dati applicabili in mezzo alla sostanza basata sui contenuti. Nei primi anni, gli oggetti delle query sono stati restituiti dalle persone. In ogni caso, poiché il web si è sviluppato da manciate di pagine a un numero enorme di pagine, è stata necessaria l’informatizzazione. Furono realizzati dei web crawler, numerosi come le imprese di ricerca guidate dai college, e i nuovi business dei web crawler decollarono (Yahoo, AltaVista, e così via.).

Una di queste imprese era un indice web open-source chiamato Nutch – nato da un’idea di Doug Cutting e Mike Cafarella. Avevano bisogno di restituire più velocemente le liste indicizzate sul web, appropriandosi di informazioni e stime trasversali su vari PC, in modo da poter svolgere contemporaneamente numerosi incarichi. Durante questo periodo, un altro strumento di ricerca sul web chiamato Google era in fase di sviluppo. Dipendeva da un’idea simile: mettere via e preparare le informazioni in modo diffuso e meccanizzato, con l’obiettivo di restituire più rapidamente gli elementi importanti della ricerca sul web.

Perché Hadoop è importante?

La capacità di immagazzinare ed elaborare enormi misure di qualsiasi tipo di informazione, in modo rapido. Con volumi e assortimenti di informazioni in continua espansione, in particolare dalla vita online e dall’Internet delle cose (IoT), questo è un pensiero chiave.

Potenza di calcolo. Hadoop si appropria delle procedure di registrazione del modello di registrazione di enormi informazioni in modo rapido. Più sono gli hub di registrazione utilizzati, maggiore è la forza di gestione.

Adattamento ai guasti interni. Le informazioni e la preparazione delle applicazioni sono protette contro le delusioni dell’attrezzatura. In caso di guasto di un hub, gli impieghi vengono di conseguenza dirottati su hub diversi per garantire che la registrazione circolante non venga a mancare. Diversi duplicati di tutte le informazioni vengono messi via in modo naturale.

Adattabilità. A differenza delle banche dati sociali convenzionali, non è necessario pre-elaborare le informazioni prima di metterle via. Potete archiviare tutte le informazioni di cui avete bisogno e scegliere come utilizzarle in seguito. Questo incorpora informazioni non strutturate come contenuti, immagini e registrazioni.

Sforzo minimo. La struttura open-source è gratuita e utilizza attrezzature di magazzino per memorizzare enormi quantità di informazioni.

Versatilità. È possibile sviluppare senza troppa fatica il proprio framework per gestire più informazioni, essenzialmente includendo hub. È richiesta poca organizzazione.


Quali sono le difficoltà di utilizzo di Hadoop?

MapReduce, che scrive programmi per computer, non è certo una controparte decente per tutti i problemi. È utile per la semplice richiesta di dati e per questioni che possono essere isolate in unità autonome, ma non è utile per le commissioni d’indagine iterative e intuitive. MapReduce è un concentrato di record. Poiché gli hub non sono intercomunicanti, a parte i tipi e i riordini, i calcoli iterativi richiedono varie fasi di mix guida e di riduzione dei tempi per essere completati. Questo rende numerosi record tra gli stadi di MapReduce ed è uno spreco per i calcoli sistematici all’avanguardia.

C’è un buco di abilità generalmente riconosciuto. Tende ad essere difficile scoprire ingegneri software a livello di sezione che hanno adeguate capacità Java per essere utili con MapReduce. Questa è una delle spiegazioni per cui i fornitori di trasporto si stanno affannando a mettere l’innovazione sociale (SQL) su Hadoop. È molto più semplice scoprire ingegneri del software con attitudini SQL rispetto alle capacità di MapReduce. Inoltre, l’organizzazione Hadoop sembra essere in parte lavorazione e in parte scienza, richiedendo informazioni di basso livello su strutture di lavoro, attrezzature e impostazioni delle porzioni Hadoop.

Sicurezza delle informazioni. Un altro test ruota intorno alle questioni di sicurezza delle informazioni divise, tuttavia stanno emergendo nuovi apparati e innovazioni. La convenzione di verifica Kerberos è un incredibile progresso verso la sicurezza delle condizioni Hadoop.

Informazioni innegabili per il consiglio di amministrazione e l’amministrazione. Hadoop non dispone di strumenti semplici da utilizzare e di grande visibilità per l’informazione della scheda, la purificazione delle informazioni, l’amministrazione e i metadati. Mancano in particolare i dispositivi per la qualità dell’informazione e l’istituzionalizzazione.