Che cos’è e perché è importante


Hadoop è un framework software open-source per l’archiviazione dei dati e l’esecuzione di applicazioni su cluster di hardware di materie prime. Fornisce un’archiviazione massiccia per qualsiasi tipo di dati, un’enorme potenza di elaborazione e la capacità di gestire attività o lavori simultanei virtualmente senza limiti.


Storia Hadoop


Con lo sviluppo del World Wide Web tra la fine del 1900 e la metà degli anni 2000, sono stati creati dei web crawler e degli elenchi per aiutare a trovare i dati desiderati in una marea di contenuti. Nei primi anni, le query sono state restituite manualmente. In ogni caso, poiché il web si è sviluppato da una manciata di pagine alla sua attuale massiccia scala, è stata necessaria l’informatizzazione. I web crawler sono stati sviluppati in massa quando i college hanno iniziato a utilizzare il web per la ricerca e sono state costruite nuove imprese per il web crawling (Yahoo, AltaVista, e così via).

Una di queste imprese era un indice web open-source chiamato Nutch – nato da un’idea di Doug Cutting e Mike Cafarella. Avevano bisogno di restituire più velocemente le liste indicizzate sul web, appropriandosi di informazioni e stime su vari computer, in modo da poter svolgere numerosi incarichi contemporaneamente. Durante questo periodo, un’altra impresa di ricerca sul web chiamata Google era in fase di sviluppo. Dipendeva da un’idea simile: immagazzinare e preparare le informazioni in modo diffuso e meccanizzato, con l’obiettivo di restituire più velocemente importanti query web.


Perché Hadoop è importante?


Hadoop è significativo per la sua capacità di immagazzinare ed elaborare rapidamente enormi quantità di qualsiasi tipo di informazione. Con volumi e assortimenti di informazioni in continua espansione, in particolare dai social media e dall’Internet delle cose (IoT), Hadoop è significativo per il suo posto nell’analisi dei grandi dati.

Le procedure del modello di registrazione Hadoop permettono di accedere rapidamente a enormi quantità di informazioni. Più sono gli hub di registrazione utilizzati, maggiore è la forza di gestione disponibile.

Adattamento ai guasti interni
Le informazioni e la preparazione dell’applicazione sono protette contro i guasti delle apparecchiature. In caso di guasto di un hub, i processi vengono di conseguenza dirottati su hub diversi per garantire che la registrazione circolante non venga a mancare. Diversi duplicati di tutte le informazioni vengono conservati in modo efficiente e senza perdita di dati.

Adattabilità
A differenza delle banche dati sociali convenzionali, non è necessario pre-elaborare le informazioni prima di metterle via. È possibile memorizzare tutte le informazioni di cui si ha bisogno e scegliere come utilizzarle in seguito. Questo incorpora informazioni non strutturate come contenuti, immagini e registrazioni.

Sforzo minimo
La struttura open-source è gratuita e utilizza l’hardware per memorizzare enormi quantità di informazioni.

Versatilità
Potete sviluppare il vostro framework per gestire più informazioni essenzialmente includendo gli hub. È necessaria una piccola organizzazione, e lo si fa in modo semplice e intuitivo


Quali sono le difficoltà di utilizzo di Hadoop?

Con MapReduce, scrivere programmi per computer non è una soluzione decente per ogni problema. È utile per semplici interrogazioni di dati e problemi che possono essere isolati in unità autonome, ma non è utile per le commissioni d’indagine iterative e intuitive. MapReduce è un concentrato di record e poiché gli hub non comunicano tra loro, a parte lo smistamento e il riordinamento, i calcoli iterativi richiedono varie fasi di mix guida e di smistamento-decreazione per essere completati. Questo crea numerosi record tra gli stadi di MapReduce ed è uno spreco in termini di calcolo sistematico efficiente.

C’è un difetto generalmente riconosciuto con MapReduce, perché tende ad essere difficile trovare ingegneri software a livello di sezione (che hanno adeguate capacità Java) per essere efficienti con MapReduce. Questa è una delle spiegazioni per cui i fornitori di veicolazione stanno cercando di dare priorità all’innovazione sociale (SQL) rispetto ad Hadoop. È molto più semplice trovare ingegneri del software con attitudini SQL rispetto alle capacità di MapReduce. Inoltre, l’organizzazione Hadoop sembra essere in parte arte e in parte scienza, richiedendo informazioni di basso livello su strutture di lavoro, attrezzature e impostazioni delle porzioni Hadoop.

Sicurezza delle informazioni


Un altro test ruota intorno alle questioni di sicurezza delle informazioni divise, tuttavia, stanno emergendo nuovi dispositivi e innovazioni. La convenzione di verifica Kerberos è un incredibile progresso verso la sicurezza di Hadoop.

Innegabilmente, l’informazione per il consiglio di amministrazione e l’amministrazione non è uno dei punti di forza di Hadoop. Hadoop non dispone di strumenti semplici da utilizzare e completamente chiari per le informazioni sulla scheda, la purificazione delle informazioni, l’amministrazione o i metadati. Mancano in particolare i dispositivi per la qualità dell’informazione e l’istituzionalizzazione.