O que é o Hadoop e porque é importante?

Hadoop é um framework de software de código aberto para armazenar dados e executar aplicações em clusters de hardware de commodity. Ele fornece armazenamento massivo para qualquer tipo de dados, enorme poder de processamento e a capacidade de lidar com tarefas ou trabalhos simultâneos praticamente ilimitados.

Histórico do Hadoop

Como a World Wide Web se desenvolveu no final dos anos 1900 e meados dos anos 2000, foram feitos crawlers e listas na Web para ajudar a encontrar dados aplicáveis no meio da substância baseada no conteúdo. Nos primeiros anos, os itens de consulta eram devolvidos por pessoas. De qualquer forma, como a web se desenvolveu de mão-cheia para um grande número de páginas, a informatização foi necessária. Web crawlers foram feitos, numerosos como a faculdade dirigiu empreendimentos de pesquisa, e crawler novos negócios da web decolou (Yahoo, AltaVista, e assim por diante.).

Um desses empreendimentos foi um índice web open-source chamado Nutch – a criação de Doug Cutting e Mike Cafarella. Eles precisavam retornar listas indexadas da web mais rapidamente, apropriando-se de informações e estimativas cruzadas em vários PCs para que inúmeras tarefas pudessem ser praticadas ao mesmo tempo. Durante esse tempo, outra ferramenta de busca na web, chamada Google, estava em avanço. Dependia de uma ideia semelhante – guardar e preparar informações de uma forma circulada e mecanizada, com o objectivo de que importantes itens de consulta web pudessem ser devolvidos mais rapidamente.

Por que o Hadoop é importante?

A capacidade de armazenar e processar enormes medidas de qualquer tipo de informação, rapidamente. Com volumes e sortimentos de informação em contínua expansão, particularmente da vida online e da Internet das Coisas (IoT), esse é um pensamento chave.

Poder de imaginação. O Hadoop apropriou-se dos procedimentos do modelo de registo de enormes informações de forma rápida. Quanto mais centros de registro você usa, mais força de manuseio você tem.

Adaptação a falhas internas. A informação e a preparação da aplicação são asseguradas contra a desilusão do equipamento. No caso de um hub cair, os empregos são consequentemente desviados para diferentes hubs para garantir que o registo circulante não fique aquém do esperado. Várias duplicatas de todas as informações são guardadas naturalmente.

Adaptabilidade. Ao contrário das bases de dados sociais convencionais, não é necessário pré-processar a informação antes de a guardar. Você pode armazenar a quantidade de informação que precisar e escolher como utilizá-la mais tarde. Isso incorpora informações não estruturadas como conteúdo, imagens e gravações.

Mínimo esforço. A estrutura de código aberto é gratuita e utiliza equipamentos de software para armazenar grandes quantidades de informação.

Versatilidade. Você pode sem muito esforço desenvolver sua estrutura para lidar com mais informações essencialmente incluindo hubs. É necessária pouca organização.


Quais são as dificuldades de utilizar o Hadoop?

O MapReduce escrever programas de computador não é, certamente, uma contrapartida decente para todas as questões. É útil para solicitações de dados simples e questões que podem ser isoladas em unidades autônomas, mas não é proficiente para tarefas de investigação iterativas e intuitivas. O MapReduce é um registro concentrado. Uma vez que os centros não se intercomunicam entre si, para além de tipos e rearranjos, os cálculos iterativos requerem várias fases de mistura de guias/diminuição de fluxo para terminarem. Isto faz numerosos registros entre os estágios do MapReduce e é um desperdício para uma figura sistemática de vanguarda.

Há um buraco de habilidade geralmente reconhecido. Tende a ser difícil descobrir engenheiros de software de nível de seção que tenham habilidades Java adequadas para serem benéficas com o MapReduce. Essa é uma explicação que os fornecedores de transmissão estão se esforçando para colocar a inovação social (SQL) sobre o Hadoop. É muito mais simples descobrir engenheiros de software com aptidões SQL do que com as capacidades do MapReduce. Além disso, a organização Hadoop parece ser parte de trabalho e parte de ciência, exigindo informações de baixo nível de estruturas de trabalho, equipamentos e configurações de porções Hadoop.

Segurança da informação. Outro teste gira em torno das questões divididas de segurança da informação, porém novos aparatos e inovações estão surgindo. A convenção de verificação Kerberos é um avanço incrível para tornar as condições do Hadoop seguras.

Informação inegável a prancha e a administração. O Hadoop não tem instrumentos simples de utilizar, com luz total para a informação da prancha, purificação da informação, administração e metadados. Faltam especialmente dispositivos para a qualidade e institucionalização da informação.