O que é e porque é importante


Hadoop é uma estrutura de software de código aberto para armazenar dados e executar aplicações em clusters de hardware de base. Fornece armazenamento massivo de qualquer tipo de dados, enorme poder de processamento e a capacidade de lidar com tarefas ou trabalhos simultâneos praticamente ilimitados.


História do Hadoop


medida que a World Wide Web se foi desenvolvendo no final do século XIX e em meados do século XX, foram sendo feitas listas e rastejadores da Web para ajudar a encontrar os dados desejados numa inundação de conteúdos. Nos primeiros anos, as consultas eram devolvidas manualmente. Em qualquer caso, como a Web se desenvolveu a partir de um punhado de páginas até à sua actual escala massiva, foi necessária a informatização. Foram desenvolvidos crawlers na web em massa à medida que as faculdades começaram a utilizar a web para pesquisa, e foram construídos novos negócios para o crawling da web (Yahoo, AltaVista, e assim por diante).

Um desses empreendimentos foi um índice web open-source chamado Nutch – a criação de Doug Cutting e Mike Cafarella. Eles precisavam de devolver listas indexadas web mais rapidamente, apropriando-se de informações e estimativas em vários computadores, para que inúmeras tarefas pudessem ser realizadas ao mesmo tempo. Durante este tempo, estava em desenvolvimento outro empreendimento de pesquisa na web chamado Google. Dependia de uma ideia semelhante – armazenar e preparar informação de uma forma circulada e mecanizada, com o objectivo de que as consultas importantes na web pudessem ser devolvidas mais rapidamente.


Porque é que o Hadoop é significativo?


O Hadoop é significativo devido à sua capacidade de armazenar e processar rapidamente enormes quantidades de qualquer tipo de informação. Com volumes e sortimentos de informação em contínua expansão, particularmente das redes sociais e da Internet das Coisas (IoT), o Hadoop é significativo devido ao seu lugar nas grandes análises de dados.

Os procedimentos adequados do modelo de registo da Hadoop permitem rapidamente o acesso a enormes quantidades de informação. Quanto mais centros de registo utilizar, mais força de manuseamento estará disponível.

Adaptação a falhas internas
A informação e a preparação dos pedidos são asseguradas contra falhas de equipamento. Em caso de queda de um hub, os processos são consequentemente desviados para diferentes hubs para garantir que o registo circulante não seja curto. Várias duplicações de toda a informação são guardadas de forma eficiente e sem perda de dados.

Adaptabilidade
Em contraste com as bases de dados sociais convencionais, não é necessário pré-processar a informação antes de a guardar. Pode armazenar tanta informação quanto necessitar e escolher como utilizá-la mais tarde. Isto incorpora informações não estruturadas como conteúdos, imagens e gravações.

Mínimo esforço
A estrutura de código aberto é gratuita e utiliza hardware para armazenar enormes quantidades de informação.

Versatilidade
Pode desenvolver o seu quadro para lidar com mais informação essencialmente através da inclusão de hubs. É necessária pouca organização e é feita de uma forma simples e intuitiva.
Quais são as dificuldades de utilização do Hadoop?

Com o MapReduce, escrever programas de computador não é uma solução decente para todos os problemas. É útil para consultas simples de dados e questões que podem ser isoladas em unidades autónomas, mas não é proficiente para tarefas de investigação iterativas e intuitivas. O MapReduce é concentrado em registos e como os hubs não se intercomunicam para além da classificação e rearranjo, os cálculos iterativos requerem várias fases de mistura de guias e de sort-decrease para serem completados. Isto cria numerosos registos entre as fases do MapReduce e é um desperdício em termos de uma figura sistemática eficiente.

Existe uma falha geralmente reconhecida no MapReduce, porque tende a ser difícil encontrar engenheiros de software de nível de secção (que tenham capacidades Java adequadas) para serem eficientes com o MapReduce. Esta é uma explicação para o facto dos fornecedores de transmissão estarem a tentar dar prioridade à inovação social (SQL) em detrimento da Hadoop. É muito mais simples encontrar engenheiros de software com aptidões SQL do que com as capacidades do MapReduce. Além disso, a organização do Hadoop parece ser parte arte e parte ciência, exigindo informação de baixo nível de estruturas de trabalho, equipamentos e definições das porções do Hadoop.

Segurança da informação


Outro teste gira em torno das questões de segurança da informação divididas, no entanto, estão a surgir novos dispositivos e inovações. A convenção de verificação Kerberos é um avanço incrível no sentido de tornar o Hadoop seguro.

Inegavelmente, a informação para a prancha e a administração não é um dos pontos fortes do Hadoop. O Hadoop não tem ferramentas simples de utilizar, com luz total para a informação da prancha, purificação da informação, administração ou metadados. Faltam especialmente dispositivos para a qualidade e institucionalização da informação.