¿Qué es el Hadoop y por qué importa?

Hadoop es un marco de software de código abierto para el almacenamiento de datos y la ejecución de aplicaciones en grupos de hardware de productos básicos. Proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de procesamiento y la capacidad de manejar tareas o trabajos concurrentes virtualmente ilimitados.

Historia de Hadoop

A medida que se desarrollaba la World Wide Web a finales del siglo XX y mediados del 2000, se crearon rastreadores y listas en la web para ayudar a encontrar datos aplicables en medio de la sustancia basada en el contenido. En los primeros años, los elementos de consulta eran devueltos por las personas. En cualquier caso, a medida que la web se desarrolló de puñados a un gran número de páginas, se requirió la informatización. Se crearon rastreadores web, numerosos a medida que la universidad impulsaba las empresas de investigación, y los nuevos negocios de rastreo web despegaron (Yahoo, AltaVista, etc.).

Uno de estos emprendimientos fue un índice web de código abierto llamado Nutch – la creación de Doug Cutting y Mike Cafarella. Necesitaban devolver las listas indexadas de la web más rápido apropiándose de la información y las estimaciones de forma cruzada en varios PCs para que se pudieran practicar numerosas tareas al mismo tiempo. Durante este tiempo, otra empresa de herramientas de búsqueda en la web llamada Google estaba en progreso. Dependía de una idea similar: guardar y preparar la información de forma circular y mecanizada con el objetivo de que los elementos de consulta importantes de la web pudieran ser devueltos más rápidamente.

¿Por qué es importante Hadoop?

La capacidad de almacenar y procesar enormes medidas de cualquier tipo de información, rápidamente. Con los volúmenes y surtidos de información en continua expansión, particularmente de la vida en línea y el Internet de las Cosas (IoT), ese es un pensamiento clave.

Poder de cálculo. Hadoop se apropió de los procedimientos de registro de modelos de información enorme y rápida. Cuanto más centros de registro utilice, más fuerza de manejo tendrá.

Adaptación a los fallos internos. La información y la preparación de la aplicación están aseguradas contra la decepción del equipo. En el caso de que un centro se caiga, los empleos son consecuentemente desviados a diferentes centros para asegurar que el registro circulado no se quede corto. Varios duplicados de toda la información se guardan naturalmente.

Adaptabilidad. A diferencia de las bases de datos sociales convencionales, no es necesario preprocesar la información antes de guardarla. Puedes almacenar toda la información que necesites y elegir cómo utilizarla más tarde. Eso incorpora información no estructurada como contenido, imágenes y grabaciones.

Un esfuerzo mínimo. La estructura de código abierto es gratuita y utiliza equipos de almacenamiento para guardar grandes cantidades de información.

Versatilidad. Puedes sin mucho esfuerzo desarrollar tu estructura para tratar con más información esencialmente incluyendo centros. Se requiere poca organización.


¿Cuáles son las dificultades de utilizar el Hadoop?

MapReduce no es una contraparte decente para todos los temas. Es útil para las solicitudes de datos y cuestiones que pueden ser aisladas en unidades autónomas, pero no es competente para las tareas de investigación iterativas e intuitivas. MapReduce está concentrado en los registros. Como los centros no se intercomunican aparte de a través de clases y reordenamientos, los cálculos iterativos requieren varias etapas de mezcla de guías y de reducción para terminar. Esto hace que haya numerosos registros entre las etapas de MapReduce y es un desperdicio para el cálculo sistemático de vanguardia.

Hay un agujero de habilidad generalmente reconocido. Tiende a ser difícil descubrir ingenieros de software a nivel de sección que tengan las habilidades Java adecuadas para ser beneficiosos con MapReduce. Esa es una explicación de que los proveedores de transporte se esfuerzan por poner la innovación social (SQL) por encima de Hadoop. Es mucho más simple descubrir ingenieros de software con aptitudes SQL que habilidades de MapReduce. Lo que es más, la organización del Hadoop parece ser en parte trabajo y en parte ciencia, requiriendo información de bajo nivel de los marcos de trabajo, equipo y ajustes de la porción del Hadoop.

Seguridad de la información. Otra prueba gira en torno a los problemas de seguridad de la información dividida, sin embargo, nuevos aparatos e innovaciones están surgiendo. La convención de verificación de Kerberos es un increíble avance para hacer seguras las condiciones del Hadoop.

Información innegable la junta y la administración. Hadoop no tiene instrumentos simples de utilizar, completamente destacados para la información de la junta, la purificación de la información, la administración y los metadatos. Particularmente faltan los dispositivos para la calidad de la información y la institucionalización.