Lo que es y por qué importa


Hadoop es un marco de software de código abierto para el almacenamiento de datos y la ejecución de aplicaciones en grupos de hardware de productos básicos. Proporciona un almacenamiento masivo para cualquier tipo de datos, un enorme poder de procesamiento y la capacidad de manejar tareas o trabajos concurrentes virtualmente ilimitados.


Historia de Hadoop


A medida que la World Wide Web se desarrolló a finales del siglo XX y mediados del 2000, se crearon rastreadores y listas en la web para ayudar a encontrar los datos deseados en una avalancha de contenido. En los primeros años, las consultas fueron devueltas manualmente. En cualquier caso, a medida que la web se desarrollaba desde un puñado de páginas hasta su actual escala masiva, se requería la informatización. Los rastreadores de la web se desarrollaron en masa a medida que las universidades empezaron a utilizar la web para la investigación, y se crearon nuevas empresas para el rastreo de la web que despegaron (Yahoo, AltaVista, etc.).

Una de estas empresas fue un índice de la web de código abierto llamado Nutch – la creación de Doug Cutting y Mike Cafarella. Necesitaban devolver las listas indexadas de la web más rápido apropiándose de la información y las estimaciones en varios ordenadores, de modo que se pudieran llevar a cabo numerosas tareas al mismo tiempo. Durante este tiempo, otra empresa de búsqueda web llamada Google estaba en desarrollo. Dependía de una idea similar: almacenar y preparar la información de forma circular y mecanizada con el objetivo de que las consultas importantes de la web pudieran ser devueltas más rápidamente.


¿Por qué es importante el Hadoop?


El Hadoop es significativo por su capacidad de almacenar y procesar rápidamente enormes cantidades de cualquier tipo de información. Con volúmenes de información y surtidos en continua expansión, en particular de los medios sociales y el Internet de las Cosas (IoT), el Hadoop es significativo por su lugar en el análisis de grandes datos.

Los procedimientos del modelo de registro apropiado de Hadoop proporcionan rápidamente acceso a enormes cantidades de información. Cuantos más centros de registro se utilicen, más fuerza de manipulación estará disponible.

Adaptación a los fallos internos
La información y la preparación de las aplicaciones están aseguradas contra las fallas del equipo. En caso de que un centro se caiga, los procesos se desvían en consecuencia a diferentes centros para asegurar que el registro que circula no se quede corto. Varios duplicados de toda la información se almacenan de manera eficiente y sin pérdida de datos.

Adaptabilidad
A diferencia de las bases de datos sociales convencionales, no es necesario preprocesar la información antes de guardarla. Puedes almacenar toda la información que necesites y elegir cómo utilizarla más tarde. Esto incorpora información no estructurada como contenido, imágenes y grabaciones.

Mínimo esfuerzo
La estructura de código abierto es gratuita y utiliza hardware para almacenar grandes cantidades de información.

Versatilidad
Puede desarrollar su marco para tratar más información esencialmente incluyendo centros. Se requiere poca organización, y se hace de manera simple e intuitiva


¿Cuáles son las dificultades de utilizar el Hadoop?

Con MapReduce, escribir programas de ordenador no es una solución decente para todos los problemas. Es útil para consultas directas de datos y asuntos que pueden ser aislados en unidades autónomas, pero no es competente para tareas de investigación iterativas e intuitivas. MapReduce está concentrado en los registros y como los centros no se intercomunican aparte de clasificar y reordenar, los cálculos iterativos requieren varias etapas de mezcla de guías y de clasificación y reducción para completarse. Esto crea numerosos registros entre las etapas de MapReduce y es un desperdicio en términos de una eficiente figuración sistemática.

Hay un defecto generalmente reconocido con MapReduce, porque tiende a ser difícil encontrar ingenieros de software a nivel de sección (que tengan las capacidades adecuadas de Java) para ser eficientes con MapReduce. Esa es una explicación de que los proveedores de transporte están tratando de priorizar la innovación social (SQL) en lugar de Hadoop. Es mucho más sencillo encontrar ingenieros de software con aptitudes de SQL que con aptitudes de MapReduce. Además, la organización del Hadoop parece ser en parte arte y en parte ciencia, requiriendo información de bajo nivel de marcos de trabajo, equipo y ajustes de la porción del Hadoop.

Seguridad de la información


Otra prueba gira en torno a los problemas de seguridad de la información dividida, sin embargo, están surgiendo nuevos dispositivos e innovaciones. La convención de verificación de Kerberos es un increíble avance hacia la seguridad del Hadoop.

Indiscutiblemente, la información para la junta directiva y la administración no es uno de los puntos fuertes de Hadoop. Hadoop no tiene herramientas fáciles de usar y muy destacadas para la información del tablero, la purificación de la información, la administración o los metadatos. Particularmente faltan dispositivos para la calidad de la información y la institucionalización.