Что такое Хадуп и почему это важно?

Hadoop – это программный фреймворк с открытым исходным кодом для хранения данных и запуска приложений на кластерах товарного оборудования. Она обеспечивает массивное хранение любых типов данных, огромную вычислительную мощность и возможность работать с практически неограниченными параллельными задачами или рабочими местами.

История Hadoop

По мере развития Всемирной паутины в конце 1900-х – середине 2000-х годов были составлены веб-краулеры и списки, чтобы помочь найти применимые данные в середине содержания, основанного на веществе. В первые годы люди отвечали на вопросы. В любом случае, по мере того, как Интернет развивался от горстки до огромного количества страниц, требовалась компьютеризация. Были сделаны веб-ползунки, многочисленные по мере того, как колледжи вели исследовательские работы, и новые веб-ползунки взлетели (Yahoo, AltaVista, и т.д.).

Одним из таких предприятий стал веб-индекс с открытым исходным кодом под названием Nutch – детище Дага Каттинга и Майка Кафареллы. Им нужно было быстрее возвращать веб-индексированные списки, присваивая информацию и оценки по разным компьютерам, чтобы можно было выполнять множество заданий одновременно. В течение этого времени продвинулось еще одно предприятие по созданию поисковых веб-инструментов под названием Google. Это зависело от аналогичной идеи – отложить и подготовить информацию в циркулирующем, механизированном способом с целью, что важные элементы веб-запроса могут быть возвращены быстрее.

Почему Hadoop важен?

Способность быстро хранить и обрабатывать огромные объемы любой информации. С постоянно растущими объемами информации и ассортиментом, особенно из жизни онлайн и Интернета вещей (IoT), это является ключевой мыслью.

Фигурирующая сила. Соответствующая модель регистрации Hadoop быстро обрабатывает огромную информацию. Чем больше регистрационных узлов вы используете, тем больше сила обработки у вас есть.

Адаптация к внутреннему сбою. Подготовка информации и приложений защищена от разочарования оборудования. В случае, если концентратор выходит из строя, работники перенаправляются в различные концентраторы, чтобы избежать короткого затягивания циркулирующей регистрации. Различные дубликаты всей информации убираются естественным образом.

Адаптируемость. В отличие от обычных социальных баз данных, вам не нужно предварительно обрабатывать информацию перед тем, как убрать ее. Вы можете хранить столько информации, сколько вам нужно, и выбрать, как использовать ее позже. Это включает в себя неструктурированную информацию, такую как контент, изображения и записи.

Минимальные усилия. Структура с открытым исходным кодом является бесплатной и использует оборудование для хранения огромного количества информации.

Универсальность. Вы можете без большой натяжки развивать вашу структуру, чтобы иметь дело с большей информацией, главным образом, путем включения концентраторов. Требуется небольшая организация.


Каковы трудности использования Hadoop?

MapReduce написание компьютерных программ – это, безусловно, не самый подходящий аналог для решения всех проблем. Она полезна для простого поиска данных и решения проблем, которые можно разделить на автономные единицы, но при этом не умеет выполнять итеративные и интуитивно понятные следственные задания. MapReduce сконцентрирован на записи. Поскольку концентраторы не взаимодействуют между собой, кроме как через сортировки и переупорядочивания, для завершения итеративных вычислений требуются различные направляющие смеси/сортировочные этапы снижения. Это приводит к многочисленным записям между этапами MapReduce и является расточительным для систематических расчетов.

Существует общепризнанная дыра в способности. Как правило, трудно обнаружить инженеров-программистов на уровне разделов, которые имеют адекватные способности Java, чтобы быть полезными с MapReduce. Это одно из объяснений того, что поставщики средств передачи данных торопятся поставить социальные (SQL) инновации над Хадупом. Гораздо проще найти инженеров-программистов со способностями SQL, чем с возможностями MapReduce. Более того, организация Hadoop выглядит как обработка деталей и наука о деталях, требующая низкоуровневой информации о рабочих фреймворках, оборудовании и настройках порций Hadoop.

Информационная безопасность. Другой тест вращается вокруг разделенных проблем информационной безопасности, однако появляются новые аппараты и инновации. Соглашение о проверке Kerberos – это невероятный шаг вперед на пути к тому, чтобы сделать условия безопасности Hadoop безопасными.

Неоспоримая информация о доске объявлений и администрации. Hadoop не имеет простых в использовании, полнофункциональных инструментов для получения информации о доске, очистки информации, администрирования и метаданных. Особенно не хватает устройств для качества информации и институционализации.