Что это и почему это важно


Hadoop – это программный фреймворк с открытым исходным кодом для хранения данных и запуска приложений на кластерах товарного оборудования. Она обеспечивает массивное хранение любых типов данных, огромную вычислительную мощность и возможность работать с практически неограниченными параллельными задачами или заданиями.


История системы Hadoop


По мере развития Всемирной паутины в конце 1900-х и середине 2000-х годов, были созданы веб-краулеры и списки, чтобы помочь найти нужные данные в потоке содержания. В первые годы запросы возвращались вручную. В любом случае, по мере того, как всемирная паутина развивалась от горстки страниц до ее нынешних массовых масштабов, требовалась компьютеризация. Ползучие веб-страницы разрабатывались в массовом порядке по мере того, как колледжи начинали использовать сеть для исследований, а также создавались новые предприятия для взлета ползучих веб-страниц (Yahoo, AltaVista и т.д.).

Одним из таких предприятий стал веб-индекс с открытым исходным кодом под названием Nutch – детище Дага Каттинга и Майка Кафареллы. Им нужно было быстрее возвращать веб-индексированные списки, присваивая информацию и оценки на разных компьютерах, чтобы можно было выполнять множество заданий одновременно. В это время разрабатывалось еще одно предприятие по веб-поиску под названием Google. Это зависело от аналогичной идеи – хранения и подготовки информации в циркулирующем, механизированном режиме с целью, чтобы важные веб-запросы могли быть возвращены быстрее.


Почему Хадуп так важен?


Хадуоп имеет большое значение из-за его способности быстро хранить и обрабатывать огромные объемы любой информации. С постоянно растущими объемами информации и ассортиментом, в частности, из социальных сетей и Интернета вещей (IoT), Хадуп значим благодаря своему месту в аналитике больших объемов данных.

Соответствующие процедуры модели регистрации, применяемые в Хадупе, быстро обеспечивают доступ к огромным объемам информации. Чем больше регистрационных узлов вы используете, тем больше сила обработки доступна.

Адаптация к внутренним сбоям
Подготовка информации и заявок защищена от выхода из строя оборудования. В случае выхода из строя концентратора, процессы перенаправляются в различные концентраторы, чтобы не допустить короткого затягивания циркулирующей регистрации. Различные дубликаты всей информации удаляются эффективно и без потери данных.

Адаптируемость
В отличие от обычных социальных баз данных, вам не нужно предварительно обрабатывать информацию, прежде чем убрать ее. Вы можете хранить столько информации, сколько вам нужно, и выбрать, как использовать ее позже. Это включает в себя неструктурированную информацию, такую как контент, изображения и записи.

Минимальные усилия
Структура с открытым исходным кодом является бесплатной и использует оборудование для хранения огромных объемов информации.

Универсальность
Вы можете разработать вашу структуру для работы с большей информацией, в основном, за счет включения концентраторов. Требуется небольшая организация, и это делается простым и интуитивно понятным способом.


Каковы трудности использования Хадупа?

С MapReduce написание компьютерных программ не является достойным решением для каждого вопроса. Она полезна для простых запросов данных и вопросов, которые можно разделить на автономные единицы, и в то же время она не умеет выполнять итеративные и интуитивно понятные следственные задания. MapReduce концентрирует записи, и поскольку концентраторы не взаимодействуют между собой, кроме как при сортировке и переупорядочивании, для завершения итерационных вычислений требуются различные направляющие смеси и этапы сортировки-понижения. Это создает многочисленные записи между этапами MapReduce и является расточительным с точки зрения эффективного систематического расчета.

Существует общепризнанный недостаток в MapReduce, потому что, как правило, трудно найти инженеров-программистов уровня разделов (которые имеют адекватные возможности Java), чтобы быть эффективными с MapReduce. Это одно из объяснений того, что поставщики транспорта пытаются отдать предпочтение социальным (SQL) инновациям перед Hadoop. Гораздо проще найти инженеров-программистов с навыками SQL, чем с возможностями MapReduce. Более того, организация Hadoop выглядит как частичное искусство и частичное естествознание, требующее низкоуровневой информации о рабочих фреймворках, оборудовании и настройках порций Hadoop.

Информационная безопасность


Другой тест вращается вокруг разделенных проблем информационной безопасности, однако появляются новые устройства и инновации. Конвенция по проверке Kerberos является невероятным шагом на пути к тому, чтобы сделать Hadoop безопасным.

Бесспорно, информация для правления и администрации не является одной из сильных сторон Hadoop. В Hadoop нет простых в использовании, полнофункциональных инструментов для получения информации о доске, очистки информации, администрирования или метаданных. Особенно не хватает устройств для качества информации и институционализации.