Повышение градиента является популярным методом среди исследователей данных благодаря своей точности и скорости, особенно сложных и объемных данных.

Что такое повышение

Вы должны понять основы повышения градиента, прежде чем узнаете о повышении градиента. Это способ превратить слабых учеников в сильных. В случае повышения градиента, каждое дерево помещается в модифицированную версию первого набора данных. Вы можете объяснить алгоритм повышения градиента, установив алгоритм Ada Boost. Он начинается с обучения деревьев принятия решений. Каждое наблюдение во время этой процедуры имеет равный вес.
После анализа первого дерева ученые поднимают вес каждого наблюдения, которое они считают сложным для классификации. С другой стороны, они уменьшают вес тех наблюдений, в которых классификация не является проблемой. Поэтому на взвешенных данных вы заметите второе дерево. Первоначальная идея заключается в том, чтобы улучшить предсказания первого дерева.

Gradient Boosting Based Prediction Method for Patient Death in ...

Итак, новая модель, которую мы будем использовать, это дерево один плюс два. Затем мы вычислим ошибки классификации из новой модели ансамбля и разработаем третье дерево для предсказания измененных остатков. Мы повторим эту процедуру для определенного количества итераций. Предстоящие деревья помогут нам определить каждое наблюдение, в котором предыдущие деревья дали неудачу или показали ошибки.

Таким образом, прогнозы последней модели ансамбля будут представлять собой общие взвешенные прогнозы, предоставленные бывшими моделями деревьев. Усиление градиента обеспечивает обучение нескольких моделей последовательным, аддитивным и постепенным манерам. Основное различие между алгоритмами градиентного и Ада-аусинга заключается в том, как они определяют слабые недостатки учеников.

Модель повышения градиента Ада определяет недостатки, используя взвешенные точки данных. Вы заметите некоторое сходство в градиентном форсировании, так как оно работает, используя преимущества градиентов в функциях потерь. Для тех, кто не знает, функция потерь показывает качество коэффициентов модели и соответствует ли она фундаментальным данным.

Разумное понимание этой функции зависит от различных факторов, например, от того, что вы хотите оптимизировать. Например, если вы используете регрессию для прогнозирования цен продаж, то функция потерь будет основана на ошибках между прогнозируемой и достоверной ценой.

Аналогично, если классификация дефолтов по кредитам является вашей основной целью – функция убытков станет мерой для классификации неблагоприятных кредитов. Существенной мотивацией использования градиентного повышения является его способность оптимизировать различные функции затрат, определенные пользователями. Это значительно лучше, чем функции потерь, так как обычно они обеспечивают меньший контроль и не могут сочетаться с приложениями в реальном мире.

Повышение и ансамбль

Индивидуальная настройка моделей машинного обучения на данные удивительно проста. Вы даже можете смешать их в один ансамбль. Под “ансамблем” понимается комбинация отдельных моделей, создающая более сильную и мощную модель.

Для создания ансамблей большинство ученых, занимающихся сбором данных, прибегают к машинному обучению. Это начинается с подгонки первичной модели, как линейная или древовидная регрессия с данными. Затем вторая модель фокусируется на предоставлении точных прогнозов для случаев с плохо работающими моделями. Смесь этих моделей часто лучше, чем единичная модель. Процесс форсирования необходимо повторить несколько раз. Каждая последующая модель пытается исправить недостатки смешанного форсированного ансамбля бывших моделей.

Понимание градиентного форсирования

Усиление градиента – это тип усиления машинного обучения. Он сильно полагается на предсказание, что следующая модель уменьшит ошибки предсказания при их смешивании с предыдущими. Основная идея заключается в том, чтобы установить целевые результаты для этой предстоящей модели, чтобы минимизировать ошибки.

Итак, как же рассчитать цели? Результат каждого случая зависит от количества изменений, вносимых прогнозом, и его влияния на ошибку прогноза.

  • Если прогноз имеет небольшое изменение и вызывает значительное падение ошибки, то ожидаемый целевой результат случая будет иметь высокое значение. Прогнозы, предоставляемые новыми моделями, могут уменьшить количество ошибок до тех пор, пока они находятся вблизи своих целей.
  • Если в результате небольшого изменения прогноза ошибки не изменятся, то следующий результат в случае будет равен нулю. Нельзя минимизировать ошибку, изменив прогноз.

Появилось понятие градиентного повышения, потому что в каждом случае целевые результаты основаны на ошибке градиента по отношению к прогнозу. Каждая модель уменьшает ошибки прогнозирования, делая шаг в правильном направлении.

Каковы преимущества повышения градиента?

Как обсуждалось ранее, повышение градиента является широко распространенной методикой создания прогнозных моделей. Его можно применять к многочисленным функциям, связанным с риском, и повысить точность прогнозирования модели. Повышение градиента также помогает решать различные вопросы мультиколлинеарности в тех случаях, когда существует высокая корреляция между переменными предиктора.

Вы будете удивлены, увидев количество успешных результатов, полученных с помощью машин с градиентным форсированием. Многочисленные приложения для машинного обучения используют его.

Что должен функционировать алгоритм повышения градиента?

Вот список основных компонентов, необходимых для градиентных алгоритмов повышения:

Добавочная модель

Мы стараемся минимизировать потери, внедряя больше деревьев принятия решений. Мы также можем уменьшить количество ошибок, минимизируя параметры. В подобных случаях мы создаем модель, чтобы гарантировать отсутствие изменений в существующем дереве, несмотря на добавление другого.

Слабый ученик

Слабые учащиеся являются важной частью повышения градиента для составления прогнозов. Мы используем регрессионные деревья для извлечения подлинных значений. Очень важно развивать деревья жадно, чтобы прийти к наиболее благоприятной точке раскола. Это является существенной причиной, почему модель в основном перестарается соответствовать конкретному набору данных.

Функция потери

Необходимо оптимизировать функции потерь, чтобы сократить количество ошибок, связанных с прогнозированием. В отличие от Ады Боост, неправильный результат не получает повышенного веса при увеличении градиента. Вместо этого, он минимизирует функцию потерь от слабых учеников, получая выходные усреднения.

Заключительные мысли

Gradient Boosting доказывает, что это, пожалуй, самая мощная техника для создания прогностических моделей в регрессии и классификациях. Вы также можете использовать различные методы регуляризации или ограничения, чтобы улучшить боевую перегрузку и производительность алгоритма. Программисты также могут воспользоваться преимуществами усадки, рандомизированной выборки, ограничений деревьев и наказания за обучение борьбе с переоснащением. Повышение градиента сыграло важную роль в решении многочисленных задач машинного обучения в реальной жизни.