Цель этой заметки – позволить вам лучше использовать регрессию гребней, чем просто использовать то, что предоставляют библиотеки. Тогда, “Что такое регрессия хребта?”. Единственное благодаря ответу на этот вопрос – “Вариация линейной регрессии”. Худший способ – начать с последующих математических уравнений, которые не многие могут понять с первого взгляда.

https://miro.medium.com/max/360/1*gd9Tzg8lmKLY0ZXWaerU8w.png

Плохая новость в том, что мы все еще должны влиять на это, а отличная новость в том, что мы не будем начинать с таких уравнений, хотя и не сейчас. Что я, возможно, захочу начать с “Обычного метода наименьших квадратов (OLS)”. Если вы случайно не имеете или почти не имеете фона о прямолинейной регрессии, то это видео поможет вам получить представление о том, как это работает, используя “Метод наименьших квадратов”. Теперь вы понимаете, что OLS – это просто то, что мы обычно называем ‘линейной регрессией’, и я буду использовать этот термин по существу.

Перед тем, как двигаться дальше

В следующих разделах я смогу применить разные подходы с разными терминами и цифрами. Есть две вещи, которые вы захотите вспомнить. Первое – это то, что нам не нравится переоснащение. Другими словами, мы всегда предпочитаем модель, которая улавливает общие закономерности. Напротив, наша цель – предсказывать ее на основе новых данных, а не на основе конкретных данных. Поэтому оценка модели должна поддерживаться новыми данными (тестовый набор), а не заданными данными (тренировочный набор). Кроме того, я смогу использовать последующие термины взаимозаменяемо.

Независимая переменная = характеристика = атрибут = предиктор = X

Коэффициент = бета = β

Остаточная сумма квадратов = RSS

https://miro.medium.com/max/688/1*3cEysrHZokqla0tXnZ-5GQ.png

Метод наименьшего квадрата находит самые простые и несмещенные коэффициенты

Возможно, вы знаете, что метод наименьших квадратов находит коэффициенты, которые лучше всего подходят к информации. Другое условие, которое необходимо добавить, это то, что он также находит несмещенные коэффициенты. Здесь несмещение означает, что OLS не учитывает, какая экспериментальная переменная важнее других. Он просто находит коэффициенты для заданного набора данных. Короче говоря, можно найти только один набор бета-данных, в результате чего получается “Остаточная сумма квадратов (RSS)”. Тогда возникает вопрос: “Является ли модель с RSS действительно самой простой моделью?”.

Bias vs. Variance

Ответ на вышеприведенный вопрос – “Не совсем”. Как намекнуло в слове “непредвзятость”, нам бы хотелось подумать и о “беспристрастности”. Предвзятость означает, что модель в равной степени заботится о своих предикторах. Допустим, есть две модели, которые предсказывают цену яблока с двумя предикторами “сладость” и “блеск”; одна модель беспристрастна, и поэтому другая предвзята.

https://miro.medium.com/max/593/1*OkRTcykIzOlmfe4OCJN1hA.png

Во-первых, объективная модель пытается найти связь между 2 функциями и, следовательно, ценами, даже как это делает метод OLS. Эта модель будет как можно лучше соответствовать наблюдениям, чтобы ослабить RSS. Однако, это может легко привести к проблемам с подгонкой. Другими словами, модель не будет работать и с новыми данными, потому что она построена специально для данных так, что не будет соответствовать новым данным.

https://miro.medium.com/max/443/1*wqDhhG2BjkBCl5WuHojddw.png

Смещенная модель принимает свои переменные неравнозначно, чтобы относиться к каждому предиктору по-разному. Возвращаясь к примеру, мы, возможно, захотим только позаботиться о “сладости” для создания модели, и это может лучше работать с новыми данными. Обоснование будет объяснено после понимания Bias против Variance. Если вы не разбираетесь в теме “Смещение против дисперсии”, я настоятельно рекомендую вам посмотреть это видео, которое даст вам понимание. Часто говорят, что смещение говорят при модели, не соответствующей обучающему набору, а дисперсия говорят при модели, не соответствующей обучающему набору. Часто говорят о предвзятости, когда модель не соответствует учебному набору, а о дисперсии говорят, когда модель не соответствует испытательному набору. Предвзятость и дисперсия проявляются во время компромисса между сложностью модели, который предполагает, что легкая модель будет иметь высокую степень предвзятости и низкой вариативности, и наоборот. В нашем примере с яблоком, модель, учитывающая только “сладость”, не будет соответствовать максимальному количеству тренировочных данных, потому что другая модель, учитывающая и “сладость”, и “блеск”, но более простая модель будет лучше предсказывать новые данные.

Это связано с тем, что “сладость” может быть детерминантом цены, в то время как “блеск” не должен быть по смыслу. Мы все это знаем, как человек, но математические модели не думают так, как мы, и просто вычисляют то, что дано, пока не найдут некую связь между всеми предикторами и, следовательно, экспериментальной переменной в соответствии с тренировочными данными.

*Заметка: Мы предполагаем, что “сладость” и “блеск” не соотносятся

Где Регрессия хребта вступает в игру

https://miro.medium.com/max/433/1*cB0ESE9z3rB3-rpXPhwgWw.png

Глядя на фигуру Bias vs. Variance, ось Y – это ‘Ошибка’, что означает ‘Сумма Bias и Variance’. Поскольку обе они в основном связаны с неудачей, мы, возможно, захотим свести их к минимуму. Теперь, если внимательно посмотреть на рисунок, вы увидите, что место, где вся ошибка самая низкая, находится где-то посередине. Это часто называется “Сладкое пятно”.

Вспомним, что OLS одинаково (беспристрастно) относится ко всем переменным. Таким образом, модель OLS усложняется по мере добавления новых переменных. Часто говорят, что OLS модель обычно находится справа от рисунка, имея смещение вниз и, следовательно, наибольшую дисперсию. Там она фиксирована, никогда не движется, но хотелось бы маневрировать. Это часто бывает, когда сияет регрессия гребня, также упоминаемая как Регуляризация. В регрессии гребня вы настраиваете параметр лямбда в порядке изменения коэффициентов модели. Лучше всего это будет понято на программной демонстрации, которая будет представлена в верхней части .

Геометрическое понимание регрессии хребта.

Во многих случаях графика помогает вызвать ощущение того, как работает модель, и регрессия гребней не является исключением. Следующий рисунок – геометрическая интерпретация для соответствия OLS и регрессии коньков.

https://miro.medium.com/max/655/1*1pHwPfuhgTDFH8elIh_B2g.png

Контуры и OLS Оценка

Каждый контур может быть соединением точек, где RSS находится в том же центре, что и оценка OLS, где RSS находится в том же самом нижнем месте. Кроме того, оценка OLS – это точка, где она наиболее точно подходит к тренировочному комплекту (low-bias).

Оценка круга и хребта

https://miro.medium.com/max/695/1*YGn5C4Qe2OIKkODiE6Cprw.png

В отличие от оценки OLS, оценка гребня меняется из-за изменения размера синего круга. Просто там, где окружность встречается с основным внешним контуром. Как работает регрессия коньков, так это как мы настраиваем размеры окружности. Ключевым моментом является то, что β изменяется на особом уровне.

Допустим, β1 – это “блеск”, а β2 – “сладость”. Как вы увидите, гребень β1 относительно быстро падает до нуля, чем гребень β2, потому что размер окружности меняется (сравните 2 цифры). Причина, по которой это происходит, заключается в том, что β изменяется по-разному с помощью RSS. Более интуитивно понятно, что контуры – это не круги, а эллипсы, расположенные под наклоном.

Ридж β никогда не может быть нулевым, а только сходится к нему, и это можно объяснить в дальнейшем с помощью математической формулы. Несмотря на то, что такое геометрическое выражение объясняет основную идею, существует ограничение, которое мы не можем выразить в 3-х измерениях. Итак, все сводится к математическим выражениям.

Математическая формула

https://miro.medium.com/max/666/1*pMssBrKdIDKGdZBOvNJRvQ.png

Мы видели уравнение множественной прямолинейной регрессии как в общем плане, так и в варианте матрицы. Часто это уравнение пишется в другом варианте следующим образом.

Здесь армин означает “Аргумент минимума”, который создает функцию, достигающую минимума. В контексте он находит β’s, которые минимизируют RSS. И что мы умеем вызывать β’s из матричной формулы. Теперь возникает вопрос: “Какое отношение это имеет к регрессии гребня?”.

https://miro.medium.com/max/247/1*8R8-IckBY6Rw239ruufShg.png

Опять же, регрессия хребта может быть вариантом прямолинейной регрессии. Вышеуказанный член заключается в том, что ограничение гребня к уравнению OLS. Мы пытаемся найти β’s, но теперь они также должны соответствовать вышеуказанному ограничению. Возвращаясь к геометрической фигуре, C подобен радиусу окружности, таким образом, β должны попасть в область окружности, вероятно, где-то на стинге .

Вектор Норма

https://miro.medium.com/max/300/1*FSvb8xU_eqvjXyXiXg7jrA.png

Мы все еще хотим знать самое первое уравнение. Для этого нам бы хотелось приблизиться к векторной норме, которая является ничем иным, как последующим определением.

Подписка 2 такая же, как и в “норме L2”, а о векторных нормах вы узнаете здесь. На данный момент мы заботимся только о норме L2, поэтому построим уравнение, которое мы уже видели. Последующее – это самое простое, но все равно говорящее эквивалент, как то, что мы обсуждали. Обратите внимание, что первичный член в следующем уравнении по существу OLS, а затем второй член с лямбда – это то, что делает гребневую регрессию

https://miro.medium.com/max/360/1*LsI3XqHSjNCiteUoFo2zKA.png

То, что мы на самом деле хотим искать

Термин с лямбда обычно называется “Штраф”, поскольку он увеличивает RSS. Мы выполняем итерацию определенных значений на лямбду и оцениваем модель с помощью измерения типа “средняя квадратная ошибка (MSE)”. Таким образом, значение лямбда, которое минимизирует MSE, должно быть выбрано потому, что конечная модель. Эта регрессионная модель гребня обычно лучше, чем модель OLS в предсказании. Как видно из приведенной ниже формулы, коньковый β изменяется с лямбдой и становится эквивалентом лямбды OLS β, если лямбда адекватна нулю (без штрафных санкций)

https://miro.medium.com/max/286/1*Rnl4jgKCG8oKuH7MgQ_Vxw.png

Почему он превращается в ноль, но не становится нулем.

Развертывая формулу матрицы, которую мы видели ранее, лямбда заканчивается в знаменателе. Это означает, что если мы увеличим значение лямбда, то гребень β должен уменьшиться. Но коньки β не могут быть нулями, независимо от того, насколько велико значение лямбды. То есть, регрессия гребня придает разное значение весу признаков, но не уменьшает неважных признаков

https://miro.medium.com/max/207/1*524ctaHK1BIN9tqhHIOY8Q.png