Dzięki coraz bardziej zaawansowanym algorytmom uczenia maszynowego i głębokiego uczenia, można rozwiązać niemal każdy problem przy użyciu odpowiednich zbiorów danych. Jednak wraz ze wzrostem złożoności modelu, stają się one trudne do interpretacji. Kiedy mówi się o interpretowalności modeli uczenia maszynowego, pierwszą rzeczą, która przychodzi na myśl jest Regresja Liniowa. Regresja liniowa jest modelem, który jest dość prosty i łatwy do interpretacji. Poza tym, że jest prosty, zawiera różne problemy z interpretowalnością, szczególnie w zakresie naruszeń założeń regresji liniowej. Założenia regresji liniowej można również określić mianem wieloliniowości.

Co to jest wieloliniowość?

W modelu regresji, gdy dwie lub więcej niż dwie zmienne niezależne korelują ze sobą, można mówić o modelu jako o wieloliniowości. Wskazuje to, że można przewidzieć jedną zmienną niezależną za pomocą innej zmiennej niezależnej w tego typu modelu. Zmienne mogą obejmować wagę i wzrost, zużycie wody i dochód gospodarstwa domowego, cenę samochodu i przebieg, czas wolny i czas nauki i inne.

Możesz wziąć dowolną zmienną ze swojego codziennego życia. Na przykład, uwielbiasz chrupać chipsy podczas oglądania telewizji – wskaźnik zadowolenia wzrasta, gdy oglądasz więcej telewizji i jesz więcej chipsów. Teraz, gdy zastanawiasz się nad rzeczami, które będą Cię zajmowały i sprawią, że będziesz szczęśliwy, która czynność wyda Ci się interesująca i będzie miała większy wpływ na Twój poziom szczęścia? Czy poczujesz się szczęśliwszy, gdy będziesz jadł chipsy, czy gdy będziesz oglądał telewizję?

Byłoby to trudne do zmierzenia, ponieważ kiedy oglądasz więcej telewizji, będziesz jadł więcej chipsów, a kiedy jesz więcej chipsów, musisz oglądać więcej telewizji. Obie te czynności są ze sobą skorelowane. Trudno będzie określić wpływ jednej aktywności na drugą w celu osiągnięcia szczęścia. Na tym właśnie polega problem wieloliniowości. Teraz dowiedzmy się, w jaki sposób można zmierzyć nieliniowość w odniesieniu do uczenia maszynowego.

Rodzaje wieloliniowości

Wieloliniowość składa się z dwóch różnych typów. Pierwszy rodzaj nieliniowości jest strukturalny. Jest to produkt uboczny. Ponieważ będziesz tworzyć to założenie z pomocą istniejącej zmiennej niezależnej, możesz łatwo je śledzić. Zmienna niezależna x pierwszego typu jest kwadratem. Na przykład, jeśli strukturalna wieloliniowość uważa, że masz zestaw danych i używasz logu do normalizacji lub skalowania cech. Drugim typem jest nieliniowość danych, która jest bardziej niebezpieczna niż strukturalna. Znajdziesz tę wieloliniowość trudniejszą do zidentyfikowania i zinterpretowania. Jeśli używasz ramki danych pandas, będzie ona już zawierała ten typ nieliniowości.

Wykrywanie i usuwanie wieloliniowości

Optymalnym rozwiązaniem, aby sklasyfikować nieliniowość jest obliczenie współczynnika inflacji wariancji odpowiadającego każdej indywidualnej zmiennej w danych. Poprzez zrozumienie współczynnika inflacji wariancji można określić, czy zmienna jest przewidywalna, czy nie. W tym celu należy użyć innych zmiennych niezależnych. Możemy zrozumieć tę koncepcję na następującym przykładzie:

Przyjmując te dziewięć różnych zmiennych, można obliczyć współczynnik inflacji wariancji dla pierwszej zmiennej. tj. V1. Aby obliczyć zmienną V1, powinieneś potraktować ją jako zmienną docelową i odizolować od wszystkich innych zmiennych. Wszystkie pozostałe zmienne traktuj jako zmienne predykcyjne.

Używając innych zmiennych, możemy znaleźć odpowiednią wartość R2. Aby znaleźć tę wartość, wytrenuj swój model regresji przy użyciu zmiennych predykcyjnych. Możesz obliczyć wartość VIF z pomocą wartości R2. Wynik będzie następujący:

Z powyższego wzoru możemy wyraźnie zobaczyć, że zarówno wartość R2, jak i współczynnik inflacji wariancji, będą rosły jednocześnie. Kiedy wartość R2 jest wyższa, wskazuje to, że inne niezależne zmienne właściwie wyjaśniają docelową zmienną niezależną. Teraz, aby zdecydować, czy zachować czy usunąć zmienną, rozważymy wartość progową współczynnika inflacji wariancji.

Wartość współczynnika inflacji wariancji powinna być pożądanie mała. Jednakże, ta wartość może usunąć niezależne zmienne z zestawu danych. Dlatego eksperci zazwyczaj przyjmują wartość progową współczynnika inflacji wariancji równą pięć. Oznacza to, że jeśli wartość jakiejkolwiek zmiennej niezależnej jest większa niż pięć, zostanie ona usunięta. Ale idealna wartość progowa będzie zależała od napotkanego problemu.

Wnioski

Wpływ Regresji Liniowej zależy od prostoty interpretacji modelu. Nie będziesz w stanie znaleźć celu modelu, jeśli pominiesz wieloliniowość. Z powyższego kontekstu, rozumiesz znaczenie wieloliniowości i jak wpływa ona na Regresję Liniową. Co więcej, możesz teraz wykryć i usunąć wieloliniowość dla każdego problemu, który napotkasz w przyszłości.