Confounding variable jest terminem statystycznym.Koncepcja ta jest nieco myląca dla wielu ludzi z powodu metody do wykorzystania. Na początek, różni badacze mają różne wyjaśnienia dla zmiennych zakłócających. Nawet jeśli definicja jest taka sama, kontekst badawczy jest umiarkowanie specyficzny dla danej dziedziny. Dlatego eksperci z różnych branż stosują tę technikę do rozwiązań w unikalny sposób. Tak więc przed wyjaśnieniem swojego ujęcia na confounding variables, ważne jest, aby zrozumieć inne osoby implikacji terminu. Tak więc, ten artykuł zawiera cenne informacje na temat zmiennych towarzyszących w uczeniu maszynowym.

Zmienna konfundująca

Zmienna konfundująca jest zewnętrznym wpływem w eksperymencie. Innymi słowy, zmienne te wpływają na wynik modelu poprzez manipulowanie zmiennymi zależnymi i niezależnymi. W konsekwencji, zmienne towarzyszące oddziałują na zmienne zależne, prowadząc do niedokładnych wyników.
W trakcie badań korelacyjnych, zmienne te w znacznym stopniu wpływają na powierzchowny związek dotyczący dwóch zmiennych. Określają, czy zmienne zależne i niezależne zmieniają się na wartość zerową, ujemną lub dodatnią. Można również odnieść się do zmiennych towarzyszących jako czynnika, którego badacz nie może usunąć lub kontrolować, nawet jeśli zmienia on ważność modelu.

Konfundowanie w uczeniu maszynowym

Wcześniej, zmienne towarzyszące przeszkadzały w uzyskaniu wyników w statystyce stosowanej. W świetle statystyki, badania zależą od relacji zmiennych niezależnych z zależnymi w danych. Naukowcy rozwiązują zmienne towarzyszące i poprawiają relacje dla wyniku poprzez metody statystyczne. Projektują te techniki, aby unieważnić lub skorumpować odkrycia.
Praktycy zajmujący się uczeniem maszynowym są zainteresowani poprawą możliwości modelu predykcyjnego, a nie statystyczną interpretacją i poprawnością. Niemniej jednak, zmienne konfundujące są w centrum uwagi podczas wyboru i przygotowania danych. Jednak podczas tworzenia opisowych modeli statystycznych, zmienne te są mniej ważne. Mimo to, eksperci w dziedzinie uczenia maszynowego uważają zmienne towarzyszące za krytycznie istotne.
Naukowcy eksperymentują z zależnymi i niezależnymi zmiennymi, aby ocenić model uczenia maszynowego. Głównie, celem tych eksperymentów jest zminimalizowanie zmiennej towarzyszącej i jej wpływu na wyniki.

Wpływ oceny modelu uczenia maszynowego

Jeśli wiesz o stosowanym uczeniu maszynowym, może to być dla Ciebie zaskakujące, ponieważ złote praktyki obejmują zmienne zakłócające. Eksperymenty uczenia maszynowego dla zmiennych konfundujących obejmują wybór i interpretację technik oceny modelu uczenia maszynowego. Istotne jest, aby rozważyć wpływ zmiennych podczas oceny modelu i identyfikacji zmiennych niezależnych. Oto kilka wyborów wpływających na zmienne zależne w całym eksperymencie:
– Przygotowanie schematów danych,
– Algorytm uczenia,
– Konfiguracja algorytmu uczącego,
– inicjalizacja algorytmu uczącego,
– Próbka zbioru danych treningowych
– Próbka testowego zbioru danych.
W związku z tym, można wybrać te metryki podczas oceny zdolności modelu do generowania dokładnych przewidywań. Biorąc pod uwagę ocenę modelu uczenia maszynowego, projektowanie i wykonywanie kontrolowanych eksperymentów będzie korzystne. W kontrolowanym eksperymencie, model izoluje inne zmienne i koncentruje się na jednym elemencie. Dwa typowe rodzaje eksperymentów kontrolowanych to:
– Ocena algorytmu uczącego
– Ocena konfiguracji algorytmu uczącego.

Randomizacja w uczeniu maszynowym

Eksperymenty kontrolowane nie mogą utrzymać wszystkich zmiennych zakłócających na stałym poziomie. W związku z tym istnieją źródła losowości wskazujące na to, że jeśli eksperyment utrzymuje te zmienne na stałym poziomie, ocena modelu okaże się nieważna.Przykłady losowości to:
– Inicjalizacja modelu
– Próbka danych
– Algorytm uczenia.
Na przykład, sieć neuronowa zawiera wagi inicjalizujące wartości losowe. W przeciwieństwie do różnych aktualizacji, stochastyczne zejście gradientowe będzie randomizować kolejność próbek danych. Aby wybrać możliwą granicę w lesie losowym, wybór losowych podzbiorów będzie uspokajający. Nie należy traktować randomizacji jako błędu w algorytmie uczenia maszynowego. Ta cecha poprawia wydajność modelu za pomocą tradycyjnych metod deterministycznych.

Jak ważna jest minimalizacja zmiennych konfundujących?

Wyeliminowanie zmiennych towarzyszących jest istotą zapewnienia wewnętrznej poprawności. Niezdolność do zredukowania zmiennych zakłócających z Twoich badań lub modelu nie wygeneruje rzeczywistej relacji pomiędzy dwoma zmiennymi. W rezultacie, napotkasz niespójne wyniki. Porównywalnie, wynik, który odkryjesz będzie zawierał związek przyczynowo-skutkowy, co nie ma miejsca w rzeczywistości. Ponieważ zmienna niezależna nie wytwarza efektu, kończysz mierząc zmienną zakłócającą.

Zmniejszanie skutków zmiennych zakłócających

Po zakończeniu badań, wykorzystaj metody statystyczne do zmniejszenia efektów konfundujących w modelu. Metoda stratyfikacji zwiększy efektywność wyników, pod warunkiem, że potencjalne czynniki zakłócające są małe liczbowo. Ta metoda redukcji zmiennych konfundujących polega na podzieleniu wyniku na mniejsze grupy. W związku z tym, rozdziela ona zmienne konfundujące na grupy. Następnie należy obserwować związek pomiędzy obiema zmiennymi, niezależną i zależną, w każdej grupie.
Załóżmy, że Twoje badania mają na celu identyfikację osób palących i niepalących pod kątem śmiertelności, a także osób uzależnionych od alkoholu. Wpłynie to na wynik, ponieważ używanie alkoholu wpływa również na moralność. Wykorzystując technikę stratyfikacji, stwórz różne małe grupy osób palących i niepalących. W konsekwencji obserwuj zależność między używaniem alkoholu a śmiertelnością w każdej z grup.
Analiza wielowariantowa pozwoli zredukować wpływ wartości konfundujących w modelu z dużą liczbą potencjalnych czynników zakłócających. Do tej techniki analizy zalicza się regresję liniową lub logistyczną.

Wnioski

Jeśli nie zmodyfikujemy trzeciej zmiennej wpływającej na zależność między dwiema zmiennymi, otrzymamy zniekształcone wyniki. Określenie zmiennej zakłócającej jest istotą oceny modelu uczenia maszynowego. Model może zawierać wiele nieznanych czynników zakłócających, które zmieniają wynik. Twoje planowanie, projektowanie i wykonywanie modelu predykcji będzie bezużyteczne, ponieważ będą one manipulować zmiennymi niezależnymi. W związku z tym, zmniejszenie efektów z algorytmu jest niezbędne do uzyskania bezbłędnych i konkretnych wyników.