Confounding variable is een statistische term. Het concept is voor veel mensen een beetje verwarrend vanwege de te gebruiken methode. Om te beginnen hebben verschillende onderzoekers verschillende verklaringen voor verwarrende variabelen. Ook al is de definitie dezelfde, de onderzoekscontext is vrij specifiek voor het vakgebied. Daarom passen deskundigen in verschillende bedrijfstakken deze techniek voor oplossingen op unieke manieren toe. Dus voordat u uw visie op verwarrende variabelen uitlegt, is het belangrijk om de implicatie van de term van de ander te begrijpen. Daarom bevat dit artikel waardevolle informatie over verwarrende variabelen bij machinaal leren.

Confounding Variabele

Een confounding variabele is een externe invloed in een experiment. Met andere woorden, deze variabelen beïnvloeden de output van het model door de afhankelijke en onafhankelijke variabelen te manipuleren. Vervolgens werken confounding variabelen in op afhankelijke variabelen, wat leidt tot onnauwkeurige resultaten.
In de loop van correlationeel onderzoek hebben deze variabelen een grote invloed op de oppervlakkige relatie tussen twee variabelen. Zij bepalen of afhankelijke en onafhankelijke variabelen veranderen in een nul-, negatieve of positieve waarde. Je kunt confounding variabelen ook een factor noemen die een onderzoeker niet kan verwijderen of controleren, ook al verandert het de geldigheid van het model.

Confounding in Machine Leren

Confounding variabelen hebben vroeger de uitkomsten in de toegepaste statistiek verstoord. In het licht van de statistiek hangt het onderzoek af van de relatie tussen onafhankelijke variabelen en afhankelijke variabelen in de gegevens. Onderzoekers lossen verwarrende variabelen op en verbeteren de relaties voor de uitkomst door middel van statistische methoden. Zij ontwerpen deze technieken om ontdekkingen te ontkrachten of te corrumperen.
Beoefenaars van machinaal leren houden zich bezig met het verbeteren van de mogelijkheden van het voorspellende model in plaats van met statistische interpreteerbaarheid en correctheid. Niettemin wordt bij de selectie en voorbereiding van de gegevens aandacht besteed aan verwarrende variabelen. Maar bij de ontwikkeling van beschrijvende statistische modellen zijn deze variabelen minder belangrijk. Toch beschouwen deskundigen op het gebied van toegepast machinaal leren de confounding variable als kritisch essentieel.
Data scientists experimenteren met afhankelijke en onafhankelijke variabelen om het machine learning model te evalueren. Bij deze experimenten ligt de nadruk vooral op het minimaliseren van de verstorende variabele en de invloed daarvan op de resultaten.

Impact van het evalueren van het Machine Learning Model

Als u op de hoogte bent van toegepast machinaal leren, is het misschien verrassend voor u dat de gouden-standaardpraktijken ook verwarrende variabelen omvatten. Machine learning experimenten voor confounding variabelen omvatten het kiezen en interpreteren van technieken voor het evalueren van het machine learning model. Het is essentieel om rekening te houden met de impact van variabelen bij het beoordelen van het model en het identificeren van onafhankelijke variabelen. Hier volgen enkele keuzes die van invloed zijn op afhankelijke variabelen gedurende het experiment:
– Voorbereiding van de dataschema’s,
– Leeralgoritme,
– Het configureren van het leeralgoritme,
– Initialiseren van het leeralgoritme,
– Een steekproef van de opleidingsdataset
– Een steekproef van de testdataset.
U kunt deze metrieken dus kiezen bij de evaluatie van het vermogen van het model om exacte voorspellingen te genereren. Met het oog op de evaluatie van het model voor machinaal leren zal het gunstig zijn gecontroleerde experimenten te ontwerpen en uit te voeren. In een gecontroleerd experiment isoleert het model andere variabelen en concentreert het zich op één enkel element. De twee meest voorkomende soorten gecontroleerde experimenten zijn:
– Evaluatie van het leeralgoritme
– Evaluatie van leeralgoritme-configuraties

Randomisatie in Machine Leren

Gecontroleerde experimenten kunnen niet alle beïnvloedende variabelen constant houden. Daarom zijn er bronnen van willekeur die erop wijzen dat als het experiment deze variabelen constant houdt, de evaluatie van het model ongeldig zal blijken te zijn:
– Initialisatie van het model
– Gegevensmonster
– Leeralgoritme
Bijvoorbeeld, een neuraal netwerk bevat gewichten die de willekeurige waarden initialiseren. In tegenstelling tot andere updates, zal de stochastische gradiëntafdaling de steekproefvolgorde van de gegevens randomiseren. Om de mogelijke limiet in een willekeurig bos te selecteren, zal de selectie van willekeurige deelverzamelingen geruststellend zijn. Het is niet juist om randomisatie te beschouwen als een fout in een machine-learning algoritme. Deze eigenschap verbetert de prestaties van het model door traditionele deterministische methoden.

Hoe is het minimaliseren van confounding variabelen belangrijk?

Het beperken van de verwarrende variabele is de essentie van het verzekeren van de interne validiteit. Als u er niet in slaagt om de verwarrende variabelen uit uw onderzoek of model te beperken, zal de werkelijke relatie tussen twee variabelen niet tot stand komen. Als gevolg daarvan zult u inconsistente resultaten tegenkomen. Het resultaat dat u ontdekt, zal een oorzaak-gevolgrelatie inhouden, wat in werkelijkheid niet het geval is. Omdat de onafhankelijke variabele er niet in slaagt het effect te produceren, zult u uiteindelijk de verwarrende variabele moeten meten.

Verminder de effecten van de verstorende waarde

Zodra u het onderzoek hebt voltooid, gebruikt u statistische methoden om de verwarrende effecten in het model te verminderen. De stratificatiemethode zal de efficiëntie van de resultaten verhogen, op voorwaarde dat de potentiële confounders klein in aantal zijn. Deze methode om verwarrende variabelen te verminderen bestaat uit het verdelen van het resultaat in kleinere groepen. Zo worden de verwarrende variabelen in groepen verdeeld. Observeer vervolgens de relatie tussen beide variabelen, onafhankelijke en afhankelijke, in elke groep.
Stel dat uw onderzoek rokers en niet-rokers identificeert voor het sterftecijfer ook mensen met alcoholverslaving omvat. Dit zal het resultaat beïnvloeden aangezien alcoholgebruik ook de moraliteit beïnvloedt. Creëer met behulp van de stratificatietechniek verschillende kleine groepen van rokers en niet-rokers. Observeer bijgevolg het verband tussen alcoholgebruik en sterfte in elke groep.
Multivariate analyse zal de invloed van confounding waarden verminderen in een model met een groot aantal potentiële confounders. Deze analysetechniek omvat lineaire of logistische regressie.

Conclusie

U zult vertekende resultaten verkrijgen wanneer u de derde variabele die een verband tussen twee variabelen beïnvloedt, niet wijzigt. Bepaling van de confounding variabele is de essentie voor de evaluatie van het machine learning model. Het model kan vele onbekende verstorende factoren bevatten, waardoor het resultaat verandert. De planning, het ontwerp en de uitvoering van het voorspellingsmodel hebben dan geen zin, omdat zij de onafhankelijke variabelen manipuleren. Daarom is het verminderen van de effecten van het algoritme noodzakelijk om foutloze en specifieke resultaten te verkrijgen.