Lineaire regressiemodellen zijn niet bedoeld om het verband tussen twee variabelen of factoren te tonen of te voorspellen. De factor die voorspeld wordt (de factor die de vergelijking oplost) wordt de variabele genoemd. De factoren die de waarde van de variabele niet kunnen voorspellen worden de onafhankelijke variabelen genoemd.

In rechtlijnige regressie bestaat elke waarneming uit twee waarden. Een waarde is voor de variabele en een waarde is voor de experimentele variabele . In dit eenvoudige model benadert een lijn het verband tussen de variabele en dus de experimentele variabele .1

Wanneer twee of meer onafhankelijke variabelen worden gebruikt in multivariate analyse , is het model niet langer een eenvoudig lineair model. Dit wordt vaak aangeduid als meervoudige correlatie .2

Formule Voor een eenvoudig rechthoekig regressiemodel

De twee factoren die betrokken zijn bij een eenvoudige rechtlijnige regressieanalyse worden aangeduid met x en y. De vergelijking die beschrijft hoe y wordt aangeduid met x wordt begrepen omdat het regressiemodel.

Het eenvoudige rechtlijnige regressiemodel wordt weergegeven door:

y = β0 +β1x+ε

Het rechtlijnige regressiemodel bevat een foutterm die wordt weergegeven door ε. De foutterm wordt gebruikt om de variabiliteit in y te verklaren die niet kan worden verklaard door de lineaire relatie tussen x en y. Als ε niet aanwezig was, zou dat kunnen betekenen dat het weten van x genoeg informatie zou bieden om de waarde van y uit te werken.

Er zijn ook parameters die de onderzochte populatie vertegenwoordigen. De meeste van deze parameters worden door β0 en β1 gerepresenteerd.

De eenvoudige rechtlijnige regressievergelijking wordt als een lijn gegraveerd, waarbij:

β0 is dat de y-onderschepping van de regressiekromme.

β1 is dat de helling.

Ε(y) is dat het gemiddelde of rekenkundig gemiddelde van y voor een gegeven waarde van x.

Een regressiekromme kan een positief lineair verband vertonen, een negatief lineair verband of geen verband3.

Geen relatie: De grijplijn tijdens een eenvoudige rechtlijnige regressie is vlak (niet schuin). er is geen relatie tussen de 2 variabelen.

Positieve relatie: De regressiecurve helt naar boven met het onderste uiteinde van de weg bij het y-onderscheppingsteken (as) van de grafiek en dus het bovenste uiteinde van de weg dat zich naar boven uitstrekt in het grafiekveld, ver van het x-onderscheppingsteken (as). er is een positief lineair verband tussen de 2 variabelen: omdat de waarde van 1 toeneemt, neemt ook de waarde van het tegenovergestelde toe.

Negatief verband: De regressiecurve loopt naar beneden met de bovenkant van de weg bij het y-onderscheppingspunt (as) van de grafiek en dus de onderkant van de weg die zich naar beneden in het grafiekveld uitstrekt, in de richting van het x-onderscheppingspunt (as). er is een negatief lineair verband tussen de 2 variabelen: omdat de waarde van 1 toeneemt, neemt de waarde van het tegenovergestelde ook toe.4

De Geschatte Rechte regressievergelijking

Als de parameters van de populatie bekend waren, zou de rechtlijnige rechtlijnige regressievergelijking (zie hieronder) het gemiddelde van y voor een bekende waarde van x niet kunnen berekenen.

Ε(y) = β0 +β1x+ε

In de praktijk zijn de parameterwaarden echter over het algemeen niet bekend, zodat ze moeten worden geschat aan de hand van gegevens uit een steekproef van de populatie. De parameters van de populatie worden geschat met behulp van steekproefstatistieken. De steekproefstatistieken worden weergegeven met β0 en β1. Wanneer de steekproefstatistieken de populatieparameters vervangen, wordt de geschatte regressie van y op x gemaakt .3

De geschatte regressie van y op x is:

(ŷ) = β0 +β1x+ε

Opmerking: (ŷ) wordt uitgesproken y hat.

De grafiek van de geschatte regressievergelijking wordt de geschatte regressiekromme genoemd.

β0 is dat de y-onderschepping van de regressiekromme .

β1 is dat de helling.

(ŷ) is dat de geschatte waarde van y voor een bepaalde waarde van x.

Grenzen van rechtlijnige regressie

Zelfs de eenvoudigste gegevens vertellen niet het hele verhaal.

Regressie-analyse wordt meestal gebruikt in onderzoek om vast te stellen dat er een correlatie bestaat tussen variabelen. Maar correlatie is geen equivalent als causaliteit: een relatie tussen twee variabelen betekent niet dat één ervan het tegenovergestelde veroorzaakt. Zelfs een lijn tijdens een eenvoudige rechtlijnige regressie die goed overeenkomt met de infopunten garandeert misschien geen oorzaak-gevolgrelatie.

Met behulp van een rechtlijnig regressiemodel kun je nagaan of er een relatie tussen variabelen bestaat. Om precies te weten wat die relatie is, en of de ene variabele een andere veroorzaakt, heeft u extra onderzoek en statistische analyse nodig.