La régression linéaire est un examen qui évalue si au moins un facteur indicateur clarifie la variable dépendante (règle). La rechute comporte cinq présomptions clés :

Relation linéaire

Typicité multivariée

Pas ou peu de multicollinéarité

Pas d’autorelation

Homoscédasticité

Une note sur la taille de l’exemple. Dans la relation linéaire, la ligne directrice générale de la taille de l’exemple est que l’analyse de régression exige en tout cas 20 cas pour chaque facteur libre dans l’enquête.

Dans le produit ci-dessous, il est extrêmement simple de diriger une rechute et la plupart des suppositions sont préchargées et traduites pour vous.

Pour commencer, la rechute directe nécessite que le lien entre les facteurs autonome et pupille soit direct. De même, il est essentiel de vérifier les exceptions, car la rechute directe est délicate aux impacts de l’anomalie. La meilleure façon d’essayer la supposition de linéarité est d’utiliser des diagrammes de dispersion. Les deux modèles qui accompagnent le présent document décrivent deux cas où la linéarité est faible ou inexistante

En outre, l’examen direct de la rechute exige que tous les facteurs soient typiques à plusieurs variables. Cette supposition peut être vérifiée au mieux à l’aide d’un histogramme ou d’un Q-Q-Plot. La normalité peut être vérifiée à l’aide d’un test d’ajustement de la décence, par exemple le test de Kolmogorov-Smirnov. Au moment où l’information n’est pas habituellement diffusée, un changement non direct (par exemple, un changement de logarithme) peut régler ce problème

Troisièmement, les rechutes directes s’attendent à ce qu’il n’y ait presque pas de multicollinéarité dans l’information. La multicollinéarité se produit lorsque les facteurs autonomes sont excessivement profondément associés les uns aux autres.

La multicollinéarité pourrait être tentée avec trois critères centraux :

1) Matrice de corrélation – lors du traitement du réseau de la connexion bivariée de Pearson entre chaque variable autonome, les coefficients de relation doivent être inférieurs à 1.

2) Résistance – la résilience estime l’impact d’un facteur libre sur tous les autres facteurs autonomes ; la résilience est déterminée à l’aide d’une enquête de rechute directe sous-jacente. La résilience est caractérisée par T = 1 – R² pour ces enquêtes sur les rechutes à l’étape initiale. Avec T < 0,1, il peut y avoir une multicollinéarité dans l’information et avec T < 0,01, il y en a sûrement une.

3) Facteur d’inflation de la variance (FVIF) – la variable de gonflement de la différence de la rechute directe est caractérisée comme VIF = 1/T. Avec un FIV > 5, cela signifie que la multicollinéarité peut être disponible ; avec un FIV > 10, il y a incontestablement une multicollinéarité parmi les facteurs.

Au cas où la multicolinéarité se trouverait dans l’information, le fait de concentrer l’information (c’est-à-dire de déduire la moyenne de la variable de chaque score) peut régler le problème. Quoi qu’il en soit, l’approche la moins complexe pour résoudre le problème est d’évacuer les facteurs autonomes ayant des valeurs VIF élevées.

Quatrièmement, l’analyse de régression linéaire exige qu’il y ait une autocorrélation proche de zéro dans les informations. L’autocorrélation se produit lorsque les résidus ne sont pas exempts les uns des autres. Par exemple, cela se produit normalement dans les coûts des stocks, où le coût n’est pas exempt du coût passé.

4) Indice de condition – l’indice de condition est déterminé en utilisant un examen des facteurs autonomes. Les estimations de 10-30 montrent une multicollinéarité juste dans les facteurs de rechute droits, les valeurs > 30 montrent une multicollinéarité solide.

Dans le cas où la multicollinéarité est trouvée dans l’information qui concentre l’information, c’est-à-dire en déduisant la note moyenne, peut régler le problème. Différents choix pour traiter les questions consiste à mener un examen des facteurs et à tourner les éléments pour garantir la liberté des composantes dans l’enquête sur la rechute directe.

Quatrièmement, l’analyse de régression linéaire exige qu’il n’y ait pratiquement pas d’autocorrélation dans les informations. L’autocorrélation se produit lorsque les résidus ne sont pas autonomes les uns par rapport aux autres. En fin de compte, lorsque l’estimation de y(x+1) n’est pas exempte de l’estimation de y(x).

Alors qu’un nuage de points vous permet de vérifier les autocorrélations, vous pouvez tester le modèle de rechute directe pour l’autocorrélation avec le test de Durbin-Watson. Le test de Durbin-Watson teste la théorie non valide selon laquelle les résidus ne sont pas directement auto-associés. Alors que d peut accepter des valeurs comprises entre 0 et 4, des valeurs autour de 2 démontrent l’absence d’autocorrélation. En règle générale, les estimations de 1,5 < d < 2,5 montrent qu’il n’y a pas d’autocorrélation dans les informations. Néanmoins, le test de Durbin-Watson n’examine que l’autocorrélation directe et juste entre voisins directs, qui sont des impacts de première demande.

Le dernier soupçon de l’examen de rechute est l’homoscédasticité. Le graphique de dissipation est une excellente approche pour vérifier si l’information est homoscédastique (ce qui signifie que les résidus sont équivalents sur la ligne de rechute). Les graphiques de dispersion qui l’accompagnent montrent des cas d’informations qui ne sont pas homoscédastiques (c’est-à-dire hétéroscédastiques) :

Le test de Goldfeld-Quandt peut également être utilisé pour tester l’hétéroscédasticité. Le test divise l’information en deux groupes et effectue des tests pour vérifier si les différences des résidus sont comparables entre les groupes. Si l’homoscédasticité est disponible, une révision non directe peut résoudre le problème.