Équation de régression : Vue d’ensemble

Une équation de régression est utilisée en statistique pour déterminer les relations éventuelles entre les ensembles de données. Par exemple, si vous mesurez la taille d’un enfant chaque année, vous pouvez constater qu’il grandit d’environ 5 cm par an. Cette tendance (qui augmente de trois pouces par an) peut être modélisée à l’aide d’une équation de régression. En fait, la plupart des choses dans le monde réel (du prix de l’essence aux ouragans) peuvent être modélisées à l’aide d’une équation ; cela nous permet de prédire les événements futurs.

Une ligne de régression est la ligne “la plus appropriée” pour vos données. En gros, vous tracez une ligne qui représente le mieux les points de données. C’est comme une moyenne de l’endroit où tous les points s’alignent. Dans la régression linéaire, la ligne de régression est une ligne parfaitement droite :

regression line

La droite de régression est représentée par une équation. Dans ce cas, l’équation est -2,2923x + 4624,4. Cela signifie que si vous deviez représenter graphiquement l’équation -2,2923x + 4624,4, la droite serait une approximation grossière pour vos données.

Il n’est pas très courant que tous les points de données se situent en fait sur la droite de régression. Dans l’image ci-dessus, les points sont légèrement dispersés autour de la ligne. Dans l’image suivante, les points tombent sur la ligne. La forme incurvée de cette ligne est le résultat d’une régression polynomiale, qui ajuste les points dans une équation polynomiale.

Polynomial regression results in a curved line.

Équation de régression : Ce que c’est et comment l’utiliser

Définitions statistiques > Qu’est-ce qu’une équation de régression ?

Equation de régression : Vue d’ensemble

Une équation de régression est utilisée en statistique pour déterminer les relations éventuelles entre les ensembles de données. Par exemple, si vous mesurez la taille d’un enfant chaque année, vous pouvez constater qu’il grandit d’environ 5 cm par an. Cette tendance (qui augmente de trois pouces par an) peut être modélisée à l’aide d’une équation de régression. En fait, la plupart des choses dans le monde réel (du prix de l’essence aux ouragans) peuvent être modélisées à l’aide d’une équation ; cela nous permet de prédire les événements futurs.

Une ligne de régression est la ligne “la plus appropriée” pour vos données. En gros, vous tracez une ligne qui représente le mieux les points de données. C’est comme une moyenne de l’endroit où tous les points s’alignent. Dans la régression linéaire, la ligne de régression est une ligne parfaitement droite :

ligne de régression

Une ligne de régression linéaire.

La droite de régression est représentée par une équation. Dans ce cas, l’équation est -2,2923x + 4624,4. Cela signifie que si vous deviez représenter graphiquement l’équation -2,2923x + 4624,4, la droite serait une approximation grossière pour vos données.

Il n’est pas très courant que tous les points de données se situent en fait sur la droite de régression. Dans l’image ci-dessus, les points sont légèrement dispersés autour de la ligne. Dans l’image suivante, les points tombent sur la ligne. La forme incurvée de cette ligne est le résultat d’une régression polynomiale, qui ajuste les points dans une équation polynomiale.

La régression polynomiale résulte d’une ligne courbée.

La régression polynomiale aboutit à une ligne courbée.

Lignes de régression et de prédiction

La régression est utile car elle permet de faire des prévisions sur les données. Le premier graphique ci-dessus porte sur la période de 1995 à 2015. Si vous vouliez prédire ce qui se passera en 2020, vous pourriez le mettre dans l’équation :

-2.2923(2020)+4626.4 = -4.046.

Avoir des précipitations négatives n’a pas beaucoup de sens, mais vous pouvez dire que les précipitations tomberont à 0 pouce avant 2020. Selon cette droite de régression particulière, on s’attend en fait à ce que cela se produise tôt ou tard en 2018 :

-2.2923(2018)+4626.4 = 0.5386

-2.2923(2019)+4626.4 = -1.7537

A quoi sert une équation de régression ?

Les équations de régression peuvent vous aider à comprendre si vos données peuvent convenir à une équation. C’est extrêmement utile si vous voulez faire des prévisions à partir de vos données – à la fois des prévisions futures et des indications sur le comportement passé. Par exemple, vous pouvez vouloir savoir combien vos économies vaudront à l’avenir. Ou encore, vous pouvez vouloir prédire le temps qu’il vous faudra pour vous remettre d’une maladie.

Il existe différents types d’équations de régression. Parmi les plus courantes, on trouve la régression linéaire exponentielle et la régression linéaire simple (pour adapter les données à une équation exponentielle ou linéaire). En statistique élémentaire, l’équation de régression que vous êtes le plus susceptible de rencontrer est la forme linéaire.

Calcul de la régression linéaire

Il existe plusieurs façons de trouver une ligne de régression, même à la main et avec la technologie, comme Excel (voir ci-dessous). Trouver une ligne de régression est très ennuyeux à la main. La vidéo suivante illustre les étapes :

Vous pouvez également trouver une droite de régression sur les calculatrices TI :

Régression TI 83.

Comment effectuer la régression TI-89.

L’équation de régression linéaire est illustrée ci-dessous.

regression equation

L’inconvénient de l’analyse de régression

Pour que les données entrent dans une équation, vous devez d’abord comprendre quel schéma général correspond aux données. Les étapes générales pour effectuer une régression comprennent la réalisation d’un diagramme de dispersion et ensuite la formulation d’une hypothèse sur le type d’équation qui pourrait être le plus approprié. Ensuite, vous pouvez sélectionner la meilleure équation de régression pour le travail.

regression equation 2

Cependant, comme le montre le tableau suivant, il n’est pas toujours facile de sélectionner l’équation de régression appropriée, surtout lorsqu’il s’agit de données réelles. Parfois, vous obtenez des données “bruyantes” qui ne semblent correspondre à aucune équation. Si la plupart des données semblent suivre un schéma, vous pouvez omettre les valeurs aberrantes. En fait, si vous ignorez les valeurs aberrantes, les données semblent être modélisées par une équation exponentielle.

regression eq