Que nous souhaitions prévoir l’évolution des marchés financiers ou de la consommation d’électricité, le temps est un facteur crucial qui doit maintenant être pris en compte dans nos modèles. Par exemple, il peut être intéressant de savoir non seulement quand le prix d’une action va augmenter, mais aussi quand elle va monter.

Entrez une statistique. Une statistique n’est qu’une série de points de connaissance ordonnés dans le temps. Au cours d’une statistique, le temps est généralement la variable expérimentale et l’objectif est donc généralement de former une prévision à plus long terme.

Cependant, il y a d’autres aspects qui héritent du jeu lors de la manipulation d’une statistique.

Est-elle stationnaire ?

Y a-t-il une saisonnalité ?

La variable cible est-elle auto-corrélée ?

Dans cet article, je vais pouvoir présenter différentes caractéristiques de vos séries temporelles et la façon dont nous allons les modéliser pour obtenir des prévisions précises (autant que possible).

Autocorrélation

https://miro.medium.com/max/1034/1*1SnyrVnYQ747DkltaH6nkQ.png

Officieusement, l’autocorrélation est la similarité entre les observations en fonction du délai entre elles.

Ci-dessus se trouve un exemple de graphique d’autocorrélation. En y regardant de plus près, on se rend compte que la valeur primaire et donc la 24ème valeur ont une autocorrélation élevée. De même, les 12e et 36e observations sont fortement corrélées. Cela suggère que nous trouverons une valeur vraiment similaire à chaque 24ème unité de votre temps.

Remarquez comment le tracé ressemble à une fonction sinusoïdale. Il s’agit souvent d’une touche de saisonnalité, et vous trouverez sa valeur en trouvant la quantité dans le graphique ci-dessus, ce qui pourrait donner 24 heures.

Saisonnalité

https://miro.medium.com/max/1686/1*E4vvt9qPqlUDalI0VJXIZQ.png

La saisonnalité fait référence aux fluctuations périodiques. Par exemple, la consommation d’électricité est élevée pendant la journée et faible pendant la nuit, ou les ventes en ligne augmentent pendant la période de Noël avant de ralentir à nouveau.

Comme vous le verrez ci-dessus, il existe une saisonnalité quotidienne transparente. Chaque jour, on observe un pic vers le soir, et donc les points les plus bas sont le début et la fin de chaque journée.

N’oubliez pas que la saisonnalité peut également être dérivée d’un tracé d’autocorrélation s’il s’agit d’une forme sinusoïdale. Il suffit de vérifier le montant et il donne la durée de la saison.

https://miro.medium.com/max/1307/1*tCCq8QoJGYTmrJZiYafLlw.png

Stationnarité

L’immobilité est une caractéristique essentielle de vos séries chronologiques. Une statistique est dite stationnaire si ses propriétés statistiques ne changent pas au fil du temps. En d’autres termes, sa moyenne et sa variance sont constantes, et sa covariance est indépendante de votre temps.

En examinant à nouveau un graphique équivalent, nous constatons que la méthode ci-dessus est stationnaire. La moyenne et la variance ne varient pas dans le temps.

Souvent, les prix des actions ne sont pas stationnaires, car nous verrions une tendance croissante, ou sa volatilité pourrait augmenter avec le temps (ce qui signifie que la variance change).

Idéalement, nous aimerions disposer d’une statistique stationnaire pour la modélisation. Bien sûr, elles ne sont pas toutes stationnaires, mais nous effectuerons différentes transformations pour les rendre stationnaires.

https://miro.medium.com/max/861/1*1-836SFvfceTixAK1ERvcA.png

Comment vérifier si un processus est stationnaire

Vous l’avez peut-être remarqué dans le titre de l’intrigue au-dessus de Dickey-Fuller. C’est souvent le test statistique que nous effectuons pour déterminer si une statistique est stationnaire ou non.

Sans entrer dans les détails techniques du test de Dickey-Fuller, il vérifie l’hypothèse nulle de la présence d’une racine unitaire.

Si c’est le cas, alors p > 0, et donc le processus n’est pas stationnaire.

Sinon, p = 0, l’hypothèse nulle est rejetée, et donc le processus est pris en compte pour être stationnaire.

À titre d’exemple, la méthode ci-dessous n’est pas stationnaire. Notez que la moyenne n’est pas constante dans le temps.

Statistiques de modélisation

Il existe des moyens de modéliser une statistique afin de faire des prévisions. Ici, je vais pouvoir faire une présentation :

Moyenne mobile

https://miro.medium.com/max/1300/1*ZlXokSCFkJfWEs9lZDebKw.png

Lissage exponentiel

ARIMA

Moyenne mobile

Le modèle de la moyenne mobile est peut-être l’approche la plus naïve en matière de modélisation statistique. Ce modèle indique simplement que l’observation ultérieure est la moyenne de toutes les observations passées.

Bien que simple, ce modèle pourrait être étonnamment bon et il représente une ligne de départ honnête.

Sinon, la moyenne mobile a souvent tendance à identifier des tendances intéressantes dans les données. Nous allons définir une fenêtre permettant d’utiliser le modèle de la moyenne mobile pour lisser la statistique et mettre en évidence différentes tendances.

Dans le graphique ci-dessus, nous avons appliqué le modèle de la moyenne mobile à une fenêtre de 24 heures. La ligne verte a permis de lisser la statistique, et nous pouvons voir qu’il y a deux pics sur une période de 24 heures.

https://miro.medium.com/max/1232/1*W4rf6AHqWG0ti6XUMljIEw.png

Bien sûr, plus la fenêtre est longue, plus la tendance sera régulière. Vous trouverez ci-dessous un exemple de moyenne mobile sur une fenêtre plus petite.

Lissage exponentiel

Le lissage exponentiel utilise une logique identique à celle de la moyenne mobile, mais ce point, un poids spécial décroissant est attribué à chaque observation. En d’autres termes, une importance moindre est accordée aux observations à mesure que nous dépassons ce point.

https://miro.medium.com/max/1308/1*0XOdCfCaZ6Xbrzg_AT8FnA.png

alpha est un facteur de lissage qui prend des valeurs entre 0 et 1. Il détermine la vitesse à laquelle le poids diminue pour les observations précédentes.

https://miro.medium.com/max/1232/1*1xBpTjWkxYFY_JixAbGuKA.png

Sur le graphique ci-dessus, la ligne marine représente le lissage exponentiel de la statistique en utilisant un facteur de lissage de 0,3, tandis que la ligne orange utilise un facteur de lissage de 0,05.

Comme vous le verrez, plus le facteur de lissage est faible, plus la statistique sera lisse. Cela est judicieux, car le facteur de lissage se rapproche de 0 ; nous nous rapprochons du modèle de la moyenne mobile.

Double lissage exponentiel

Le lissage exponentiel double est utilisé lorsqu’il y a une tendance dans la statistique. Dans ce cas, nous utilisons ce système, qui n’est qu’une utilisation récursive du lissage exponentiel double.

Mathématiquement:

https://miro.medium.com/max/1110/1*23R2PWfpY5_3A3S8lSp3-Q.png

Ici, bêta est le facteur de lissage de la tendance et il prend des valeurs entre 0 et 1.

Ci-dessous, vous verrez comment les différentes valeurs de alpha et de bêta affectent la forme de la statistique .Tripe exponential smoothing

https://miro.medium.com/max/1231/1*9w92QHLVshIHvb2zNCv2lw.png

Cette méthode prolonge le double lissage exponentiel, en ajoutant un facteur de lissage saisonnier. Bien entendu, cette méthode est souvent utile si vous remarquez une saisonnalité dans certaines séries chronologiques.

Lissage exponentiel triple

Cette méthode prolonge le double lissage exponentiel, en ajoutant un facteur de lissage saisonnier. Bien entendu, cela est utile si vous remarquez une saisonnalité dans vos séries chronologiques.

Mathématiquement, le triple lissage exponentiel est exprimé comme suit:

https://miro.medium.com/max/1204/1*Tt19NBbANCBAze3-vajMXg.png

Où gamma est le facteur de lissage saisonnier et L est la durée de la saison.

Modèle de moyenne mobile intégrée autorégressive saisonnière (SARIMA)

SARIMA est en fait un mélange de modèles plus simples pour former un modèle élégant qui modélisera les statistiques présentant des propriétés non stationnaires et une saisonnalité.

Au départ, nous avons le modèle d’autorégression AR(p). Il s’agit souvent d’une régression de la statistique sur elle-même. Ici, nous supposons que la valeur actuelle dépend de ses valeurs précédentes avec un certain décalage. Elle prend un paramètre p qui représente le plus grand décalage. Pour le rechercher, nous jetons un coup d’œil au tracé de l’autocorrélation partielle et identifions le retard après lequel la plupart des retards ne sont pas significatifs.

https://miro.medium.com/max/625/1*h0O1f9rQoHNAl37lPtb9zw.png

Dans l’exemple ci-dessous, p serait 4.

Ensuite, nous ajoutons le modèle de moyenne mobile MA(q). Nous prenons un paramètre q qui représente le retard le plus important, après lequel les autres retards ne sont pas significatifs sur le graphique d’autocorrélation.

Dans l’exemple ci-dessous, q serait de 4.

https://miro.medium.com/max/622/1*OjMedd6OIe1qFMOfQuuRRg.png

Ensuite, on ajoute l’ordre d’intégration I(d). Le paramètre d représente la quantité de différences nécessaires pour former la série stationnaire.

Enfin, nous ajoutons la composante ultime : la saisonnalité S(P, D, Q, s), où s n’est que la longueur de la saison. En outre, cette composante nécessite les paramètres P et Q qui sont équivalents à p et q, à l’exception de la composante saisonnière. Enfin, D est l’ordre d’intégration saisonnière représentant la quantité de différences nécessaires pour éliminer la saisonnalité de la série.

En combinant le tout, on obtient le modèle SARIMA(p, d, q)(P, D, Q, s).

La principale conclusion qui en découle est qu’avant de modéliser avec SARIMA, nous devons souvent appliquer des transformations à nos statistiques pour éliminer la saisonnalité et tout comportement non stationnaire.