La probabilité est de commencer par un animal, et de décider quelles empreintes il laissera.

Les statistiques, c’est voir une empreinte, et deviner l’animal.

La probabilité est simple : vous avez l’ours. Mesurez la taille du pied, la longueur de la patte, et vous en déduirez les empreintes. “Oh, M. Bubbles pèse 400lbs et a des pattes d’1m50, et peut faire des traces comme ça.” Plus académique : “Nous avons une bonne pièce. Après 10 coups, voici les résultats possibles.”

Les statistiques sont plus difficiles. Nous mesurons les empreintes et devons deviner de quel animal il s’agit. Un ours ? Un humain ? Si nous obtenons 6 têtes et 4 queues, quelles sont les probabilités d’une bonne pièce ?

Les suspects habituels

Voici comment on “trouve l’animal” avec des statistiques :

Obtenir les traces. Chaque élément de connaissance peut être un point dans “relier les points”. Plus il y a de données, plus la forme est claire (1 point dans “connect-the-dots” n’est pas utile. Une seule donnée rend difficile la recherche d’une tendance).

Mesurez les caractéristiques essentielles. Chaque empreinte présente une profondeur, une largeur et une hauteur. Chaque ensemble de données comporte une moyenne, une médiane, une variance, etc. Ces descriptions universelles et génériques fournissent un rétrécissement approximatif : “L’empreinte fait 15 cm de large : un petit ours ou un homme trop grand ?”

Trouvez l’espèce. Il y a des dizaines d’animaux possibles (distributions de probabilité) auxquels il faut penser . Nous réduisons la liste en connaissant le système. dans les bois ? Pensez à des chevaux, pas à des zèbres. Vous répondez par oui ou par non ? Envisagez une distribution de Bernoulli .

Cherchez l’animal précis . Une fois que nous avons la distribution (“ours”), nous jetons un coup d’œil à nos mesures génériques au cours d’un tableau. “Une empreinte de patte de 6 pouces de large et de 2 pouces de profondeur est vraisemblablement un ours de 3 ans et de 400 livres”. La table de consultation est générée à partir de la distribution de probabilité, c’est-à-dire en prenant des mesures lorsque l’animal se trouve dans le zoo.

Faites des prédictions supplémentaires. Une fois que nous connaîtrons tous l’animal, nous prédireons son comportement futur et d’autres caractéristiques (“Selon nos calculs, M. Bubbles fera caca dans les bois”). Les statistiques nous aident à obtenir des informations sur l’origine de l’information, à partir de l’information elle-même.

Ok ! La métaphore n’est pas parfaite, mais elle est plus acceptable que “La statistique est l’étude de la collecte, de l’organisation, de l’analyse et de l’interprétation des données”. Besoin de preuves ? Voyons si nous allons poser des questions intuitives du type “J’ai goûté” :

Quelles sont les principales espèces communes ? (Distributions communes)

En découvre-t-on de nouveaux ?

Peut-on prévoir l’empreinte ultérieure ? (Extrapolation)

Les pistes suivent-elles un chemin ? (Régression / ligne de tendance)

Voici deux pistes, quel animal a été le plus rapide ? Le plus grand ? (Données de deux essais de médicaments : lequel était le plus efficace ?)

Une occupation animale est-elle une direction équivalente à une autre ? (Corrélation)

Le suivi de deux animaux est-il une source standard ? (Lien de causalité : deux ours poursuivant un lapin équivalent)