Que sont les paramètres ?

En IA, nous utilisons souvent un modèle pour représenter la procédure qui résulte des informations surveillées. Par exemple, nous pouvons utiliser un modèle de bois irrégulier pour déterminer si les clients peuvent renoncer à leur adhésion à une aide (ce que l’on appelle la manifestation d’agitation) ou nous pouvons utiliser un modèle direct pour prévoir les revenus qui seront créés pour une organisation en fonction du montant qu’elle peut dépenser pour la promotion (ce serait un cas de rechute pure et simple). Chaque modèle contient son propre agencement de paramètres qui caractérisent finalement ce à quoi le modèle ressemble.

Pour un modèle direct, nous pouvons composer ceci comme suit : y = mx + c. Dans ce modèle, x pourrait parler de la dépense de publicité et y pourrait être le revenu produit. m et c sont des paramètres pour ce modèle. L’estimation de ces paramètres donnera des lignes différentes (voir figure ci-dessous).

Les paramètres caractérisent donc un schéma pour le modèle. C’est seulement lorsque des qualités explicites sont choisies pour les paramètres que nous obtenons un lancement pour le modèle qui décrit une merveille donnée.

Clarification naturelle de l’estimation de la probabilité la plus extrême

L’estimation de la probabilité la plus extrême est une technique qui décide des valeurs des paramètres d’un modèle. Les valeurs des paramètres sont découvertes dans le but final d’amplifier la probabilité que la procédure décrite par le modèle fournisse l’information qui a été réellement observée.

La définition ci-dessus peut en tout cas sembler quelque peu obscure, alors pourquoi ne pas consulter un guide pour nous aider à l’obtenir ?

Et si nous devinions que nous avons regardé 10 informations portant sur une procédure quelconque. Par exemple, chaque point de référence pourrait indiquer en quelques secondes le temps qu’il faut à une doublure pour répondre à une question particulière du test. Ces 10 points d’information apparaissent dans la figure ci-dessous

Nous devons d’abord choisir le modèle qui, selon nous, décrit le mieux la manière de créer l’information. Cette partie est importante. En tout état de cause, nous devons réfléchir intelligemment au modèle à utiliser. Cela vient normalement du fait que nous avons des compétences dans le domaine, mais nous ne l’examinerons pas ici.

Pour cette information, on s’attend à ce que la procédure de l’ère de l’information puisse être suffisamment décrite par une diffusion gaussienne (ordinaire). L’évaluation visuelle de la figure ci-dessus recommande qu’une diffusion gaussienne soit concevable compte tenu du fait qu’une grande partie des 10 points est regroupée au centre et que peu de directions se dissipent vers la gauche et la droite. (Il est stupide de faire ce genre de choix à la volée avec seulement 10 points d’information, mais étant donné que j’ai produit ces points d’information, nous allons faire avec).

Vérifiez que la diffusion gaussienne a 2 paramètres. La moyenne, μ, et l’écart-type, σ. Diverses estimations de ces paramètres entraînent des courbes différentes (comme pour les lignes droites ci-dessus). Nous devons nous rendre compte de quel coude était, selon toute probabilité, responsable de la concentration de l’information que nous avons observée ? (Voir la figure ci-dessous). La meilleure estimation de la probabilité est une stratégie qui permet de découvrir les estimations de μ et σ qui aboutissent au coude qui correspond le mieux à l’information.

Calcul des estimations de la probabilité maximale

Maintenant que nous avons une compréhension intuitive de ce qu’est l’estimation du maximum de vraisemblance, nous pouvons passer à l’apprentissage du calcul des valeurs des paramètres. Les valeurs que nous trouvons sont appelées les estimations du maximum de vraisemblance (EMV).

Nous allons à nouveau le démontrer à l’aide d’un exemple. Supposons que nous ayons trois points de données cette fois-ci et que nous supposons qu’ils ont été générés à partir d’un processus qui est décrit de manière adéquate par une distribution gaussienne. Ces points sont 9, 9,5 et 11. Comment calculons-nous les estimations du maximum de vraisemblance des valeurs des paramètres de la distribution gaussienne μ et σ ?

Ce que nous voulons calculer, c’est la probabilité totale d’observer toutes les données, c’est-à-dire la distribution de probabilité commune de tous les points de données observés. Pour ce faire, nous devons calculer certaines probabilités conditionnelles, ce qui peut s’avérer très difficile. C’est donc ici que nous allons faire notre première hypothèse. L’hypothèse est que chaque point de données est généré indépendamment des autres. Cette hypothèse rend les calculs beaucoup plus faciles. Si les événements (c’est-à-dire le processus qui génère les données) sont indépendants, alors la probabilité totale d’observer toutes les données est le produit de l’observation de chaque point de données individuellement (c’est-à-dire le produit des probabilités marginales).

La densité de probabilité d’observer un seul point de données x, qui est générée à partir d’une distribution gaussienne, est donnée par

Le demi-côlon utilisé dans la documentation P(x ; μ, σ) est là pour souligner que les images qui apparaissent après lui sont des paramètres de la circulation de vraisemblance. Il ne doit donc pas être confondu avec une probabilité contingente (qui est généralement indiquée par une ligne verticale, par exemple P(A| B)).

Dans notre modèle, l’épaisseur de probabilité agrégée (conjointe) de l’observation des trois foyers d’information est donnée par

Nous devons simplement donner un sens aux estimations de μ et σ qui aboutissent à l’estimation la plus extrême de l’articulation ci-dessus.

Si vous avez intégré l’analyse dans vos cours de mathématiques, vous saurez très probablement qu’il existe une stratégie qui peut nous aider à découvrir les maxima (et minima) des capacités. C’est ce qu’on appelle la séparation. Nous devons simplement localiser le subordonné de la capacité, mettre la capacité subsidiaire à zéro et ensuite modifier la condition pour faire du paramètre d’intrigue le sujet de la condition. De plus, voilà, nous aurons l’estime de l’EML pour nos paramètres. Je vais maintenant faire l’expérience de ces moyens, mais je m’attends à ce que l’utilisateur réalise comment effectuer la séparation sur des capacités normales. Au cas où vous souhaiteriez une clarification progressive point par point, il vous suffira alors de me le faire savoir dans les remarques.