Que sont la corrélation et la causalité et en quoi sont-elles extraordinaires ?

Au moins deux facteurs considérés comme liés, dans un cadre factuel, si leurs qualités changent de telle sorte que l’estimation d’une variable augmente ou diminue de même que l’estimation de l’autre variable (malgré le fait qu’elle puisse être dans l’autre sens).

Par exemple, pour les deux facteurs “heures travaillées” et “salaire gagné”, il existe un lien entre les deux si l’augmentation des heures travaillées est liée à une augmentation de salaire gagné. Si l’on considère les deux facteurs “coût” et “obtention de pouvoir”, à mesure que le coût des marchandises augmente, la capacité d’un individu à acheter ces produits diminue (en attendant une rémunération constante).

La corrélation est une mesure factuelle (communiquée sous forme de nombre) qui décrit l’importance et l’importance d’un lien entre au moins deux facteurs. En tout état de cause, une relation entre les facteurs n’implique pas que l’ajustement d’une variable soit la raison de l’ajustement des estimations de l’autre variable.

Le lien de causalité démontre qu’une occasion est la conséquence de l’événement de l’autre occasion ; par exemple, il existe un lien de causalité entre les deux occasions. Il est également fait allusion à cette situation en tant que circonstances et résultats logiques.

Hypothétiquement, la distinction entre ces deux types de liens est tout sauf difficile à faire : une activité ou un événement peut en provoquer un autre (par exemple, le fait de fumer entraîne une expansion du danger de créer une croissance maligne des poumons), ou il peut être lié à un autre (par exemple, le fait de fumer est lié à l’abus d’alcool, mais il ne provoque pas de dépendance à l’alcool). En pratique, quoi qu’il en soit, il reste difficile d’établir de manière incontestable des circonstances et des résultats logiques, de contraster et d’établir la relation.

Pour quelle raison la corrélation et la causalité sont-elles significatives ?

L’objectif d’une grande partie de la recherche ou de l’investigation logique est de distinguer le degré d’identification d’une variable avec une autre variable. Par exemple :

Existe-t-il un lien entre le niveau de formation d’un individu et son bien-être ?

La possession d’un animal de compagnie est-elle liée à l’allongement de la durée de vie ?

Les efforts de promotion d’une organisation ont-ils permis d’augmenter le nombre d’articles vendus ?

Ces enquêtes, ainsi que d’autres, visent à déterminer s’il existe un lien entre les deux facteurs et, si par hasard il y a un lien, cela peut permettre de contrôler l’examen ultérieur visant à déterminer si une activité est à l’origine de l’autre. En obtenant le lien et la causalité, elle considère que les arrangements et les projets qui prévoient d’atteindre un résultat idéal sont mieux ciblés.

Comment la connexion est-elle estimée ?

Pour deux facteurs, un lien factuel est estimé par l’utilisation d’un coefficient de relation, auquel renvoie l’image (r), qui est un chiffre unique décrivant le niveau de connexion entre deux facteurs.

La valeur numérique du coefficient s’étend de +1,0 à – 1,0, ce qui donne un signe de la qualité et de l’évolution de la relation.

Si le coefficient de corrélation a une valeur négative (inférieure à 0), cela démontre un lien négatif entre les facteurs. Cela implique que les facteurs évoluent de manière inverse (c’est-à-dire lorsque l’on construit différentes réductions, ou lorsque l’on décline différentes augmentations).

Si le coefficient de corrélation a une valeur positive (supérieure à 0), cela démontre un lien positif entre les facteurs, ce qui implique que les deux facteurs font bouger un couple, par exemple lorsqu’une variable diminue l’autre, ou lorsqu’une variable augmente l’autre de la même manière.

Lorsque le coefficient de connexion est égal à 0, cela démontre qu’il n’y a pas de lien entre les facteurs (une variable peut rester stable alors que d’autres augmentent ou diminuent).

Si le coefficient de connexion est une mesure utile, il a ses limites :

Les coefficients de corrélation sont généralement liés à l’estimation d’une relation directe.

Par exemple, si vous analysez les heures travaillées et la rémunération d’un ouvrier qui facture son travail à l’heure, il existe un lien direct (ou linéaire) puisque chaque heure supplémentaire travaillée entraîne une augmentation de la rémunération d’un montant fiable.

En supposant, dans tous les cas, que les charges de l’artisan dépendant d’un sous-jacent fassent sortir la dépense et qu’une charge horaire diminue logiquement au fur et à mesure que l’activité s’allonge, le lien entre les heures travaillées et le salaire serait non linéaire, le coefficient de relation pouvant plutôt s’apparenter à 0.

Il faut être prudent lorsqu’on traduit l’estimation de “r”. Il est concevable de découvrir des liens entre de nombreux facteurs, de toute façon les liens peuvent être dus à des facteurs différents et n’ont rien à voir avec les deux facteurs considérés.

Par exemple, les offres de yaourts glacés et les offres d’écran solaire peuvent augmenter et diminuer sur une année de manière précise, mais ce serait une relation qui serait due aux impacts de la période (c’est-à-dire que le climat plus fumeur voit une augmentation des individus portant un écran solaire juste comme mangeant un dessert) plutôt qu’à un lien immédiat entre les offres d’écran solaire et de yaourt glacé.

Le coefficient de connexion ne doit pas être utilisé pour dire quoi que ce soit sur la relation entre les circonstances et les résultats logiques. En examinant l’estimation de “r”, nous pouvons déduire que deux facteurs sont liés, mais que l’estimation de “r” ne nous permet pas de savoir si une variable a été la raison de l’ajustement de l’autre.

Par quels moyens la causalité pourrait-elle être établie ?

La causalité est le territoire des connaissances qui sont normalement mal interprétées et abusées par les individus dans la conviction confuse que, au motif que les informations montrent un lien, il existe fondamentalement une relation causale cachée.

L’utilisation d’un rapport contrôlé est la meilleure méthode pour établir la causalité entre les facteurs. Dans un rapport contrôlé, l’exemple ou la population fait partie de deux, les deux ensembles étant équivalents à peu près en tout point. Les deux groupes reçoivent alors différents médicaments, et les résultats de chaque groupe sont évalués.

Par exemple, dans le cadre de la recherche thérapeutique, un groupe peut recevoir un faux traitement alors que l’autre groupe reçoit une autre sorte de prescription. Si les deux groupes obtiennent des résultats sensiblement différents, les différentes rencontres peuvent être à l’origine des différents résultats.

Pour des raisons morales, il y a des points de confinement à l’utilisation d’enquêtes contrôlées ; il ne serait pas approprié d’utiliser deux rassemblements équivalents et de faire en sorte que l’un d’eux connaisse un mouvement destructeur alors que l’autre n’en connaît pas. Pour déjouer cette situation, des examens d’observation sont fréquemment utilisés pour rechercher les liens et les causes du nombre d’habitants en cause. Ces examens permettent de jeter un coup d’œil sur les pratiques et les résultats des rassemblements et d’observer leur progression au bout d’un certain temps.

L’objectif de ces examens est de fournir des données mesurables à ajouter aux différentes sources de données qui seraient nécessaires pour déterminer s’il existe une causalité entre deux facteurs.

Bien que les personnes puissent avoir des bases de référence différentes lorsqu’elles donnent des évaluations, quelques personnes donneront en général des notes élevées, certaines sont vraiment exigeantes malgré le fait qu’elles soient satisfaites de la situation. Pour contourner cette tendance, nous pouvons soustraire la note normale de chaque client de toutes les choses lors de l’enregistrement de la normale pondérée, et l’inclure à nouveau pour le client cible, apparu comme en dessous.

Deux façons de calculer la similarité sont la corrélation de Pearson et la similarité des cosinus.

Il s’agit essentiellement de localiser les clients les plus comparables à votre client objectif (les voisins les plus proches) et de pondérer leurs évaluations d’une chose comme la prévision de l’évaluation de cette chose pour le client cible.

Sans rien connaître des choses et des clients eux-mêmes, nous pensons que deux clients sont comparables lorsqu’ils donnent une évaluation comparable à une chose similaire. De même, pour la FC basée sur les choses, nous affirmons que deux choses sont comparables lorsqu’elles ont obtenu des évaluations comparatives d’un client équivalent. À ce moment-là, nous allons faire des attentes pour un client objectif sur une chose en déterminant la normale pondérée des évaluations sur la plupart des X choses comparables de ce client. L’un des éléments clés de la FC basée sur les objets est la solidité, c’est-à-dire que les évaluations d’un objet donné ne changeront pas, contrairement aux goûts des individus.

Cette technique comporte de nombreuses contraintes. Elle ne traite pas bien la question de la rareté lorsque personne dans la région n’a évalué ce que vous essayez d’anticiper pour le client cible. De même, elle n’est pas aussi performante en matière de calcul que l’évolution du nombre de clients et d’articles.

Cadre de factorisation

Comme la rareté et la polyvalence sont les deux plus grandes difficultés de la stratégie standard des FC, on en arrive à une technique plus perfectionnée qui décompose le premier réseau inadéquat en treillis de faible dimension avec des variables/points forts inactifs et une moindre rareté. Il s’agit de la factorisation des treillis.

En plus d’aborder les questions de la rareté et de la polyvalence, il est naturel de comprendre pourquoi nous avons besoin de treillis de faible dimension pour répondre aux besoins des clients. Un client a donné de très bonnes évaluations aux films Symbole, Gravité et Initiation. Il ne s’agit pas vraiment de trois suppositions distinctes, mais plutôt d’une indication que ce client pourrait être favorable aux films de science-fiction et qu’il pourrait vouloir beaucoup plus de films de science-fiction. Contrairement aux films explicites, les points forts inertes sont communiqués par des traits de niveau plus significatifs, et la classe de science-fiction est l’un des points forts inertes dans cette situation. Ce que la factorisation en treillis nous donne, en fin de compte, c’est la façon dont un grand nombre de clients sont alignés avec beaucoup de points forts inertes, et la façon dont un film s’intègre dans cet arrangement de points forts inactifs. L’avantage par rapport au voisinage le plus proche est que, bien que deux clients n’aient pas évalué de films équivalents, il est encore concevable de découvrir la similitude entre eux au cas où ils partageraient les mêmes goûts de base, c’est-à-dire des hautes lumières inertes.

Pour percevoir comment une grille est factorisée, la première chose à comprendre est la décomposition solitaire de la valeur (Solitary Worth Decomposition, SVD). En vue des mathématiques polynomiales directes, toute véritable grille R peut être désintégrée en 3 réseaux U, Σ, et V. En continuant à utiliser le modèle cinématographique, U est un réseau d’éléments inactifs client n × r, V est un cadre d’éléments inertes cinématographiques m × r. Σ est un cadre incliné r × r contenant les estimations solitaires d’un réseau unique, qui indique simplement à quel point un élément particulier est important pour prévoir l’inclinaison du client.

Pour trier les estimations de Σ en diminuant l’estime totale et en tronquant le réseau Σ aux premières k mesures( k qualités solitaires), on peut refaire la grille comme cadre A. La détermination de k doit permettre à A de capter la grande majorité des fluctuations dans le premier cadre R, donc An est l’estimation de R, A ≈ R. Le contraste entre An et R est l’erreur qu’il faut limiter. C’est en fait l’idée de l’enquête sur la partie de la ligne directrice.

Au point où la grille R est épaisse, U et V pourraient être efficacement factorisés de manière diagnostique. Quoi qu’il en soit, un réseau d’évaluation des films est trop insuffisant. Malgré le fait qu’il existe certaines stratégies d’attribution pour combler les qualités manquantes, nous allons passer à une méthode de programmation qui consiste simplement à vivre avec ces qualités manquantes et à découvrir les réseaux de facteurs U et V. Plutôt que de factoriser R au moyen de l’UDS, nous essayons de découvrir U et V de manière légitime avec l’objectif que lorsque U et V ont augmenté à nouveau ensemble, le réseau de rendement R’ est l’estimation la plus proche de R et non plus un réseau maigre. Cette estimation numérique est généralement réalisée avec la factorisation de grille non négative pour les cadres de recommandation puisqu’il n’y a pas de qualités négatives dans les évaluations.

Voir la recette ci-dessous. Si l’on jette un coup d’œil à la note anticipée pour le client explicite et la chose, la chose I est notée comme un vecteur qᵢ, et le client u est noté comme un vecteur pᵤ avec l’objectif final que le résultat speck de ces deux vecteurs soit la note anticipée pour le client u sur la chose I. Cette valeur est exposée dans le cadre R’ à push u et le segment I

Comment trouver les meilleurs sites qᵢ et pᵤ ? Comme la plupart des tâches d’apprentissage machine, une fonction de perte est définie pour minimiser le coût des erreurs.

rᵤᵢ est l’authentique évaluation du réseau unique de clients. Le processus d’avancement consiste à localiser la grille idéale P créée par le vecteur pᵤ et le réseau Q fait par le vecteur qᵢ afin de limiter toute la bévue carrée entre les évaluations anticipées rᵤᵢ’ et les véritables évaluations rᵤᵢ. De même, la régularisation L2 a été ajoutée pour contrecarrer le surdimensionnement des vecteurs clients et choses. Il est également très régulier d’inclure le terme de prédisposition qui comporte pour l’essentiel 3 segments significatifs : évaluation normale de toutes choses μ, évaluation normale de la chose I moins μ(notée comme bᵤ), évaluation normale donnée par le client u moins u(notée comme bᵢ).