Was sind Korrelation und Kausalzusammenhang und inwiefern sind sie außergewöhnlich?
Mindestens zwei Faktoren, die in einem faktischen Umfeld als verwandt angesehen werden, wenn sich ihre Eigenschaften so ändern, dass mit der Schätzung der einen Variable die Schätzung der anderen Variable zunimmt oder abnimmt (obwohl es auch anders herum sein könnte).
Beispielsweise besteht für die beiden Faktoren “geleistete Arbeitsstunden” und “verdientes Gehalt” ein Zusammenhang zwischen den beiden, wenn die Ausweitung der geleisteten Arbeitsstunden mit einer Zunahme des verdienten Lohns verbunden ist. Für den Fall, dass wir die beiden Faktoren “Kosten” und “Erlangung von Macht” in Betracht ziehen, nimmt die Fähigkeit eines Individuums, diese Produkte zu kaufen, in dem Maße ab, wie sich die Kosten der Waren ausdehnen (in Erwartung eines gleichbleibenden Lohns).
Die Korrelation ist ein faktisches (als Zahl kommuniziertes) Maß, das die Größe und Tragweite einer Verbindung zwischen mindestens zwei Faktoren darstellt. Eine Beziehung zwischen den Faktoren bedeutet in jedem Fall nicht, dass die Anpassung einer Variablen der Grund für die Anpassung der Schätzungen der anderen Variable ist.
Die Ursache zeigt, dass der eine Anlass die Nachwirkung des Ereignisses des anderen Anlasses ist; es besteht beispielsweise ein kausaler Zusammenhang zwischen den beiden Anlässen. Dies wird ebenfalls als Umstände und logische Folge angedeutet.
Hypothetisch gesehen ist die Unterscheidung zwischen den beiden Arten von Zusammenhängen alles andere als schwierig – eine Aktivität oder ein Ereignis kann eine andere verursachen (z.B. verursacht Rauchen eine Ausweitung der Gefahr der Entstehung eines bösartigen Lungenwachstums), oder es kann mit einer anderen in Zusammenhang stehen (z.B. Rauchen ist mit Alkoholmissbrauch verbunden, verursacht aber keine Alkoholabhängigkeit). Wie dem auch sei, in der Praxis bleibt es schwierig, Umstände und logische Ergebnisse unmissverständlich aufzubauen, zu kontrastieren und die Beziehung herzustellen.
Aus welchem Grund sind Korrelation und Kausalität von Bedeutung?
Das Ziel vieler Forschungen oder logischer Untersuchungen ist es, zu unterscheiden, inwieweit sich eine Variable mit einer anderen Variable identifiziert. Zum Beispiel:
Gibt es einen Zusammenhang zwischen dem Ausbildungsstand eines Individuums und seinem Wohlbefinden?
Hat der Besitz von Haustieren mit einem längeren Leben zu tun?
Haben die Werbeanstrengungen einer Organisation die Anzahl ihrer Artikelangebote erhöht?
Diese und andere Untersuchungen untersuchen, ob zwischen den beiden Faktoren ein Zusammenhang besteht, und für den unwahrscheinlichen Fall, dass es einen Zusammenhang gibt, kann dies zu diesem Zeitpunkt die weitere Untersuchung der Frage steuern, ob eine Aktivität die andere verursacht. Indem sie den Zusammenhang und die Kausalität ermittelt, kann sie sich besser auf Arrangements und Projekte konzentrieren, die ein ideales Ergebnis erzielen wollen.
Wie wird die Verbindung geschätzt?
Für zwei Faktoren wird ein faktischer Zusammenhang durch die Verwendung eines Beziehungskoeffizienten geschätzt, auf den das Bild (r) anspricht, bei dem es sich um eine einsame Zahl handelt, die den Grad der Verbindung zwischen zwei Faktoren angibt.
Der numerische Wert des Koeffizienten reicht von +1,0 bis – 1,0, was ein Zeichen für die Qualität und den Verlauf der Beziehung ist.
Für den unwahrscheinlichen Fall, dass der Korrelationskoeffizient einen negativen Wert (unter 0) hat, zeigt er einen negativen Zusammenhang zwischen den Faktoren auf. Dies impliziert, dass sich die Faktoren auf umgekehrte Weise bewegen (d.h. wenn man verschiedene Reduktionen aufbaut oder wenn man verschiedene Inkremente abnimmt).
Für den unwahrscheinlichen Fall, dass der Korrelationskoeffizient einen positiven Wert (über 0) hat, zeigt er einen positiven Zusammenhang zwischen den Faktoren, der impliziert, dass sich die beiden Faktoren ein Paar bewegen, z.B. wenn eine Variable die andere zusätzlich verringert oder wenn eine Variable die andere ebenfalls erhöht.
Wenn der Verbindungskoeffizient 0 ist, zeigt dies, dass es keinen Zusammenhang zwischen den Faktoren gibt (eine Variable kann stabil bleiben, während verschiedene zu- oder abnehmen).
Der Anschlusskoeffizient ist zwar ein hilfreiches Maß, aber er hat seine Einschränkungen:
Korrelationskoeffizienten sind typischerweise mit der Schätzung einer geraden Beziehung verbunden.
Wenn Sie z.B. die gearbeiteten Stunden und den Lohn eines Händlers analysieren, der für seine Arbeit einen Stundensatz berechnet, besteht ein direkter (oder geradliniger) Zusammenhang, denn mit jeder zusätzlichen Arbeitsstunde erhöht sich der Lohn um eine zuverlässige Summe.
Geht man jedenfalls davon aus, dass die von einem Basiswert abhängigen Gewerbetreibenden die Kosten und einen Stundensatz in Rechnung stellen, der logischerweise umso geringer ausfällt, je länger die Tätigkeit in Anspruch genommen wird, wäre der Zusammenhang zwischen Arbeitsstunden und Gehalt nicht geradlinig, wobei der Beziehungskoeffizient eher bei 0 liegen könnte.
Bei der Übersetzung der Schätzung von “r” ist Vorsicht geboten. Es ist denkbar, Zusammenhänge zwischen einer Vielzahl von Faktoren zu entdecken, jedenfalls können die Zusammenhänge auf unterschiedliche Faktoren zurückzuführen sein und nichts mit den beiden betrachteten Faktoren zu tun haben.
Zum Beispiel kann das Angebot an gefrorenen Joghurts und das Angebot an Sonnenschutzmitteln im Laufe eines Jahres auf präzise Art und Weise erhöht und verringert werden, aber es wäre eine Beziehung, die auf die Auswirkungen der Periode zurückzuführen wäre (d.h. mehr Raucherklima sieht eine Ausweitung bei Personen, die Sonnenschutzmittel genauso wie Dessert essen) und nicht auf eine unmittelbare Verbindung zwischen Sonnenschutzmittelangeboten und gefrorenem Joghurt.
Der Verbindungskoeffizient sollte nicht dazu benutzt werden, etwas über die Umstände und die logische Ergebnisbeziehung zu sagen. Aus der Schätzung von “r” können wir ableiten, dass zwei Faktoren miteinander verbunden sind, aber die Schätzung von “r” lässt uns nicht wissen, ob die eine Variable der Grund für die Anpassung der anderen war.
Mit welchen Mitteln könnte eine Kausalität hergestellt werden?
Kausalität ist das Territorium von Einsichten, die normalerweise von Einzelpersonen in der verwirrten Überzeugung missverstanden und missbraucht werden, dass es aufgrund der Tatsache, dass die Informationen einen Zusammenhang aufweisen, grundsätzlich einen versteckten Kausalzusammenhang gibt.
Die Verwendung eines kontrollierten Berichts ist die beste Methode zur Feststellung der Kausalität zwischen den Faktoren. In einem kontrollierten Bericht ist das Beispiel oder die Bevölkerung Teil von zwei, wobei die beiden Versammlungen in so gut wie jeder Hinsicht gleichwertig sind. Die beiden Versammlungen erhalten zu diesem Zeitpunkt verschiedene Medikamente, und die Ergebnisse der beiden Versammlungen werden ausgewertet.
In der therapeutischen Forschung zum Beispiel kann es vorkommen, dass eine Gruppe eine gefälschte Behandlung erhält, während die andere Gruppe eine andere Art von Rezept erhält. Für den Fall, dass die beiden Versammlungen wahrnehmbar unterschiedliche Ergebnisse erzielt haben, können die verschiedenen Begegnungen die unterschiedlichen Ergebnisse verursacht haben.
Aus moralischen Gründen gibt es Punkte der Beschränkung auf die Anwendung kontrollierter Untersuchungen; es wäre nicht geeignet, zwei gleichwertige Versammlungen zu nutzen und eine von ihnen eine destruktive Bewegung erleben zu lassen, während die andere das nicht tut. Um diesem Umstand zu entgehen, werden häufig Beobachtungsuntersuchungen eingesetzt, um den Zusammenhang und die Kausalität für die Anzahl der Einwohner in Intrigen zu erforschen. Die Untersuchungen können einen Blick auf die Praktiken und Ergebnisse der Versammlungen werfen und nach einiger Zeit den Verlauf der Ereignisse beobachten.
Das Ziel dieser Untersuchungen ist es, den verschiedenen Datenquellen messbare Daten hinzuzufügen, die für den Weg zum Aufbau einer Kausalität zwischen zwei Faktoren erforderlich wären.


Auch wenn verschiedene Personen bei der Abgabe von Beurteilungen unterschiedliche Ausgangspunkte haben mögen, werden im Allgemeinen einige wenige Personen im Großen und Ganzen hohe Punktzahlen geben, einige sind trotz der Tatsache, dass sie mit den Dingen zufrieden sind, wirklich anspruchsvoll. Um dieser Neigung auszuweichen, können wir ausgerechnet die normale Bewertung jedes Kunden bei der Registrierung als gewichteter Normalwert abziehen und sie für den Zielkunden wieder einbeziehen, wie unten dargestellt.

Zwei Möglichkeiten zur Berechnung der Ähnlichkeit sind die Pearson-Korrelation und die Cosinus-Ähnlichkeit.


Im Wesentlichen besteht der Gedanke darin, die mit Ihrem objektiven Kunden (engste Nachbarn) am ehesten vergleichbaren Kunden ausfindig zu machen und ihre Bewertungen einer Sache als Prognose der Bewertung dieser Sache für den Zielkunden zu gewichten.
Ohne etwas über die Dinge und die Klienten selbst zu wissen, denken wir, dass zwei Klienten vergleichend sind, wenn sie eine ähnliche Sache vergleichbar bewerten. Bei der Ding-basierten CF geben wir an, dass zwei Dinge vergleichbar sind, wenn sie vergleichende Beurteilungen von einem gleichwertigen Klienten erhalten haben. An diesem Punkt werden wir für einen objektiven Kunden Erwartungen an eine Sache stellen, indem wir die gewichtete Normalität der Beurteilungen der meisten X vergleichbaren Dinge von diesem Kunden ermitteln. Ein wesentlicher Teil des Spielraums der Thing Based CF ist die Solidität, die darin besteht, dass sich die Beurteilungen zu einer bestimmten Sache im Gegensatz zu den Geschmäckern von Einzelpersonen nicht wesentlich über die Zeit hinaus ändern.

Es gibt viele Einschränkungen dieser Technik. Es geht nicht gut mit Sparsamkeit um, wenn niemand in der Gegend eine Sache beurteilt hat, die das ist, was Sie für den Zielkunden vorwegnehmen wollen. Ebenso wenig ist sie rechnerisch kompetent wie die Entwicklung der Anzahl der Kunden und der Gegenstände.
Rahmenfaktorisierung
Da Sparsamkeit und Vielseitigkeit die beiden größten Schwierigkeiten für eine Standard-CF-Strategie sind, kommt es zu einer weiterentwickelten Technik, die das erste unzulängliche Netzwerk in niedrigdimensionale Gitter mit inaktiven Variablen/Highlights und weniger Sparsamkeit zerlegt. Das ist die Gitterfaktorisierung.
Neben dem Ausloten der Probleme der Sparsamkeit und Vielseitigkeit gibt es eine natürliche Erklärung dafür, warum wir niedrigdimensionale Gitter brauchen, um die Neigung der Klienten anzusprechen. Ein Klient gab dem Film Symbol, Gravitation und Einweihung großartige Bewertungen. Das sind nicht wirklich drei verschiedene Vermutungen, sondern sie deuten eher darauf hin, dass dieser Klient Science-Fiction-Filme unterstützen könnte und dass es noch viel mehr Science-Fiction-Filme geben könnte, die dieser Klient sich wünschen würde. Im Gegensatz zu expliziten Filmen werden träge Höhepunkte durch signifikantere Niveaumerkmale vermittelt, und die Science-Fiction-Klasse ist einer der untätigen Höhepunkte für diese Situation. Was uns die Gitterfaktorisierung am Ende gibt, ist, wie viele inaktive Glanzlichter ein Klient in einer Reihe mit vielen inaktiven Glanzlichtern angeordnet ist und wie sehr ein Film in diese Anordnung inaktiver Glanzlichter passt. Der Vorteil gegenüber dem Standard in nächster Nachbarschaft besteht darin, dass es trotz der Tatsache, dass zwei Kunden keine gleichwertigen Filme begutachtet haben, noch denkbar ist, die Ähnlichkeit zwischen ihnen zu entdecken, wenn der Zufall es zulässt, dass sie den vergleichbaren Grundgeschmack teilen, wiederum träge Glanzlichter.
Um wahrzunehmen, wie ein Gitter faktorisiert wird, muss man zunächst die Solitary Worth Decomposition (SVD) verstehen. Im Hinblick auf die direkte Polynommathematik kann jedes echte Gitter R in die 3 Netze U, Σ und V zerlegt werden. Unter Verwendung des Kinofilmmodells ist U ein n × r Client Idle-Element-Netzwerk, V ist ein m × r Kinofilm-Inert-Element-Rahmenwerk. Σ ist ein r × r schräggestelltes Rahmenwerk, das die Einzelschätzungen eines eindeutigen Netzwerks enthält, was gerade zeigt, wie wichtig ein bestimmtes Element ist, um die Neigung des Kunden vorauszusehen.

Um die Schätzungen von Σ zu sortieren, indem wir die Gesamtschätzung verringern und das Netz Σ auf die ersten k Messungen (k solitäre Qualitäten) kürzen, können wir das Gitter als Rahmen A neu erstellen. Die Bestimmung von k sollte sicherstellen, dass A die große Mehrheit der Fluktuation innerhalb des ersten Rahmens R auffangen kann, so dass An die Schätzung von R ist, A ≈ R. Der Kontrast zwischen An und R ist der Fehler, der begrenzt werden muss. Dies ist eigentlich die Idee der Guideline Part Investigation.

An dem Punkt, an dem das Gitter R dick ist, könnten U und V diagnostisch effektiv faktorisiert werden. Wie dem auch sei, ein Netzwerk von Filmgutachten ist zu unzulänglich. Trotz der Tatsache, dass es einige Zuschreibungsstrategien gibt, um fehlende Qualitäten auszufüllen, werden wir zu einem programmatischen Weg übergehen, um einfach mit diesen fehlenden Qualitäten zu leben und Faktorennetzwerke U und V zu entdecken. Anstatt R mittels SVD zu faktorisieren, versuchen wir, U und V auf legitime Weise zu entdecken, mit dem Ziel, dass, wenn U und V wieder zusammenwachsen, das Ertragsgitter R’ die nächste Schätzung von R und nicht mehr ein spärliches Netzwerk ist. Diese numerische Schätzung wird typischerweise mit der Nicht-Negativ-Gitterfaktorisierung für Recommender-Rahmenwerke durchgeführt, da es keine negativen Eigenschaften in den Bewertungen gibt.
Siehe untenstehendes Rezept. Wenn man einen Blick auf die erwartete Bewertung für den expliziten Klienten und das Ding wirft, wird das Ding I als Vektor qᵢ und der Klient u als Vektor pᵤ notiert, mit dem Endziel, dass das Fleckenergebnis dieser beiden Vektoren die erwartete Bewertung für den Klienten u auf dem Ding I ist. Dieser Wert wird im Rahmen R’ bei Push u und Segment I dargestellt.

Wie finden wir optimale qᵢ und pᵤ? Wie bei den meisten Aufgaben des maschinellen Lernens wird eine Verlustfunktion definiert, um die Kosten von Fehlern zu minimieren.

rᵤᵢ ist die echte Bewertung von unique client thing network. Der Fortschrittsprozess besteht darin, das ideale Gitter P, das durch den Vektor pᵤ erstellt wurde, und das Netzwerk Q, das durch den Vektor qᵢ erstellt wurde, ausfindig zu machen, um den ganzen quadratischen Schnitzer zwischen den erwarteten Bewertungen rᵤᵢ’ und den echten Bewertungen rᵤᵢ zu begrenzen. Ebenso wurde die Regularisierung L2 hinzugefügt, um einer Überanpassung der Kunden- und Dingvektoren entgegenzuwirken. Es ist ebenfalls sehr regelmäßig, einen Prädispositionsbegriff aufzunehmen, der zum größten Teil drei signifikante Segmente aufweist: normale Bewertung aller Dinge μ, normale Bewertung von Ding I weniger μ (notiert als bᵤ), normale Bewertung durch den Kunden u weniger u (notiert als bᵢ).
