Что такое корреляция и причинно-следственная связь, и как они необычны?

Как минимум два фактора, рассматриваемых как взаимосвязанные, в фактической ситуации, если их качества меняются так, что по мере увеличения или уменьшения оценки одной переменной увеличивается или уменьшается оценка другой переменной (несмотря на то, что это может быть и наоборот).

Например, для двух факторов “отработанные часы” и “заработанная зарплата” существует связь между ними, если расширение отработанных часов связано с повышением заработанной зарплаты. В случае, если мы рассмотрим эти два фактора “стоимость” и “получение власти”, поскольку стоимость товара расширяет возможности человека приобретать эти товары, уменьшается (ожидая стабильной оплаты труда).

Корреляция – это фактическая мера (сообщенная в виде числа), которая отражает размер и несущую связь между, по крайней мере, двумя факторами. Связь между факторами, в любом случае, не означает, что корректировка в одной переменной является причиной корректировки в оценках другой переменной.

Причина показывает, что один случай является следствием события другого случая; например, между двумя случаями существует причинно-следственная связь. Это также упоминается как обстоятельства и логические результаты.

Гипотетически, различие между этими двумя типами связей является чем угодно, но трудно различимым – какое-либо действие или событие может вызвать другое (например, курение вызывает расширение опасности возникновения злокачественных опухолей в легких), или может быть связано с другим (например, курение связано с злоупотреблением алкоголем, но не вызывает пристрастия к нему). На практике, как бы то ни было, трудно безошибочно выстроить обстоятельства и логические результаты, противопоставляя и устанавливая отношения.

По какой причине важны корреляция и причинно-следственная связь?

Целью многих исследований или логических изысканий является разграничение степени, в которой одна переменная идентифицируется с другой. Например:

Существует ли связь между уровнем подготовки человека и его благосостоянием?

Связано ли владение домашними животными с более длительной жизнью?

Увеличили ли усилия организации по продвижению товаров?

Эти и другие вопросы исследуют, существует ли связь между этими двумя факторами, и, исходя из вероятности того, что эта связь существует, в этот момент это может контролировать дальнейшее изучение вопроса о том, является ли одна деятельность причиной другой. Получая связь и причинно-следственную связь, он рассматривает механизмы и проекты, которые планируют достичь идеального результата, чтобы быть лучше сфокусированными на них.

Как оценивается связь?

Для двух факторов фактическая связь оценивается использованием коэффициента связи, с которым говорит изображение (r), которое является одиночным числом, отображающим уровень связи между двумя факторами.

Числовая величина коэффициента составляет от +1,0 до – 1,0, что свидетельствует о качестве и ходе связи.

На случай, если коэффициент корреляции имеет отрицательную величину (ниже 0), он демонстрирует отрицательную связь между факторами. Это означает, что факторы движутся обратными путями (т.е. когда выстраиваются различные сокращения, или когда выстраиваются различные приращения).

Если коэффициент корреляции имеет положительное значение (более 0), то это свидетельствует о наличии положительной связи между факторами, что означает, что два фактора движутся парой, например, когда одна переменная дополнительно уменьшает другую, или когда одна переменная строит другую с таким же приращением.

Если коэффициент связи равен 0, то это свидетельствует об отсутствии связи между факторами (одна переменная может оставаться устойчивой при различных приростах или убывании).

Коэффициент связи является полезной мерой, но имеет свои ограничения:

Коэффициенты связи обычно связаны с оценкой прямой связи.

Например, если анализировать отработанные часы и платить за них трейдеру, который берет почасовую ставку за свою работу, то существует прямая (или прямая) связь, так как с каждым отработанным дополнительным часом зарплата будет увеличиваться на достоверную сумму.

Если предположить, что в любом случае трейдер взимает плату в зависимости от того, как он избавился от расходов и от почасовой оплаты, что логически уменьшает количество отработанных часов, то связь между отработанными часами и зарплатой будет не прямая, где коэффициент зависимости может быть больше, чем 0.

Необходимо соблюдать осторожность при переводе оценки “r”. Можно предположить, что связи между многочисленными факторами, так или иначе, связи могут быть обусловлены различными факторами и не имеют никакого отношения к рассматриваемым двум факторам.

Например, предложения замороженных йогуртов и солнцезащитного крема могут увеличиваться и уменьшаться в течение года, но эта связь может быть связана с последствиями периода (т.е. больше курящего климата видит увеличение числа людей, носящих солнцезащитный крем так же, как едят десерт), а не с какой-либо непосредственной связью между предложениями солнцезащитного крема и замороженного йогурта.

Коэффициент связи не должен использоваться, чтобы сказать что-либо об обстоятельствах и логической связи результатов. Глядя на оценку ‘r’, можно сделать вывод, что два фактора взаимосвязаны, но оценка ‘r’ не позволяет понять, была ли одна переменная причиной корректировки в другой.

Каким образом можно было бы установить причину?

Причинно-следственная связь – это территория представлений, которые обычно неправильно истолковываются и злоупотребляются отдельными лицами, находящимися в смешанном убеждении, что на том основании, что информация показывает связь, в основе которой лежит скрытая причинно-следственная связь.

Использование контролируемого отчета является наилучшим методом установления причинно-следственной связи между факторами. В контролируемом отчете пример или население является частью двух, причем эти два собрания практически во всех отношениях эквивалентны. На этих двух собраниях в этот момент получают различные лекарства, и результаты каждого собрания оцениваются.

Например, в терапевтических исследованиях одно собрание может получить фальшивое лечение, в то время как другому собранию выдается другой вид рецепта. В случае, если эти два собрания дают ощутимые результаты, различные встречи могут привести к различным результатам.

По моральным соображениям, есть основания ограничить использование контролируемых исследований; нецелесообразно использовать два равнозначных собрания и заставлять одно из них переживать разрушительное движение, в то время как другое – нет. Для победы над этим обстоятельством часто используются наблюдательные исследования для изучения связи и причинно-следственных связей по количеству интригующих жителей. Обследование позволяет взглянуть на практику и результаты собраний и через некоторое время наблюдать за их ходом.

Цель этих обследований – дать измеримые данные, чтобы добавить к различным источникам данных, которые потребуются для того, чтобы установить, существует ли причинно-следственная связь между двумя факторами.

https://miro.medium.com/max/652/1*mM089Lta5X6zkUkULcO9aA.png

https://miro.medium.com/max/862/1*mTRUakSIWmo9OX6D2HakWQ.png

В то время как разные люди могут иметь разные исходные данные при оценке, в целом несколько человек будут давать высокие оценки, некоторые действительно требовательны, несмотря на то, что они довольны происходящим. Чтобы уклониться от этого наклонения, мы можем вычесть нормальный рейтинг каждого клиента при регистрации нормального веса, и вернуть его обратно к целевому клиенту, оказавшемуся внизу.

https://miro.medium.com/max/902/1*gLbwJts3g_v2TbPRhFoNfA.png

Два способа вычисления сходства – корреляция Пирсона и косинусное сходство.

https://miro.medium.com/max/1130/1*Xvf2o6kE4VCuueMPikxZ_A.png

https://miro.medium.com/max/1013/1*6HISTi8SjbD2VHicoZwKpA.png

По сути, мысль заключается в том, чтобы найти наиболее сравнимых клиентов с вашим объективным клиентом (ближайшими соседями) и взвешивать их оценки вещи как прогноз рейтинга этой вещи для целевого клиента.

Не зная ничего о вещах и о самих клиентах, мы считаем, что два клиента сравнительны, когда они дают сходную вещь сравнительные оценки. Сравнительно, для CF, основанного на вещи, мы утверждаем, что две вещи сравнимы, когда они получают сравнительные оценки от эквивалентного клиента. В этот момент мы ожидаем объективного клиента от вещи, установив взвешенную норму оценок по большинству X сопоставимых вещей от этого клиента. Одним из ключевых моментов в работе CF, основанного на вещи, является то, что оценки по данной вещи не будут меняться существенно в течение дополнительного времени, в отличие от ароматов отдельных людей.

https://miro.medium.com/max/737/1*dPzd5-dScFplypBGeSwgUw.png

Эта техника имеет множество ограничений. Она плохо справляется со скудностью, когда никто в этой области не оценил то, что вы пытаетесь предугадать для целевого клиента. Точно так же, это не вычислительная техника, а разработка количества клиентов и предметов.

Рамочная Факторизация

Поскольку спарсивность и универсальность являются двумя самыми большими трудностями для стандартной CF-стратегии, речь идет о дальнейшей разработке методики, которая разбивает первую неадекватную сеть на низкоразмерные решетки с неактивными переменными/высокими яркостями и меньшей спарсивностью. Это и есть Факторизация Решетки.

Рядом с возникающими проблемами спарсивности и универсальности есть естественное объяснение того, зачем нужны низкоразмерные решетки, чтобы говорить о наклоне клиентов. Клиент дал отличные оценки движению картины Символ, Гравитация и Инициация. На самом деле это не 3 отдельных предположения, а скорее указание на то, что этот клиент может поддерживать научно-фантастический фильм, и может быть гораздо больше научно-фантастических фильмов, которые захочет этот клиент. В отличие от эксплицитных фильмов, инертные блики передаются более значимыми чертами уровня, и класс научной фантастики является одним из простаивающих бликов в этой ситуации. В конце концов, решетчатая факторизация дает нам представление о том, как много инертных бликов выстраивается в линию у клиента, и как много фильм вписывается в эту схему неактивных бликов. Преимущество этого в сравнении со стандартными ближайшими соседями заключается в том, что, несмотря на то, что два клиента не оценили ни одной равноценной пленки, пока еще можно обнаружить сходство между ними на случай, если они разделяют сопоставимые основные вкусы, опять же инертные блики.

https://miro.medium.com/max/853/1*EkKGqn-vM0OLbOkkdqT_xg.png

Для восприятия того, как решётка факторизуется, первое, что нужно понять, это Разложение по одиночному достоинству (SVD). В связи с прямой полиномиальной математикой, любая настоящая сетка R может быть распадана на 3 сети U, Σ, и V. Продолжая использовать кинематографическую модель, U является n × r клиентской сетью простаивающих элементов, V является m × r каркасом инертных элементов кинематографического изображения. Σ – это наклонный каркас r × r, содержащий одиночные оценки уникальной сети, и говорящий только о том, насколько существенным является определенный элемент для предвидения наклона клиента.

Чтобы отсортировать оценки Σ по уменьшению общего уважения и усеченной сети Σ до первых k измерений( k одиночных качеств), можно переделать сетку в каркас A. Определение k должно гарантировать, что A сможет улавливать подавляющее большинство флуктуаций внутри первого каркаса R, так что An – это оценка R, A ≈ R. Контраст между An и R – это ошибка, которую необходимо ограничить. На самом деле, такова идея исследования части руководства

https://miro.medium.com/max/753/1*4gP81YRmt5gsixQL0MZuaw.png

В точке, когда сетка R толстая, U и V могут быть эффективно учтены диагностически. Как бы то ни было, сеть оценок кинокартин слишком неадекватна. Несмотря на тот факт, что существуют некоторые стратегии рецептуры для заполнения недостающих качеств, мы перейдем к программированию, чтобы просто жить с этими недостающими качествами и обнаружить факторные сети U и V. Вместо того, чтобы факторизовать R с помощью SVD, мы пытаемся обнаружить U и V законно с целью, что когда U и V увеличились обратно вместе, решетка доходности R’ является ближайшей оценкой R и больше не является скудной сетью. Эта численная оценка обычно выполняется с помощью Неотрицательного коэффициента решетки для рекомендующих рамок, так как в оценках нет отрицательных качеств.

См. рецепт ниже. Взглянув на ожидаемый рейтинг для конкретного клиента и вещи, я отмечаюсь как вектор qᵢ, а клиент u отмечается как вектор pᵤ с конечной целью, что спектральным результатом этих двух векторов является ожидаемый рейтинг для клиента u на вещи I. Эта ценность выставлена в фреймворке R’ на push u и сегменте I

https://miro.medium.com/max/828/1*3jQ5kqtSftR_SvgABjMoCw.png

Как мы найдем оптимальный сайт qᵢ и pᵤ? Как и в большинстве задач машинного обучения, функция потерь определяется для минимизации стоимости ошибок.

https://miro.medium.com/max/1483/1*ycP7NKolvbjfyS_8hDB00Q.png

https://miro.medium.com/max/976/1*_QSX-UktbtY8AWTixYJfBQ.png

rᵤᵢ – это подлинные оценки из уникальной сети клиентских вещей. Процесс продвижения заключается в том, чтобы найти идеальную сетку P, созданную векторной pᵤ, и сеть Q, созданную векторной qᵢ, чтобы ограничить весь квадратный промах между ожидаемыми оценками rᵤᵢ’ и подлинными оценками rᵤᵢ. Точно так же была добавлена регуляризация L2, чтобы противодействовать переподбору клиентских и вещевых векторов. Также очень регулярно включается срок предрасположенности, который по большей части имеет 3 значительных сегмента: нормальный рейтинг всех вещей μ, нормальный рейтинг вещей I less μ (отмечен как bᵤ), нормальный рейтинг, присвоенный клиентом u less u (отмечен как bᵢ).