Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Снижение размерности

Если вы раньше работали с набором данных с большим количеством ярких моментов, вы можете понять, что это так трудно понять или исследовать связи между яркими моментами. Это усложняет процедуру EDA, а также влияет на представление модели AI, так как вероятность того, что вы перекроете вашу модель или повредите часть подозрений в вычислениях, аналогична автономии светлых участков при прямом рецидиве. Именно в этом месте происходит уменьшение размерности. В ИИ уменьшение размерности – это путь к уменьшению количества нерегулярных факторов, жизнеспособных за счет получения множества факторов головы. Уменьшая компонент пространства элементов, вы имеете меньше связей между светлыми участками, о которых можно эффективно исследовать и представить себе, и, кроме того, вы более неохотно перекрываете вашу модель.

Уменьшение размерности может быть достигнуто в сопутствующих манерах:

Выделите конец: Вы уменьшаете пространство элементов, избавляясь от светлых участков. Это, однако, является тяжелым бременем, так как вы не получаете никаких данных из тех светлых моментов, которые вы уронили.

Выделение яркости: Определение яркости: Вы применяете некоторые фактические тесты, чтобы ранжировать их в соответствии с их значимостью, а затем выбираете подмножество ярких моментов для своей работы. При этом опять же возникает ошибка в данных, и это менее стабильно, так как различные тесты дают различные оценки значимости ярких моментов. Подробнее об этом Вы можете прочитать здесь.

Извлечение ярлыков: Вы делаете новые свободные блики, где каждый новый автономный компонент является смесью каждого из старых автономных бликов. Эти системы могут быть дополнительно разделены на прямые и не-прямые процедуры уменьшения размерности.

Исследование головной части (PCA)

Исследование головной части или РСА – это стратегия извлечения прямых компонентов. Она выполняет прямое отображение информации в низкоразмерное пространство, чтобы увеличить флуктуацию информации в низкоразмерном изображении. Это достигается путем вычисления собственных векторов из ковариационного каркаса. Собственные векторы, которые относятся к наибольшим собственным значениям (главным частям), используются для воссоздания примечательной части разницы первой информации.

Если говорить проще, то PCA консолидирует информацию, включенную в нее с определенной целью, имея в виду, что вы можете пропустить наименее значимый компонент, сохранив при этом наиболее важные фрагменты из всей совокупности основных моментов. Дополнительным преимуществом является то, что каждый из новых основных моментов или сегментов, сделанных после PCA, в целом автономны друг от друга.

t-дисперсионная стохастическая имплантация соседа (t-SNE)

t-дисперсная стохастическая имплантация соседа (t-SNE) – это недисперсная стратегия уменьшения размерности, особенно подходящая для восприятия высокоразмерных наборов данных. Она широко применяется при обработке изображений, NLP, геномной информации и подготовке дискурса. Для наглядности приведем краткую диаграмму работы t-SNE:

Вычисления начинаются с вычисления вероятности близости фокусов в высокоразмерном пространстве и определения вероятности сравнимости фокусов в соответствующем низкоразмерном пространстве. Близость фокусов определяется как условная вероятность того, что точка A выбрала бы точку B в качестве своего соседа, если бы соседи были выбраны по отношению к их толщине вероятности при гауссовом (типичном распространении) фокусе на A.

В этой точке предпринимается попытка ограничить контраст между этими ограничительными вероятностями (или сходствами) в более высоко- и низко-мерном пространстве для идеального отображения информации, которая фокусируется в низко-мерном пространстве.

Для количественной оценки минимизации совокупного различия условной вероятности t-SNE ограничивает суммарное неравенство Куллбек-Лейблера в общей информации сфокусировано на использовании стратегии углового падения.

Обратите внимание, что разница Куллбек-Лейблера или уникальность KL является пропорцией того, как одно рассеяние вероятности меняется в зависимости от второго, ожидаемого присвоения вероятности.

Лица, которые хотят знать точку за точкой, работая над расчетом, могут сослаться на эту экзаменационную работу.

Проще говоря, t-Диссеменированная стохастическая имплантация соседей (t-SNE) ограничивает разницу между двумя присвоениями: передача, измеряющая парные сходства информационных объектов, и циркуляция, измеряющая парные сходства сравнения низкоразмерных фокусов в инсталляции.

Таким образом, t-SNE сопоставляет многомерную информацию с низкоразмерным пространством и пытается обнаружить конструкции в информации, выделяя просматриваемые связки в зависимости от близости информации, которая фокусируется на различных световых моментах. В любом случае, после этой процедуры светлые участки информации больше никогда не будут распознаваться, и Вы не сможете сделать никаких производных зависимыми от выхода t-SNE. Отныне это, по большей части, метод исследования и представления информации.

PCA против t-SNE

Хотя и ППТС, и т-СНЕ имеют свои собственные предпочтения и тяготы, некоторые ключевые контрасты между ППТС и т-СНЕ можно отметить как стремления:

t-SNE является дорогостоящим методом вычислений и может занять несколько часов на миллионах наборов данных, где PCA будет выполнен сразу же или за несколько минут.

PCA является числовой процедурой, однако т-СНЕ является вероятностной.

Прямые вычисления уменьшения размерности, как и PCA, фокусируются на установке уникальной информации, фокусирующейся далеко друг от друга в нижнем изображении измерений. Как бы то ни было, для того, чтобы говорить о высокой измерительной информации на низком измерительном, не прямом комплексе, фундаментально важно, чтобы сравнительная информация фокусировалась рядом друг с другом, что является чем-то, что t-SNE не является PCA.

В некоторых случаях в t-SNE различные прогоны со схожими гиперпараметрами могут давать различные результаты, поэтому перед выполнением любой оценки с t-SNE должны быть видны различные графики, в то время как ситуация с РСА не такова.

Поскольку PCA является прямым вычислением, у него не будет возможности расшифровать сложную полиномиальную связь между светлыми участками, в то время как t-SNE делается для того, чтобы поймать именно это.

Языки

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.