Метод k-средних (K-means clustering)

K означает, что кластеризация – это форма неконтролируемого обучения. Ученые-данные используют его, когда у них есть много немаркированных данных (любая информация без определенных групп или категорий.) K означает, что цель кластеризации является поиск данных для различных групп. Алфавитная переменная “К” должна представлять каждую группу. В отличие от нескольких алгоритмов, этот алгоритм работает многократно, присваивая каждую точку данных группе “К” с учетом особенностей, имеющихся в ее распоряжении.
Точки данных становятся кластеризованными на основании сходства их признаков. Приведем некоторые результаты алгоритма кластеризации средств К:
Вместо того, чтобы определять группы перед изучением данных, этот алгоритм позволяет искать и понимать органически сформированные группы. В этой статье Вы найдете раздел “Выбор К”. В нем описывается, как можно определить количество групп.
Центроид каждого кластера представляет собой набор значений, определяющих результирующие группы. Анализ функции центроида может помочь интерпретировать тип группы, представленной каждым кластером.
Ученые, занимающиеся данными, используют алгоритм кластеризации К для выявления групп, которым недостает маркировки данных. Процедура помогает подтвердить различные связанные с бизнесом предположения относительно типов существующих групп. Его также можно использовать для выявления неизвестных групп из сложных массивов данных. После того, как алгоритм завершит свой процесс и определит группу, вы сможете легко назначить новые данные соответствующей группе. K означает, что кластеризация является очень универсальным алгоритмом, который помогает практически каждому типу группировки. Приведем несколько примеров:
K означает, что алгоритм кластеризации дает конечный результат при использовании методов итеративного уточнения. Набор данных и количество кластеров являются входными данными алгоритма. Кроме того, набор данных представляет собой группу характеристик для каждой точки данных. Как обсуждалось ранее, алгоритм начинается с первоначальных оценок Кентроида. Они могут быть выбраны случайным образом или сгенерированы случайным образом из набора. Затем алгоритм повторяет следующие шаги.
Каждый центроид определяет кластер. В этой процедуре каждой точке данных отводится ближайший к ней центроид, оболочка которого находится на евклидовом расстоянии.
Алгоритм пересчитывает центроиды на этом этапе. Он делает это, собирая среднее значение каждой точки данных, выделенной для кластера центроидов.
Алгоритм повторяет шаги один и два до выполнения критерия остановки. К означает, что алгоритмы кластеризации гарантируют точные результаты. Однако иногда полученный результат может быть не самым желательным. Анализ нескольких алгоритмов со случайно стартующими центроидами может дать лучший результат.
K означает, что основной целью кластеризации является поиск меток набора данных и кластеров для определенных предварительно выбранных Ks. Таким образом, пользователи должны запустить этот алгоритм для широкого диапазона значений K и анализировать каждый результат бок о бок, чтобы определить количество кластеров данных. Нет конкретного метода для определения точного значения Ks. Тем не менее, вы все еще можете получить точные оценки с помощью методов, упомянутых ниже.
Кроме того, популярной метрикой, обычно используемой для сравнения результатов по многочисленным значениям К, является среднее расстояние в середине центроида кластера и его точек данных. Так как увеличение кластеров минимизирует расстояние между точками данных, увеличение числа кластеров каждый раз будет уменьшать расстояние между точками данных. Расширение K уменьшит метрику и может сделать ее равной нулю до тех пор, пока K будет соответствовать количеству точек данных.
Таким образом, вы не можете использовать эту метрику как единственную цель. В качестве альтернативы можно построить среднее расстояние центроида как функцию K, где скорость уменьшения резко смещается. Это может дать вам приблизительный ответ на К. Множество других методов может помочь вам проверить К. Вот список некоторых популярных методов, используемых опытными учеными-дановедами.
Кроме того, наблюдение за распределением точек данных по различным группам дает ценное представление о том, как алгоритм разделяет данные для Ks.
Функциональный инжиниринг – это процесс, в котором вы используете знания в области для выбора точных метрик данных. Люди используют функциональное проектирование для определения правильных метрик в алгоритмах машинного обучения. Было бы справедливо утверждать, что этот инженерный тип играет важную роль в алгоритме кластеризации K-значений. Он помогает различать наборы естественного происхождения без особых хлопот.
Категорические данные, такие как типы браузеров, страны, пол должны быть разделены или закодированы таким образом, чтобы хорошо сочетаться с алгоритмом. Преобразования функций особенно полезны для представления скоростей, а не измерений. Это очень полезно для нормализации данных.
K означает, что кластеризация становится все более популярной в различных отраслях промышленности. Вот несколько популярных реальных приложений этого революционного алгоритма.
Кластеризация весьма выгодна для двигателей рекомендации. Вы можете воспользоваться этим алгоритмом и рекомендовать песни или фильмы своим друзьям, основываясь на их предпочтениях.
K означает, что кластеризация отлично подходит для сегментации фотографий. Иллюстрационные и редактирующие программы могут воспользоваться атрибутами сегментации изображений этого алгоритма.
Кластеризация поможет вам сгруппировать многочисленные документы в кратчайшие сроки. Это особенно полезно для людей, владеющих несколькими документами, содержащими разные сведения.
Во многих отраслях промышленности для рационализации процессов в кластеризации используются качества клиентского сегмента K. Продажи, реклама, спорт, электронная коммерция, банковское дело и телекоммуникации – вот некоторые области, которые используют этот алгоритм.