Как специалист по исследованию данных, вы должны понимать, как правильно интерпретировать механизм работы модели. Интерпретация – это важный аспект науки о данных. Каждый раз, когда вы создаете модель с точными и впечатляющими результатами, вы должны знать, как работает ее механизм. Многие люди создают модель с помощью кодирования, но не имеют представления о том, как коды создают модель и заставляют ее работать.

Например, вы создаете модель, которая поможет вам предсказывать цены на акции. Вы замечаете, что цены на акции аномально растут в течение одной ночи. Это может произойти по разным причинам. Поэтому вы можете использовать метод оценки максимального правдоподобия, чтобы найти вероятность возникновения проблемы с наибольшей вероятностью. Многие специалисты из разных областей используют этот инструмент для получения спутниковых снимков, МРТ и многих других.
В этом руководстве вы подробно узнаете о Maximum Likelihood Estimation и о том, как вы можете применить этот инструмент для своей модели. Итак, давайте двигаться дальше.

Оценка максимального правдоподобия

Оценка максимального правдоподобия – это метод статистического решения проблем, связанных с моделью машинного обучения. Он дает вам возможность задавать параметры и максимизировать оценку правдоподобия. С помощью этого метода вы можете предположить выход модели на основе наблюдаемых данных. Приведенное выше определение оценки максимального правдоподобия означает, что для создания модели мы должны:
1. Подготовить модель, которая включает в себя ваши данные. Модель можно назвать процессом генерирования данных.
2. Иметь возможность получить данные из модели и вывести функцию правдоподобия.
После получения функции правдоподобия вы поймете, что максимальное правдоподобие – это простая проблема оптимизации.

Связь с машинным обучением

Прикладное машинное обучение и проблемы оценки плотности напрямую связаны друг с другом. Проблемы, связанные с моделью машинного обучения, можно сформулировать как оценку плотности вероятности. При выборе модели и ее параметров следует обратиться к моделирующей гипотезе h и задачам поиска h, которая лучше всего объясняет данные X.
– P(X; h)
Теперь, чтобы максимизировать функцию правдоподобия, мы должны определить гипотезу моделирования.
– максимизировать L(X; h)
Или мы можем расширить это как:
– maximize sum i to n log(P(xi ; h)).
Следовательно, это позволит оценить плотность вероятности набора данных. Эта техника в основном используется в моделях машинного обучения без надзора. Вы можете использовать оценку максимального правдоподобия для алгоритмов кластеризации.

Оценка максимального правдоподобия и алгоритмы кластеризации

Оценку максимального правдоподобия можно эффективно использовать для моделей машинного обучения под наблюдением. Мы можем применить этот метод для данных, которые включают входные и выходные переменные. Выходными переменными будут числовые значения, а классификация и прогнозирующая регрессионная модель будут включать метку класса.
Оценка максимального правдоподобия – это условная вероятность, оцененная по выходным данным (y), в то время как входными данными являются (X) и гипотеза моделирования (h).
– максимизировать L(y|X; h)
Или мы можем расширить это как:
– maximize sum i to n log(P(yi|xi ; h)).
Когда ваша цель – предсказать y в зависимости от x, вы можете воспользоваться оценкой максимального правдоподобия и оценить условную вероятность по:
P(y|x ; theta)
Большинство моделей с супервизией основаны на этой технике оценивания, что делает ее распространенной. Это означает, что оценка максимального правдоподобия поможет с оценкой плотности и найти супервизорную модель и ее параметры. Таким образом, эта техника работает как основа техники линейного моделирования, например:
– Логистическая регрессия, которая помогает при бинарной классификации
– Линейная регрессия, которая помогает предсказать числовое значение.
В логистической регрессии модель разделяет классы с помощью наборов коэффициентов, определяя их в виде линии. Эту задачу нельзя решить аналитически, только с помощью эффективного алгоритма оптимизации. В качестве примера можно привести алгоритм BFGS или его варианты.
Когда мы рассматриваем линейную регрессию, модель будет включать наборы коэффициентов, определяющих ее как линию. Эту проблему можно решить с помощью аналитических решений, например, используя линейную алгебру.
Основное преимущество оценки максимального правдоподобия в машинном обучении заключается в том, что она улучшает качество модели за счет увеличения размера набора данных и качества оценщика.

Как реализовать оценку максимального правдоподобия в Python

Вы можете упростить процесс, внедрив оценку максимального правдоподобия в свой проект машинного обучения. Для этого можно использовать множество математических методов и подходов. Ниже представлен один из подходов к программированию модели для оценки максимального правдоподобия.

Шаг 1: Импорт библиотек в модель

Импортируйте в модель все следующие библиотеки:
import NumPy as np

import pandas as PD
import matplotlib pyplot as plt
import seaborn as sns
from scipy.optimize import minimize
import scipy.stats as stats

import pymc3 as pm3
import numdifftools as ndt
import statsmodels.api as sm
Теперь импортируем GenericLikelihoodModel из statsmodels.base.model

Шаг 2: Генерация данных

N = 1000
x = np.linspace(0,200,N)
e = np.random.normal(loc = 0.0, scale = 5.0, size = N)
y = 3*x + e

df = pd.DataFrame({‘y’:y, ‘x’:x})
df[‘constant’] = 1

Шаг 3: Визуализация графика

Используйте следующий справочный код для построения графика:
sns.regplot(df.x, df.y)

Шаг 4: Анализ данных

Вы можете проанализировать данные, построив график с помощью линии OLS и доверительных интервалов.

Шаг 5: Моделирование OLS с помощью Statsmodels

Поскольку созданная регрессия представляет собой непрерывные данные, вы можете вычислить Log-вероятность и коэффициенты с помощью sm.OLS.
Разделите признаки и цель
X = df[[[‘constant’, ‘x’]].
Настройте модель и подведите итоги
sm.OLS(y,X).fit().summary()

Заключение

Оценка методом максимального правдоподобия – это уникальная и полезная техника, которая поможет вам оценить параметры набора данных или распределения из набора данных. Вы можете использовать этот инструмент для ограниченной выборки населения или определить средние и дисперсионные значения. В приведенном выше руководстве мы разобрали, что такое оценка максимального правдоподобия и как можно реализовать эту технику на модели машинного обучения.