Перекрестная проверка помогает в оценке моделей машинного обучения. Этот статистический метод помогает в сравнении и выборе модели в прикладном машинном обучении. Понимание и реализация этой задачи прогностического моделирования проста и понятна. Этот метод имеет меньший уклон при оценке навыков модели. Эта статья поможет вам понять концепцию k-кратного перекрестного тестирования и то, как вы можете оценить модель обучения машины с помощью этой методики.
K-кратная перекрестная проверка
К-кратное перекрестное подтверждение означает, что набор данных разбивается на К-значение. Он разделяет набор данных в точке, где тестовый набор использует каждый сгиб. Рассмотрим эту концепцию с помощью 5-кратной перекрестной проверки или K+5. В этом сценарии метод разбивает набор данных на пять складок. Для тестирования модели используется первая складка в первой итерации. Остальные наборы данных используются для обучения модели. Вторая складка помогает в тестировании набора данных и другой поддержке учебного процесса. Тот же самый процесс повторяется до тех пор, пока тестовый набор не использует каждый сгиб из пяти складок.
K-складная перекрестная проверка в машинном обучении
Наряду с многочисленными преимуществами алгоритмов машинного обучения, модель следует той же модели для прогнозирования и генерации данных дискретных или непрерывных значений. Важно обеспечить точность данных модели, не допуская недогонки или переподгонки. Недооснащение и переоснащение являются двумя основными концепциями машинного обучения. Эти термины определяют, насколько хорошо модель подготовлена к прогнозированию данных. Для проверки производительности и поведения алгоритма, переподготовка включает в себя значение Гиперпараметра.
-Переподготовка в машинном обучении
Модель может генерировать точные прогнозы с новыми данными, когда модель идеально подходит к набору данных. Соответствующий алгоритм для обученного набора данных может помочь в обучении новому набору данных. Более того, если модель машинного обучения опирается на неподходящий учебный процесс, то она не будет генерировать точных данных или адекватных прогнозов. Поэтому модель не сможет обрабатывать важные модели из наборов данных.
Когда модель останавливается во время тренировочного процесса, это приводит к недооснащению. Это указывает на то, что данные требуют больше времени для полной обработки. Это повлияет на производительность модели для новых данных. Модель не даст точных результатов и будет бесполезна.
-Переоснащение в машинном обучении
Переоснащение просто противоположно переоснащению. Это означает, что кроме изучения данных и извлечения модели, модель учится больше, чем ее возможности. Это условие указывает на то, что данные будут улавливать шум, что приводит к обобщению модели для новых данных. Шум – это иррелевантные данные, которые влияют на результат предсказания при столкновении с новыми данными.
Оценка модели ML с помощью K-кратной перекрестной проверки.
Ниже мы оценим простую регрессионную модель с помощью метода перекрестной проверки в К-кратном размере. В данном примере мы выполним 10-кратное перекрестное подтверждение.
1. Импорт библиотек
Первым шагом является импорт всех библиотек, необходимых для выполнения этой перекрестной проверки на простой модели машинного обучения.
импорт панд
из sklearn.model_selection import KFold
Из импорта препроцессинга sklearn.preprocessing MinMaxScaler
от sklearn.svm импорт SVR
импорт NumPy как np
Эти библиотеки помогут выполнять различные задачи:
– Numpy-Helps вам для выполнения научных вычислений
– Pandas -Helpsyouto легко манипулирует структурой данных.
– Sklearn – это компьютерная обучающая библиотека, которую вы можете использовать для питона.
2.чтение набора данных
Теперь вы прочтете набор данных, который вы будете использовать. Мы используем панды для структурирования фрейма данных.
dataset = pandas.read_csv(‘housing.csv’)
3.предварительная обработка
Определите выходные переменные и особенности нашего набора данных.
X = dataset.iloc[:, [0, 12]].
y = dataset.iloc[:, 13]
В соответствии с приведенным выше кодом, все строки от 0 до 12 являются признаками, а индекс 13 в столбце является зависимой переменной или выводом модели. Теперь можно применить технику препроцессирования. Этот метод масштабирования MinMax нормализует набор данных.
Скалер = MinMaxScaler(feature_range=(0, 1))
X = scaler.fit_transform(X)
С помощью этой методики можно повторно масштабировать данные в определенном диапазоне. В этом примере диапазон будет от 0 до 1. Это поможет нам понять, что различные особенности не повлияют на окончательный прогноз.
4.K-Fold CV
Теперь мы начнем процесс проверки со следующими кодами:
баллы = []
best_svr = SVR(kernel=’rbf’)
cv = KFold(n_splits=10, random_state=42, shuffle=False)
для train_index, test_index в cv.split(X):
print(“Train Index: “, train_index, “\n”)
print(“Test Index: “, test_index)
X_train, X_test, y_train, y_test = X[train_index], X[test_index], y[train_index], y[test_index].
best_svr.fit(X_train, y_train)
scores.append(best_svr.score(X_test, y_test))).
Заключение
К-кратная перекрестная проверка улучшает модель путем проверки данных. Эта методика гарантирует, что оценка модели не относится к методике, которую мы используем для выбора теста или набора тренировочных данных. Метод K-кратной перекрестной проверки разделяет набор данных на подмножества в виде числа K. Поэтому он повторяет метод удержания k несколько раз.