Понимание случайных лесов
Случайные леса – это метод машинного обучения для классификации алгоритмов. Он состоит из нескольких отдельных деревьев решений, которые опираются на случайные особенности и обучение данным, чтобы достичь разумного предположения, которое имеет больше доверия, чем одно дерево решений. Все деревья решений в случайном лесу являются отдельными моделями. Каждая из них использует подмножество случайных признаков для предсказания цели, и все эти предсказанные цели накапливаются вместе для предсказания более точной цели.
Начиная с деревьев решений
Учитывая, что не все читающие это, возможно, знают жаргон машинного обучения, мы решили разбить эти понятия на непрофессиональные термины. Каждый сознательно или неосознанно пользовался деревьями принятия решений как в академические годы, так и в профессиональной жизни. Понятие подобно блок-схеме, в которой сложные данные или текст разбиваются на простые шаги в виде блок-схемы.
Хотя в дереве решений все не так просто и односторонне, как в блок-схеме, в дереве решений вы начинаете с начальной части и продолжаете создавать узлы между переменными до тех пор, пока не достигнете своей цели. Например, кто-то хочет, чтобы вы предсказали ранг своей любимой футбольной команды на предстоящем турнире. Здесь Вы начнете с начальной вероятности. Но эта начальная вероятность не может быть абсолютным ответом, особенно если в процессе прогнозирования присутствуют предубеждения.
Вы должны будете назвать причины и сгруппировать цифры, чтобы ваша догадка была как можно более правдоподобной.
Первая дисперсия будет вытекать из вашего вопроса, который поможет вам решить, как достичь вашей цели. Каждый вопрос, который вы зададите, создаст дисперсию, за которой последует маршрут “да или нет” или “правда или ложь”, который в конечном итоге добавит ветку в дерево решений. Каждый раз, когда вы берете маршрут, вы должны будете установить связь между знаниями, которые вы приобрели до этой точки. В некотором смысле, все зависит от вашей способности задавать вопросы, которые помогут вам получить наиболее подходящие знания для достижения желаемой цели.
Взаимосвязь между Деревом принятия решений и Случайным лесом
Как уже упоминалось, случайные леса представляют собой скопление нескольких отдельных деревьев принятия решений. Все входящие в него деревья решений используют различные переменные из одного и того же набора данных, хотя все они достигают желаемой цели разными способами. Доверие к этим лесам зависит от того, что никакие два человека не могут достичь цели одним и тем же маршрутом или с помощью одного и того же рассуждения. И даже если некоторые из них похожи, вы всегда можете использовать эти повторяющиеся закономерности в лесу для проб и устранения ошибок.
Например, спортивный аналитик, бывший футболист, спортивный журналист, восторженный болельщик и судья в отставке зададут другой вопрос, чтобы предсказать результат игры. Все они обладают разными навыками, информацией и знаниями об игре, поэтому их методы достижения цели прогнозирования будут разными. Не только их игра знаний, но и их рассуждения, чтобы установить связь между переменными, полученными из их полученных данных, также различны.
Теперь деревья решений всех этих людей создадут модель. В совокупности эта модель является “случайным лесом”. У вас есть все эти индивидуальные прогнозы от нескольких деревьев решений, не связанных между собой, и все они использовали уникальные способы предсказания желаемой цели. Вы можете использовать все эти предсказания, чтобы увеличить точность вашего окончательного предсказания.
Как это работает
Создание случайного леса – это не просто создание резко противоположных переменных или выбор случайных признаков из имеющихся данных. Вы должны обладать чувством отображения данных и умением задавать разумные вопросы, чтобы сделать точную догадку. Машины могут научиться делать это, сохраняя информацию, которую вы им подаёте на протяжении многих лет, но они всё равно не смогут задавать прорывные вопросы, которые возникнут у человека, когда он столкнётся с тупиком в дереве решений.
Чтобы случайный лес заработал, вам нужно собрать несколько деревьев принятия решений. Во всех этих деревьях будут использоваться случайные тренировочные данные, которые помогут установить особенности. Знайте, что особенности – это отношения, которые классификатор выстраивает между данными в машинном обучении, и то, что мы хотим предсказать – это цель.
Преимущества
Ниже перечислены некоторые преимущества случайного леса:
Случайный лес повышает точность вашего прогноза.
Ты используешь мудрость толпы вместо одного человека или машины.
Ни одно из решений, принимаемых в лесу, не соотносится друг с другом.
Заключение
Машинное обучение может иметь несколько сложных понятий и терминов, которые выходят за рамки понимания постороннего человека, но случайный лес – это термин, близкий к своему первоначальному значению. Каждое дерево принятия решений, которое является его частью, является его строительным блоком и действует как ветвь дерева. Соберите вместе несколько деревьев решений, и у вас в руке будет один из самых надежных и точных алгоритмов классификации предсказаний машинного обучения, известный как случайный лес.