История прогностического анализа и текущий прогресс

Несмотря на то, что прогностический анализ существует уже несколько десятилетий, это технология, время которой пришло. Все больше и больше организаций обращаются к прогностическому анализу для увеличения своей прибыли и повышения конкурентоспособности. Почему сейчас?

Объемы и типы данных растут, и растет интерес к использованию данных для получения ценных знаний.

Более быстрые и дешевые компьютеры.

Проще использовать программное обеспечение.

Более жесткие экономические условия и необходимость конкурентной дифференциации.

С ростом популярности интерактивного и простого в использовании программного обеспечения прогнозный анализ перестал быть только сферой деятельности математиков и статистиков. Бизнес-аналитики и специалисты в области бизнеса также используют эти технологии.

Почему предиктивный анализ важен?

Организации обращаются к прогностическому анализу, чтобы помочь решить сложные проблемы и открыть новые возможности. К общим видам использования относятся:

Обнаружение случаев мошенничества. Сочетание нескольких методов анализа может улучшить обнаружение закономерностей и предотвратить преступное поведение. В условиях, когда кибербезопасность становится все более серьезной проблемой, при анализе поведения на основе производительности все действия в сети анализируются в режиме реального времени с целью выявления аномалий, которые могут свидетельствовать о мошенничестве, уязвимостях “нулевого дня” и современных постоянных угрозах.

Оптимизация маркетинговых кампаний. Прогнозный анализ используется для определения реакции клиентов или покупок, а также для продвижения возможностей перекрестных продаж. Прогнозные модели помогают компаниям привлекать, удерживать и выращивать более прибыльных клиентов.

Улучшение операций. Многие компании используют прогнозные модели для прогнозирования запасов и управления активами. Авиакомпании используют прогнозный анализ для установления цен на билеты. Отели пытаются предсказать количество гостей за ночь, чтобы максимизировать заполняемость и увеличить доход. Прогнозный анализ позволяет организациям функционировать более эффективно.

Уменьшите риск. Кредитные оценки используются для оценки вероятности невыполнения покупателем своих обязательств по покупкам и являются известным примером прогностического анализа. Кредитная оценка – это число, генерируемое прогностической моделью, которая включает в себя все данные, относящиеся к кредитоспособности человека. К другим видам использования, связанным с риском, относятся страховые иски и сборы.

Кто его использует?

Любая отрасль может использовать прогностический анализ для снижения риска, оптимизации операций и увеличения доходов. Вот несколько примеров.

Банковские и финансовые услуги

Финансовая отрасль, на карту которой поставлены огромные объемы данных и денег, уже давно использует прогностический анализ для выявления и снижения уровня мошенничества, измерения кредитного риска, максимизации возможностей перекрестных продаж/вспомогательных продаж и удержания ценных клиентов. Банк Содружества использует аналитику для прогнозирования вероятности мошеннической деятельности по любой операции до ее санкционирования – в течение 40 миллисекунд с момента ее начала.

Розничная торговля

Начиная с печально известного исследования, которое показало, что мужчины, покупающие подгузники, часто покупают пиво одновременно, розничные компании по всему миру используют прогнозный анализ для планирования товаров и оптимизации цен, для анализа эффективности рекламных акций и определения того, какие предложения лучше всего подходят потребителям. Компания Staples получила представление о покупателях благодаря анализу их поведения, предоставлению полной картины о покупателях и достижению показателя рентабельности инвестиций (ROI) на уровне 137 процентов.

Нефть, газ и коммунальные услуги

Будь то прогнозирование отказов оборудования и будущих потребностей в ресурсах, снижение рисков безопасности и надежности или повышение общей производительности, энергетическая отрасль активно использует прогностический анализ. Проект Солт-Ривер является второй по величине государственной энергетической компанией США и одним из крупнейших поставщиков воды в Аризоне. Анализ данных машинных датчиков прогнозирует, когда энергогенерирующие турбины нуждаются в техническом обслуживании.

Правительства и государственный сектор

Правительства играют ключевую роль в развитии информационных технологий. Бюро переписи населения США анализировало данные для понимания тенденций в области народонаселения на протяжении десятилетий. В настоящее время правительства, как и многие другие отрасли, используют прогностический анализ для улучшения обслуживания и производительности, выявления и предотвращения мошенничества, а также для лучшего понимания поведения потребителей. Они также используют прогностический анализ для улучшения информационной безопасности.

Как это работает

В прогнозных моделях используются известные результаты для разработки (или обучения) модели, которая может быть использована для прогнозирования значений для различных или новых данных. Моделирование дает результаты в виде прогнозов, которые представляют вероятность целевой переменной (например, доходов), основанной на оценочной значимости набора входных переменных.

Это отличается от описательных моделей, которые помогают понять, что произошло, или диагностических моделей, которые помогают понять ключевые взаимосвязи и определить, почему что-то произошло. Целые книги посвящены аналитическим методам и приемам. В комплексных университетских программах эта тема подробно изучается. Но для начала, вот некоторые основы.

Существует два типа прогностических моделей. Классификационные модели предполагают принадлежность к классу. Например, они пытаются классифицировать, будет ли кто-то, скорее всего, уходить, будет ли он реагировать на просьбы, является ли это хорошим или плохим кредитным риском и т. д. Обычно, результаты модели в форме 0 или 1, и 1 является целевым событием. Регрессивные модели предсказывают число – например, сколько клиент будет генерировать в следующем году или количество месяцев до того, как компонент выйдет из строя на машине.

Наиболее часто используемыми методами прогностического моделирования являются деревья решений, регрессия и нейронные сети.

Деревья решений представляют собой классификационные модели, которые подразделяют данные на подмножества на основе категорий входных переменных. Это помогает понять путь чьих-либо решений. Дерево решений представлено в виде дерева, каждая ветвь которого представляет собой выбор между набором альтернатив и каждым листом, представляющим классификацию или решение. Оно смотрит на данные и пытается найти единственную переменную, которая разделяет данные на наиболее разнообразные логические группы. Деревья принятия решений популярны, потому что их легко понять и интерпретировать. Они также хорошо справляются с пропущенными значениями и полезны для предварительного выбора переменных. Таким образом, если у вас много пропущенных значений или вы хотите быстро и легко интерпретировать ответ, вы можете начать с дерева.

Регрессия (линейная и логистическая) является одним из самых популярных методов в статистике. Регрессионный анализ оценивает отношения между переменными. Предназначен для непрерывных данных, которые можно предположить, что они следуют нормальному распределению, он находит ключевые закономерности в больших массивах данных и часто используется для определения того, как конкретные факторы, такие как цена, влияют на движение актива. С помощью регрессионного анализа мы хотим предсказать число, называемое реакцией или переменной Y. С помощью линейной регрессии независимая переменная используется для объяснения и/или предсказания результата Y. Кратная регрессия использует две или более независимых переменных для предсказания результата. При логистической регрессии неизвестные переменные дискретной переменной предсказываются на основе известного значения других переменных. Переменная реакции является категоричной, что означает, что она может предполагать только ограниченное число значений. В двоичной логистической регрессии переменная ответа имеет только два значения, например, 0 или 1. Переменная ответа может иметь различные уровни, такие как низкий, средний и высокий, или 1, 2 и 3 в многократной логистической регрессии… Они популярны, потому что являются мощными и гибкими. Мощность исходит от их способности работать с нелинейными отношениями в данных, что становится все более распространенным по мере сбора большего количества данных. Они часто используются для подтверждения результатов простых методов, таких как регрессия и деревья принятия решений. Нейронные сети основаны на распознавании моделей и некоторых процессах ИА, которые графически “моделируют” параметры. Они хорошо работают, когда нет известных математических формул, связывающих входы и выходы, прогнозирование более важно, чем объяснение, или имеется много данных, полученных в ходе обучения. Искусственные нейронные сети были изначально разработаны исследователями, которые стремились имитировать нейрофизиологию человеческого мозга.

Другие популярные методы, о которых вы можете услышать

Байесовский анализ. Байесовские методы рассматривают параметры как случайные переменные и определяют вероятность как “степень веры” (т.е. вероятность события – это степень, в которой событие считается истинным). Выполняя байесовский анализ, вы начинаете с предыдущего убеждения относительно распределения вероятности неизвестного параметра. После того, как вы узнаете информацию из имеющихся у вас данных, измените или обновите ваше убеждение относительно неизвестного параметра.

Соберите модели. Модели ансамбля создаются путем обучения нескольких аналогичных моделей и объединения их результатов для повышения точности, уменьшения искажений, снижения дисперсии и определения наилучшей модели для использования с новыми данными.

Увеличение градиента. Это ускоряющий подход, при котором повторная выборка набора данных выполняется несколько раз для получения результатов, которые формируют средневзвешенную величину повторной выборки. Как и в случае деревьев принятия решений, при увеличении градиента не делается никаких предположений о распределении данных. Ускорение менее склонно к избыточному размеру данных, чем одно дерево решений, и если дерево решений достаточно хорошо вписывается в данные, то ускорение часто улучшает подгонку. (Переподстановка данных означает, что вы используете слишком много переменных, а модель слишком сложна. Недостаточная подгонка означает обратное: переменных не хватает, а модель слишком проста. И то, и другое снижает точность прогнозирования).

Инкрементальная реакция (также называемая моделью подъема или моделью чистого подъема). Эти модели представляют собой изменение вероятности, вызванное действием. Они широко используются для уменьшения оттока и обнаружения эффектов различных маркетинговых программ.

K- Ближайший к (knn). Это непараметрический метод классификации и регрессии, который включает в себя значения принадлежности к объекту или классу, основанные на k-кратчайших учебных примерах.

Рассуждения на основе памяти. Аргументация на основе памяти – это метод классификации или прогнозирования наблюдений, основанный на k-крайних соседях.

Минимальные квадратичные числа. Этот гибкий статистический метод может быть применен к данным любой формы. Она моделирует отношения между входами и выходами, даже если входы связаны и шумны, есть больше выходов или больше входов, чем наблюдений. Метод частичных наименьших квадратов ищет факторы, объясняющие как вариации отклика, так и вариации предиктора.

Анализ основных компонентов. Целью анализа основных компонент является получение небольшого числа независимых линейных комбинаций (основных компонент) набора переменных, которые сохраняют как можно больше информации в исходных переменных.

Векторная машинная поддержка. В данной методике обучения на машине под наблюдением специалистов используются соответствующие алгоритмы обучения для анализа данных и распознавания закономерностей. Он может использоваться как для классификации, так и для регрессии.

Поиск данных временных рядов. Анализ данных временных рядов производится по времени и собирается в течение определенного интервала времени (продажи за месяц, звонки в день, посещения Интернета в час и т.д.). Анализ данных временных рядов сочетает в себе традиционные методы анализа и прогнозирования данных. Методы интеллектуального анализа данных, такие как выборка, кластеризация и деревья принятия решений, применяются к данным, собранным с течением времени с целью улучшения прогнозирования.