Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Вы, наверное, уже знаете, что по мере возможности вы должны принимать на работе решения, основанные на данных. В любом случае, понимаете ли вы, как разобрать большую часть доступной вам информации? К счастью, вам, скорее всего, не нужно самому производить расчеты (слава Богу!), но вы должны эффективно понимать и переводить экзамены, проведенные вашими партнерами.

Чтобы лучше понять эту стратегию и то, как организации ее используют, я поговорил с Томом Редманом (Tom Redman), автором Data Driven: Прибыль от вашего самого важного бизнес-актива. Кроме того, он консультирует ассоциации по их проектам, связанным с информацией и качеством информации.

Что такое регрессионный анализ?

Редман предлагает эту модельную ситуацию: Предположим, что вы руководитель проекта, пытающийся предугадать цифры через месяц. Вы понимаете, что горстка, может быть, даже множество компонентов, начиная от климата и заканчивая продвижением претендента к сплетням о такой же хорошей модели, могут повлиять на число. Может быть, у людей в вашей ассоциации даже есть гипотеза о том, что окажет наибольшее влияние на сделки. “Поверьте мне. Чем больше у нас дождя, тем больше мы продаем.” “Шесть недель после рекламы конкурента, скачок продаж.”

Регрессионный анализ – это способ математической сортировки, какая из этих переменных действительно оказывает влияние. Он дает ответы на вопросы: Какие факторы имеют наибольшее значение? Какие факторы мы можем игнорировать? Как эти факторы взаимодействуют друг с другом? И, возможно, самое главное, насколько мы уверены во всех этих факторах?

В регрессионном анализе эти факторы называются переменными.

В регрессионном анализе эти элементы называются факторами.  У вас есть зависимая переменная – основной фактор, который вы пытаетесь понять или предсказать. В модели Редмана, выше, зависимая переменная – это сделки из месяца в месяц. А после этого у вас есть ваши автономные факторы – элементы, которые, по вашему мнению, влияют на вашу зависимую переменную.

Как это работает?

Чтобы направить исследование рецидива, вы собираете данные по рассматриваемым переменным. (Обновление: скорее всего, вам не придется делать это без чьей-либо помощи, но вам будет полезно понять процедуру, используемую вашим сотрудником по исследованию информации). Вы берёте от месяца к месяцу номера сделок за, констатируете, за предыдущие три года и любую информацию о свободных факторах, которыми вы увлекаетесь. Таким образом, для данной ситуации, предположим, что вы обнаружите нормальное количество осадков от месяца к месяцу еще в течение трех лет. В этот момент вы строите большинство этих данных на графике, похожем на этот:

Y-образный поворот является мерой предложения (зависимая переменная, то, что вам нравится, находится на y-образном втулке), а x-образный втулка – это все осадки, выпадающие на улицу. Каждое синее пятно указывает на информацию за один месяц – сумму, которую оно вложило в этот месяц, и количество предложений, которые вы сделали за этот эквивалентный месяц.

Глядя на эту информацию, вы, скорее всего, заметите, что в дни, когда выпадает тонна дождя, сделок становится больше. Это интересно знать, однако, по какой сумме? Если пойдет дождь 3 дюйма, знаете ли вы, сколько вы продадите? А если дождь будет 4 дюйма?

В настоящее время представьте себе, что прорисуете линию через график, проходящую, как правило, через центр большого количества информационных фокусов. Эта линия позволит вам ответить, с некоторой степенью уверенности, на сумму, которую вы обычно продаете, когда идет дождь определенной суммы.

Она называется линией регрессии и рисуется (с помощью программы для статистики, такой как SPSS, STATA или даже Excel), чтобы показать линию, которая лучше всего подходит для данных. Как бы там ни было, Редман поясняет: “Красная линия – это лучшее уточнение связи между автономной переменной и переменной ward”.

Кроме прорисовки линии, ваша статистическая программа выводит также формулу, которая объясняет наклон линии и выглядит примерно так:

Игнорируйте пока термин “ошибка”. Это относится к тому факту, что регрессия не совсем точна. Просто сосредоточьтесь на модели:

Игнорируйте пока термин “ошибка”. Он относится к тому факту, что регрессия не совсем точна. Просто сосредоточьтесь на модели:

Эта формула говорит о том, что если нет “x”, то Y = 200. Таким образом, поддаваясь проверке, когда дождя не было ни на одном участке воображения, вы сделали в среднем 200 продаж, и вы можете надеяться сделать эквивалент, ожидая, что различные факторы останутся эквивалентными. Кроме того, перед этим, за каждый дополнительный дюйм ливня, вы совершали нормальную из пяти дополнительных сделок. “За каждое добавление, которое икс поднимается на один, у поднимается на пять”, – говорит Редман.

В настоящее время мы должны вернуться к термину ошибки. Вас может завлечь утверждение, что ливень сильно влияет на сделки, если за каждый дюйм вы получаете пять дополнительных сделок, однако, заслуживает ли эта переменная вашего внимания, будет ли она полагаться на термин “ошибка”. В строке регрессии всегда есть член ошибки, потому что в реальной жизни независимые переменные никогда не являются идеальными предикторами зависимых переменных. Или, может быть, строка является измерительным прибором, зависящим от доступной информации. Таким образом, член ошибки раскрывает вам, насколько вы можете быть уверены в рецепте. Чем он больше, тем менее уверен в строке рецидива.

Приведенная выше модель использует только одну переменную, чтобы предвидеть фактор интриги – для этой ситуации ливень предвосхищает сделки. Обычно приступая к анализу агрессии, необходимо понять влияние нескольких независимых переменных. Таким образом, вы можете включить как ливень, так и информацию о продвижении претендента. “Вы продолжаете делать это до тех пор, пока термин “ошибка” не станет маленьким”, – говорит Редман. “Вы пытаетесь получить линию, которая лучше всего подходит к вашей информации.” В то время как попытка включить в расследование рецидива чрезмерное количество факторов может быть опасной, талантливые следователи могут ограничить эти опасности. Более того, думать о влиянии различных факторов без минутной задержки – это, пожалуй, самая большая свобода действий при рецидиве.