Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

Вероятность начинается с животного и решает, какие следы оно оставит.

Статистика видит след, и угадывает животное.

Вероятность проста: у вас есть медведь. Измерьте размер лапы, длину лапы, и вы выведете отпечатки. “О, мистер Пузырьки весит 400 фунтов, у него 3-футовые ноги, и он может делать такие следы”. Более академически: “У нас есть хорошая монета. После 10 переворотов, вот возможные исходы”.

Статистика сложнее. Мы измеряем следы и должны угадать, какое животное это может быть. Медведь? Человек? Если мы получим 6 голов и 4 хвоста, какова вероятность хорошей монеты?

Обычные подозреваемые

Вот как мы “находим животное” со статистикой:

Получим следы. Каждый бит знаний может быть точкой в “соединении точек”. Чем больше данных, тем яснее форма (1 точка в “connect-the-dots” не помогает. Одно данное затрудняет поиск тенденции).

Измерьте основные характеристики. Каждая точка имеет глубину, ширину и высоту. Каждый набор данных имеет среднее значение, медиану, дисперсию и так далее. Эти универсальные, общие описания обеспечивают грубое сужение: “Ширина следа – 6 дюймов: маленький медвежонок или мужчина в натуральную величину”.

Найдите вид. Есть десятки возможных животных (распределение вероятностей), чтобы думать о . Мы сужаем его с предварительным знанием системы. в лесу? Подумайте о лошадях, а не о зебрах. справляющихся с вопросами “да/нет”? Рассмотрим распределение Бернулли.

Ищите точное животное. Как только мы получаем распределение (“медведи”), мы просматриваем наши общие измерения во время таблицы. “Отпечаток лапы шириной 6 дюймов и глубиной 2 дюйма предположительно 3-летний медведь весом 400 фунтов”. Поисковая таблица формируется на основе вероятностного распределения, т.е. измерений, когда животное находится в зоопарке.

Сделайте дополнительные прогнозы. Как только мы все узнаем животное, мы предскажем будущее поведение и другие черты (“По нашим расчетам, мистер Пузырьки будут какать в лесу”). Статистика помогает нам получить информацию о происхождении информации, из самой информации.

Хорошо! Метафора не совершенна, но более приятна, чем “Статистика – это изучение сбора, организации, анализа и интерпретации данных”. Нужно доказательство? Давайте посмотрим, будем ли мы задавать интуитивно понятные вопросы “Я попробовал!”:

Какой самый распространённый вид? (Общие распределения)

Открываются ли новые?

Можно ли предсказать последующий след? (Экстраполяция)

Следы следуют по пути? (Регрессия / линия тренда)

Вот два следа, какое животное было быстрее? Больше? (Данные двух испытаний лекарств: какой из них был более эффективным?)

Является ли одно занятие животного эквивалентным направлением? (Корреляция)

Два животных отслеживают стандартный источник? (Причина: два медведя гонятся за эквивалентным кроликом)