Вероятность начинается с животного и решает, какие следы оно оставит.
Статистика видит след, и угадывает животное.
Вероятность проста: у вас есть медведь. Измерьте размер лапы, длину лапы, и вы выведете отпечатки. “О, мистер Пузырьки весит 400 фунтов, у него 3-футовые ноги, и он может делать такие следы”. Более академически: “У нас есть хорошая монета. После 10 переворотов, вот возможные исходы”.
Статистика сложнее. Мы измеряем следы и должны угадать, какое животное это может быть. Медведь? Человек? Если мы получим 6 голов и 4 хвоста, какова вероятность хорошей монеты?
Обычные подозреваемые
Вот как мы “находим животное” со статистикой:
Получим следы. Каждый бит знаний может быть точкой в “соединении точек”. Чем больше данных, тем яснее форма (1 точка в “connect-the-dots” не помогает. Одно данное затрудняет поиск тенденции).
Измерьте основные характеристики. Каждая точка имеет глубину, ширину и высоту. Каждый набор данных имеет среднее значение, медиану, дисперсию и так далее. Эти универсальные, общие описания обеспечивают грубое сужение: “Ширина следа – 6 дюймов: маленький медвежонок или мужчина в натуральную величину”.
Найдите вид. Есть десятки возможных животных (распределение вероятностей), чтобы думать о . Мы сужаем его с предварительным знанием системы. в лесу? Подумайте о лошадях, а не о зебрах. справляющихся с вопросами “да/нет”? Рассмотрим распределение Бернулли.
Ищите точное животное. Как только мы получаем распределение (“медведи”), мы просматриваем наши общие измерения во время таблицы. “Отпечаток лапы шириной 6 дюймов и глубиной 2 дюйма предположительно 3-летний медведь весом 400 фунтов”. Поисковая таблица формируется на основе вероятностного распределения, т.е. измерений, когда животное находится в зоопарке.
Сделайте дополнительные прогнозы. Как только мы все узнаем животное, мы предскажем будущее поведение и другие черты (“По нашим расчетам, мистер Пузырьки будут какать в лесу”). Статистика помогает нам получить информацию о происхождении информации, из самой информации.
Хорошо! Метафора не совершенна, но более приятна, чем “Статистика – это изучение сбора, организации, анализа и интерпретации данных”. Нужно доказательство? Давайте посмотрим, будем ли мы задавать интуитивно понятные вопросы “Я попробовал!”:
Какой самый распространённый вид? (Общие распределения)
Открываются ли новые?
Можно ли предсказать последующий след? (Экстраполяция)
Следы следуют по пути? (Регрессия / линия тренда)
Вот два следа, какое животное было быстрее? Больше? (Данные двух испытаний лекарств: какой из них был более эффективным?)
Является ли одно занятие животного эквивалентным направлением? (Корреляция)
Два животных отслеживают стандартный источник? (Причина: два медведя гонятся за эквивалентным кроликом)