Coursera Learner working on a presentation with Coursera logo and
Coursera Learner working on a presentation with Coursera logo and

P-значения часто неправильно истолковываются, что вызывает много проблем. Я не буду здесь перечислять эти проблемы, так как мой коллега Джим Фрост подробно описал проблемы, но сам факт остается фактом, что р-значение все еще будет одним из наиболее часто используемых инструментов для определения статистически значимого результата.

Вы ведь знаете старую пилу о “Ложь, проклятая ложь и статистика”? Это верно, потому что статистика действительно является максимальным количеством в интерпретации и представлении, потому что это математика. Это значит, что у нас, граждан, которые анализируют данные, со всеми нашими слабостями и неудачами, есть шанс затенить и оттенить способ представления результатов.

Хотя в целом мне хочется верить, что люди хотят быть честными и объективными – особенно умными людьми, которые исследуют и анализируют данные, которые повлияют на жизнь других людей – есть 500 свидетельств, которые летят перед лицом этого убеждения.

Мы вернемся к этому в течение минуты. Но сначала, быстрый обзор…

Что такое П-Ценность, и как ее интерпретировать?

Большинство людей впервые сталкиваются с p-значениями, когда мы проводим простые тесты гипотез, хотя они также являются неотъемлемой частью нескольких более сложных методов. Давайте используем Minitab Статистическое программное обеспечение, чтобы попытаться быстро просмотреть, как они работают (если вы хотите следовать дальше и у вас нет Minitab, полный пакет там бесплатно в течение 30 дней). Мы получим возможность сравнить расход топлива для 2-х разных типов печей, чтобы определить, есть ли разница между их средствами.

Перейдите в “Файл” > “Открыть рабочий лист” и нажмите на кнопку “Искать в папке с образцами Minitab”. Откройте набор данных пробы с названием Furce.mtw и в меню выберите “Стат” > “Основная статистика” > “2 пробы т…”. На панели введите “BTU.In” для образцов и введите “Damper” для идентификаторов образцов.

Нажмите OK и Minitab вернет последующий вывод, во время которого я выделил р-значение.

В большинстве анализов используется альфа 0,05, так как отсечение по значимости. Если р-значение меньше 0.05, то мы отвергаем нулевую гипотезу об отсутствии разницы между средствами и делаем вывод о существовании большой разницы. Если р-значение больше 0.05, то мы не можем сделать вывод о существовании большой разницы.

Это довольно прямолинейно, не так ли? Ниже 0,05, значительное. Больше 0.05, несущественно.

“Пропустил так много!”

В приведенном выше примере результат ясен: p-значение 0.7 настолько велико, что вы просто не можете применить никаких иллюзий к результатам. Но что, если ваше р-значение в принципе, действительно на грани 0,05?

Например, что если бы у вас было р-значение 0,06?

Это несущественно.

Ох. Ладно, а как насчет 0,055?

Несущественно.

Как насчет 0.051?

Это все еще не статистически значимо, и аналитики данных не должны пытаться притворяться иначе. П-значение – это не переговоры: если п > 0.05, то результаты не значительны. Период.

Итак, что я должен сказать, когда получу р-значение выше 0.05?

Как насчет того, чтобы сказать это? “Результаты не были статистически значимыми”. Если это то, что говорит информация, нет ничего плохого в том, чтобы сказать это.

Не важно, как тонко ты его режешь, это все равно чушь.

Что возвращает меня к записи в блоге, на которую я ссылался в начале. Делает его читать, но суть в том, что автор каталогизировал 500 альтернативных способов, которые участники научных журналов использовали язык, чтобы скрыть свои результаты (или их отсутствие).

Как изучающий язык, я признаюсь, что нахожу этот список увлекательным… но в то же время расстраивающим. это неправильно: Эти авторы – образованные люди, которые, безусловно, понимают: A) что означает значение p выше 0,05, и B) что манипулирование словами, чтобы расплавить этот результат, преднамеренно обманчиво. Или, чтобы поместить это в слова, которые менее мягкие, это проклятая ложь.

Тем не менее, это случается часто.

Вот только пара моих любимых из пятисот альтернативных способов, которыми люди сообщали о результатах, которые не были значительными, на фоне р-значений, к которым применялись эти творческие интерпретации:

Определенная тенденция к значимости (p=0,08)

приблизился к границе значимости (p=0,07)

На грани статистической значимости (p

Языки

Weekly newsletter

No spam. Just the latest releases and tips, interesting articles, and exclusive interviews in your inbox every week.