Цель испытания гипотезы о чайке

Как мы видели, психологическое исследование обычно включает в себя измерение одной или нескольких переменных для выборки и вычисление описательной статистики для этой выборки. Однако, как правило, цель исследователя заключается не в том, чтобы сделать выводы для этой выборки, а в том, чтобы сделать выводы о совокупности, из которой была выбрана эта выборка. Таким образом, исследователи должны использовать выборочную статистику для того, чтобы сделать выводы о соответствующих значениях в совокупности. Эти соответствующие значения в совокупности называются параметрами. Представьте себе, например, что исследователь измеряет количество депрессивных симптомов у каждого из пятидесяти клинически депрессивных взрослых и рассчитывает среднее количество симптомов. Исследователь, вероятно, захочет использовать эту статистику выборки (среднее число симптомов для выборки), чтобы сделать выводы о соответствующем параметре популяции (среднее число симптомов для взрослых с клинической депрессией).

К сожалению, выборочная статистика не является идеальной оценкой соответствующих параметров популяции. Часто это связано с тем, что в любой статистике от выборки к выборке существует определенная случайная вариабельность. Среднее число депрессивных симптомов может быть 8,73 в одной выборке клинически депрессивных взрослых, 6,45 во второй выборке и 9,44 в третьей, даже если эти выборки выбраны случайным образом из эквивалентной популяции. Аналогичным образом, корреляция (r Пирсона) между двумя переменными может быть +.24 в одной выборке, -.04 во второй выборке и +.15 в третьей, хотя эти выборки отбираются случайным образом из эквивалентной популяции. Эта случайная вариабельность в статистике от выборки к выборке называется ошибкой выборки. (Обратите внимание, что термин “ошибка” здесь относится к случайной вариабельности и не означает, что кто-то допустил ошибку. никто не “совершает ошибку выборки”).

Одним из последствий этого часто является то, что при наличии статистической связи в выборке не всегда очевидно, что в составе населения существует статистическая связь. Незначительная разница между двумя групповыми средствами в выборке может указывать на то, что разница между двумя групповыми средствами в населении незначительна. Но даже может оказаться, что между средствами в рамках совокупности нет никакой разницы, и разница в рамках выборки – это просто вопрос ошибки выборки. Аналогичным образом, значение r Пирсона, равное -.29 в выборке, может означать, что внутри популяции существует отрицательная связь. Но может быть даже и так, что в совокупности не существует никакой связи, в связи с чем связь внутри выборки является просто ошибкой выборки.

На самом деле, любая статистическая связь во время выборки часто интерпретируется двумя способами:

Существует связь в рамках совокупности, и поэтому связь внутри выборки отражает это.

В рамках совокупности не существует никакого соотношения, и поэтому соотношение в рамках выборки отражает только ошибку выборки.

Цель проверки нулевой гипотезы заключается лишь в том, чтобы помочь исследователям сделать выбор между этими двумя интерпретациями.

Логика тестирования нулевой гипотезы

Тестирование Null гипотезы может быть формальным подходом к решению между двумя интерпретациями статистических отношений во время выборки. Одна из интерпретаций называется нулевой гипотезой (часто символизируемой H0 и skim как “H-naught”). Часто считается, что в совокупности не существует никакой связи, связь которой внутри выборки отражает только погрешность выборки. Неофициально нулевой гипотезой является то, что связь внутри выборки “возникла случайно”. Противоположная интерпретация называется гипотезой выбора (часто символизируемой как H1). Часто считается, что в рамках популяции существует связь, которая отражает эту связь внутри выборки.

Опять же, каждая статистическая связь в выборке часто интерпретируется одним из этих двух способов: она произошла бы случайно или отражала бы связь внутри популяции. Поэтому исследователям необходимо, как принять решение между ними. Несмотря на то, что существует множество методов проверки конкретных нулевых гипотез, все они поддерживают эквивалентную общую логику. Шаги следующие:

Предположим на мгновение, что нулевая гипотеза верна. Между переменными внутри популяции нет никакой связи.

Определите, насколько вероятной была бы связь выборки, если бы нулевая гипотеза была верна.

Если бы отношение выборки было крайне маловероятным, то отвергнуть нулевую гипотезу в пользу гипотезы выбора. Если это не было бы крайне маловероятно, то оставьте нулевую гипотезу.

Следуя этой логике, мы начнем узнавать, почему Мехл и его коллеги пришли к выводу, что в популяции нет разницы в разговорчивости между женщинами и мужчинами. По сути, они задали последующий вопрос: “Если в населении нет разницы, насколько вероятно, что в нашей выборке мы найдем небольшую разницу d = 0,06?”. Их ответом на данный вопрос было то, что эта выборочная связь была бы достаточно вероятна, если бы нулевая гипотеза была верна. Поэтому они сохранили нулевую гипотезу, заключив, что в популяции нет доказательств разницы по половому признаку. Мы также увидим, почему Кэннер и его коллеги пришли к выводу, что существует корреляция между стычками и симптомами внутри популяции. Они спросили: “Если бы нулевая гипотеза была верна, насколько вероятно, что мы могли бы найти в нашей выборке робастную корреляцию +.60?”. Их ответом на данный вопрос было то, что эта выборочная связь была бы довольно маловероятной, если бы нулевая гипотеза была верна. Поэтому они отвергли нулевую гипотезу в пользу гипотезы выбора, заключив, что между этими переменными в популяции существует прямая зависимость.

Решающим шагом в тестировании нулевой гипотезы является нахождение вероятности результата выборки в случае, если нулевая гипотеза окажется верной. Эта вероятность называется значением p. Значение p кофе означает, что результат выборки был бы маловероятен, если бы нулевая гипотеза была верна, что привело бы к отказу от нулевой гипотезы. Высокое значение p означает, что результат выборки был бы маловероятен, если бы нулевая гипотеза была верна и привела к отказу от нулевой гипотезы. Но насколько низким должно быть значение p перед результатами выборки, считающимися маловероятными, чтобы отвергнуть нулевую гипотезу? При проверке нулевой гипотезы этот критерий называется α (альфа) и почти всегда устанавливается в .05. Если шанс результата как экстремальный составляет всего лишь 5%, потому что результат выборки, если нулевая гипотеза верна, то нулевая гипотеза отвергается. Когда это происходит, результаты, как говорят, являются статистически значимыми. Если шанс результата как экстремального больше 5%, потому что результат выборки, если нулевая гипотеза верна, то нулевая гипотеза сохраняется. Это не обязательно означает, что исследователь принимает нулевую гипотезу как истинную только потому, что в настоящее время нет достаточных доказательств, чтобы сделать вывод, что она истинна. Исследователи часто используют выражение “не отвергнуть нулевую гипотезу” вместо “сохранить нулевую гипотезу”, но никогда не используют выражение “принять нулевую гипотезу”.

“Непонятая ценность

Значение p является одним из наиболее непонятных количеств в психологических исследованиях (Cohen, 1994)[1]. Даже профессиональные исследователи неправильно истолковывают его, и это обычное дело, что такие неправильные толкования появляются в учебниках по статистике!

Самое распространенное ошибочное толкование заключается в том, что значение p – это вероятность того, что нулевая гипотеза верна – результат выборки произошел случайно. Например, ошибочный исследователь может сказать, что из-за того, что значение p равно .02, вероятность того, что результат получится благодаря случайности, составляет всего 2%, а вероятность того, что он отражает истинную взаимосвязь внутри популяции, составляет 98%. Но часто это неправильно. Значение p, по сути, является вероятностью результата, минимальной настолько, насколько экстремальной, потому что результат выборки, если бы нулевая гипотеза была верной. Таким образом, значение p, равное 0,02, означает, что если бы нулевая гипотеза была верна, то результат выборки был бы экстремальным только в 2% случаев.

Этого недоразумения можно избежать, если помнить, что значение p не является вероятностью того, что какая-либо конкретная гипотеза верна или ложна. Вместо этого, это вероятность получения результата выборки, если бы нулевая гипотеза была верна.

Роль размера выборки и силы взаимоотношений

Напомним, что проверка нулевой гипотезы предполагает ответ на вопрос: “Если нулевая гипотеза верна, то какая вероятность такого экстремального результата выборки?”. Другими словами, “Что это за значение p?” Часто бывает полезно убедиться в том, что решение данного вопроса зависит только от двух соображений: прочности соединения и, следовательно, размера выборки. В частности, чем сильнее связь между образцом и, следовательно, чем больше выборка, тем меньше вероятность получения результата, если нулевая гипотеза верна. То есть, чем меньше значение p. Это может сложиться. Представьте себе исследование, во время которого выборка из 500 женщин сравнивается с выборкой из 500 мужчин с точки зрения некоторой психологической характеристики, и Cohen’s d может быть сильным 0,50. Если действительно не было никакой разницы в половой принадлежности внутри популяции, то результат этот сильный поддержал такую увеличенную выборку должен показаться очень маловероятным. Теперь представьте себе идентичное исследование во время которого выборка 3 женщин сравнена с выборкой 3 мужчин, и Cohen’s может быть слабым 0,10. Если в популяции не было никакой разницы по половому признаку, то отношения, поддерживаемые такой слабой выборкой, должны казаться вероятными. И часто именно поэтому нулевая гипотеза будет отвергнута в первом примере и сохранена во втором.

Конечно, иногда результат бывает слабым, и поэтому выборка большая или результат часто сильный, а значит, выборка маленькая. В этих случаях два соображения сводятся друг к другу таким образом, что слабый результат часто бывает статистически значимым, если выборка достаточно большая, и прочная связь часто бывает статистически значимой, хотя выборка маленькая. В таблице 13.1 примерно показано, как сочетание прочности связи и размера выборки позволяет определить, является ли результат выборки статистически значимым. Колонки таблицы представляют три уровня прочности отношений: слабый, средний и сильный. Строки представляют четыре размера выборки, которые в контексте психологического исследования будут считаться малыми, средними, большими и дополнительными большими. Таким образом, каждая ячейка таблицы представляет собой смесь силы связи и размера выборки. Если клетка содержит слово “Да”, то эта смесь будет статистически значимой как для слова “d” Коэна, так и для слова “r” Пирсона. Если же клетка содержит слово “Нет”, то она может не быть статистически значимой ни для того, ни для другого. Есть одна клетка, где выбор для d и r будет меняться, а другая, где он будет меняться в расчете на некоторые дополнительные соображения, которые обсуждаются в разделе 13.2 “Некоторые основные тесты гипотезы Null”.

Хотя в Таблице 13.1 приведены лишь приблизительные рекомендации, в ней очень четко показано, что слабые отношения, поддерживаемые средними или малыми выборками, никогда не бывают статистически значимыми, а сильные отношения, поддерживаемые средними или большими выборками, всегда статистически значимы. Если вы сохраните этот урок, вы часто будете знать, поддерживает ли статистически значимый результат только описательную статистику. Очень полезно быть готовым к развитию такого типа интуитивных суждений. Одна из причин заключается в том, что это позволяет Вам развить ожидания относительно того, как начинаются Ваши тесты формальных нулевых гипотез, что последовательно позволяет Вам обнаружить проблемы в анализе. Например, если ваше отношение к выборке робастное, а выборка средняя, то вы ожидаете, что отвергнете нулевую гипотезу. Если по каким-то причинам ваш формальный тест на нулевую гипотезу указывает на обратное, то вы хотели бы перепроверить свои вычисления и интерпретации. Вторая причина заключается в том, что способность формировать этот тип интуитивных суждений является признаком того, что Вы просто понимаете существенную логику этого подхода дополнительно к тому, что у Вас есть возможность попробовать вычисления.

Статистическая значимость против практической значимости

Таблица 13.1 иллюстрирует еще один чрезвычайно важный момент. Статистически значимый результат не обязательно является надежным. Даже действительно слабый результат часто бывает статистически значимым, если он поддерживается достаточно большой выборкой. Это часто тесно связано с аргументом Джанет Шибли Хайд о половых различиях (Hyde, 2007)[2]. Различия между женщинами и мужчинами в решении математических задач и лидерских способностях статистически значимы. Но слово “значительное” может заставить людей интерпретировать эти различия как сильные и важные – возможно, даже достаточно важные, чтобы повлиять на школьные курсы, которые они проходят, или, возможно, на то, за кого они голосуют. Однако, как мы видели, эти статистически значимые различия являются буквально довольно слабыми – возможно, даже “тривиальными”.

Поэтому важно различать статистическую значимость результата и, следовательно, практическую значимость этого результата. Практическая значимость относится к важности или полезности конечного результата в определенном реальном контексте. Многие половые различия статистически значимы – и могут быть даже интересны в чисто научных целях – но практически не значимы. В клинической практике это же понятие обычно упоминается как “клиническая значимость”. Например, исследование по заместительной терапии фобий может показать, что она дает статистически значимый положительный эффект. Тем не менее, этот эффект все равно не будет достаточно сильным, чтобы оправдать время, усилия и другие затраты на его применение на практике – особенно если более простое и дешевое лечение, которое почти также применяется, уже существует. Несмотря на свою статистическую значимость, можно сказать, что этот результат не имеет практического или клинического значения.

Ничтожная проверка гипотезы может быть формальным подходом к решению вопроса о том, отражает ли статистическая связь во время выборки истинную связь внутри популяции или просто благодаря случайности.

Логика проверки нулевой гипотезы включает в себя предположение, что нулевая гипотеза верна, выяснение того, насколько вероятен результат выборки, если это предположение было бы правильным, а затем сделать выбор. Если результат выборки маловероятен, если нулевая гипотеза верна, то она отвергается в пользу гипотезы выбора. Если же результат выборки был бы маловероятен, то нулевая гипотеза сохраняется.

Вероятность получения результата выборки в случае, если нулевая гипотеза была бы верной (значение p), обусловлена двумя соображениями: прочностью связи и размером выборки. Обоснованные суждения о том, является ли соотношение выборки статистически значимым, часто могут быть сделаны путем быстрого рассмотрения этих двух факторов.

Статистическая значимость не эквивалентна силе или важности отношений. Даже слабые взаимоотношения часто являются статистически значимыми, если размер выборки достаточно велик. Важно думать о силе отношений и, следовательно, о практической значимости конца в дополнение к его статистической значимости.