Распределение выборки – это вероятностное распределение статистики, полученной по большому количеству проб, взятых из конкретной популяции. Распределение выборки по данной популяции представляет собой распределение частот ряда различных результатов, которые могут иметь место для статистики популяции.

Понимание распределения выборки

Многие данные, обрабатываемые и используемые учеными, статистиками, исследователями, маркетологами, аналитиками и т.д., на самом деле являются выборочными, а не популяционными. Выборка – это подмножество совокупности. Например, медицинский исследователь, который хочет сравнить средний вес всех детей, рожденных в Северной Америке в период с 1995 по 2005 год, с детьми, рожденными в Южной Америке за тот же период времени, не может в течение разумного периода времени получить данные по всей популяции, насчитывающей более одного миллиона рождений в течение десяти лет. Вместо этого он будет использовать только вес, скажем, 100 детей на каждом континенте, чтобы сделать вывод. Вес 200 детей – это выборка, а расчетный средний вес – средняя величина выборки.

Теперь предположим, что вместо того, чтобы взять только одну выборку из 100 детских весов с каждого континента, медицинский исследователь неоднократно берет случайные выборки из общей популяции и усредняет выборку для каждой группы выборки. Таким образом, для Северной Америки он извлекает данные из 100 весов младенцев, зарегистрированных в США, Канаде и Мексике, следующим образом: четыре 100 выборок из отобранных больниц в США, пять 70 выборок из Канады и три 150 записей из Мексики, в общей сложности 1200 весов младенцев, сгруппированных в 12 групп. Она также собирает выборку данных по 100 весам новорожденных из каждой из 12 южноамериканских стран.

Средний вес, вычисленный для каждого набора образцов, представляет собой распределение среднего веса по выборкам. Среднее значение не только может быть рассчитано по выборке. Другие статистические данные, такие как стандартное отклонение, дисперсия, доля и диапазон, могут быть рассчитаны на основе данных выборки. Стандартное отклонение и дисперсия измеряют изменчивость распределения выборки.

Количество наблюдений в совокупности, количество наблюдений в выборке и процедура, используемая для составления выборочных наборов, определяют изменчивость распределения выборки. Стандартное отклонение распределения выборки называется стандартной ошибкой. В то время как среднее значение распределения выборки равно среднему показателю численности населения, стандартная ошибка зависит от стандартного отклонения численности населения, размера популяции и размера выборки.

Знание того, насколько отличается среднее значение каждого из наборов выборки от других и среднее значение по совокупности, даст представление о том, насколько средний показатель по выборке близок к среднему значению по совокупности. Стандартная ошибка распределения выборки уменьшается по мере увеличения размера выборки.

Особые соображения

Популяция или ряд выборочных номеров будет иметь нормальное распределение. Однако, поскольку распределение выборки состоит из нескольких наборов наблюдений, оно не обязательно будет иметь форму колокольной кривой.

Следуя нашему примеру, средний вес детской популяции в Северной и Южной Америке имеет нормальное распределение, поскольку некоторые дети будут иметь недостаточный вес (ниже среднего) или избыточный вес (выше среднего), при этом большинство детей находятся между ними (около среднего). Если средний вес младенцев в Северной Америке составляет семь фунтов, то средний вес выборки в каждой из 12 серий выборочных наблюдений, зарегистрированных для Северной Америки, также будет близок к семи фунтам.

Однако, если построить график каждого из средних значений, рассчитанных в каждой из 1200 групп выборки, то полученная форма может привести к равномерному распределению, однако трудно с уверенностью предсказать, какой будет фактическая форма. Чем больше образцов исследователь будет использовать выборки из более чем миллионной популяции, тем больше график начнет формировать нормальное распределение.