Что такое “Эмпирическое правило”?
Это правило в статистике предполагает, что все данные, которые вы можете наблюдать, будут находиться под тремя различными стандартными отклонениями среднего в нормальном распределении. Вы также можете знать эмпирическое правило как правило 68-95-99.7 или трехсигматическое правило. Согласно этому правилу, 68% данных упадет в первом среднеквадратическом отклонении, 95% – в первом и втором и 99.7% – во всех трех отклонениях:
68% – (µ ± σ),
95% – (µ ± 2σ)
99,7% – (µ ± 3σ)
Если мы имеем нормальное распределение данных на графике по оси x, то колокольная кривая будет находиться в центре. Первое стандартное отклонение включает положительную половину (µ + σ) и отрицательную половину (µ – σ). Обе эти половины первого среднеквадратического отклонения вместе составят 68%, но если рассматривать только положительную половину, то она составит 34%, а отрицательную – то же самое. Аналогично, если рассматривать вторую половину стандартного отклонения, то можно добавить положительную половину первого и второго отклонения с отрицательной стороной обоих отклонений, что составит 95%. То же самое произойдет и с третьим отклонением.
Нормальное распределение
Это, вероятно, является существенным распределением вероятностей в статистике. Например, наборы данных, такие как частота сердечных сокращений, артериальное давление, рост и IQ, будут формировать кривую колокольчиков нормального распределения.
Симметрия нормального распределения
Нормальное распределение для непрерывных переменных. Непрерывные переменные имеют бесконечные значения. Они включают эти значения в распределение. Нормальное распределение помогает описать способ распределения переменных. Большинство переменных, данных или наблюдений группируются по центру в нормальном распределении, вызывая пик. Поэтому большинство нормальных распределений имеют форму колокольчика.
Кроме того, в нормальном распределении среднее, медиана и режим равны. В центре есть кривая, которая является средней. Однако левое и правое значения равны. Нормальное распределение можно определить по среднему и среднеквадратическому отклонению. Это два существенных фактора, которые влияют на кривую. 68 процентов площади подпадает под единичное среднеквадратическое отклонение.
Параметры нормального распределения
Средний
Среднее значение набора данных можно найти, добавив все значения и разделив итоговую сумму на количество значений.
Медиана
Когда вы заказываете набор данных от самого низкого до самого большого, среднее значение является медианой.
Режим
Режим – это то значение, которое очень часто появляется в наборе данных.
Стандартное отклонение
Стандартное отклонение измеряет, насколько широко распространены значения данных. Символом стандартного отклонения является сигма. Символом среднеквадратического отклонения является только квадратный корень отклонений. Например, при измерении годовой нормы доходности инвестиций можно обнаружить историческую волатильность инвестиции. Этот подход представляет собой статистическое измерение или стандартное отклонение.
Вариации
Варианты также измеряют распространенность ценностей. Однако этот термин относится к тому, насколько далеки числа в наборе данных от средних и других чисел.
Z-Scores
Z-оценка – это числовое представление отношения среднего значения группы к значению. Вы можете вычислить Z-оценку как стандартное отклонение с помощью среднего. Когда Z-оценка равна нулю, средняя оценка и оценка данных равны. Z-оценка может быть отрицательной и положительной. Если Z-значение отрицательное, то оно ниже среднего, а если Z-значение выше среднего, то оно положительное.
Понимание Понятия68-95-99.7 Правило
Нормальное распределение данных обычно соотносится с правилом 68-95-99.7. В первом среднеквадратическом отклонении находится 68% данных, во втором – 95% данных, а в третьем – 99,7% данных.
Функция вероятностной плотности
Чтобы узнать процент, необходимо знать, что означает функция плотности вероятности или PDF. С помощью PDF вы можете указать случайную величину вероятности, которая попадает в определенный диапазон значений, вместо того, чтобы брать любое другое значение. Вы можете вычислить вероятность, вынимая интеграл PDF-файла переменной в диапазоне. Это означает, что область находится в функции плотности, но между наибольшим и наименьшим значениями и по горизонтальной оси диапазона.
В первом среднеквадратическом отклонении находится 68% данных. Поэтому, если вы хотите найти вероятность случайной посадки точки данных в первом среднеквадратическом отклонении, вам необходимо вычислить среднее значение данных от -1 до 1 среднеквадратического отклонения.
Во втором среднеквадратическом отклонении 95% данных. Таким образом, если Вы хотите найти вероятность посадки в точке случайных данных при втором среднеквадратическом отклонении, то Вам необходимо вычислить среднее значение данных от -2 до 2-х среднеквадратических отклонений.
Третье среднеквадратическое отклонение имеет 99,7% данных. Таким образом, если вы хотите найти вероятность случайной посадки в точке данных при третьем среднеквадратическом отклонении, вам нужно вычислить среднее значение данных от -3 до 3 среднеквадратических отклонений.
Заключение
Примерную оценку вероятности данных можно быстро получить с помощью правила 68-95-99.7. Этот метод можно использовать в качестве простого теста при нормальной совокупности данных. Однако, если популяция данных не является нормальной, то можно использовать этот метод в качестве теста на нормальность.