Проверка нормальности распределения: тесты Шапиро–Уилка и Колмогорова

Что такое нормальность распределения и зачем её проверять

Во многих медицинских и психологических исследованиях применяются параметрические статистические методы: t-тест, ANOVA, корреляция Пирсона, линейная регрессия.

Корректность этих методов основана на предположении, что данные имеют нормальное распределение.

Проверка нормальности распределения данных позволяет:

определить, можно ли использовать параметрические тесты;
избежать ошибок в выводах при малых выборках;
повысить качество статистического анализа в медицинских исследованиях.

Когда нужно проверять нормальность

Малые выборки (n < 50) — распределение данных оказывает значительное влияние.
Перед использованием параметрических тестов (t-тест, ANOVA, корреляция Пирсона).
При анализе остатков регрессионных моделей.
Для публикаций, диссертаций, отчётов — формальная проверка требуется редакторами и экспертами.

❗ В случаях больших выборок (n > 200–300) можно не проверять нормальность, так как срабатывает центральная предельная теорема. Если же используется непараметрическая статистика (например, тест Манна–Уитни), проверка также не обязательна.

Основные тесты на нормальность распределения

Тест Шапиро–Уилка

Оптимален для малых и средних выборок (n = 7–2000).
Считается наиболее мощным тестом нормальности.
Интерпретация:
p > 0.05 → распределение не отличается от нормального;
p ≤ 0.05 → нормальность отвергается.

Тест Колмогорова–Смирнова

Применяется при средних и больших выборках.
Оценивает максимальное отклонение эмпирического распределения от теоретической нормальной кривой.
Интерпретация аналогична тесту Шапиро–Уилка.
Недостаток: низкая чувствительность при малых n и «излишняя строгость» при больших n.

Другие тесты

Андерсона–Дарлинга — более чувствителен к хвостам распределения.
Лиллиефорса — модификация Колмогорова–Смирнова.
Жака–Бера (Jarque–Bera) — широко применяется в эконометрике.

Сравнение тестов нормальности

Тест	Размер выборки	Сильные стороны	Ограничения
Шапиро–Уилка	7–2000	Высокая мощность, подходит для малых выборок	Чувствителен к выбросам
Колмогорова–Смирнова	>50	Прост в применении, работает при больших n	Слаб при малых выборках
Андерсона–Дарлинга	>20	Учитывает хвосты распределения	Менее известен, редко используется в мед. статистике
Жака–Бера	>30	Удобен для регрессий и эконометрики	Не так точен на малых выборках

Визуальные методы проверки нормальности

Формальные тесты всегда стоит дополнять графическими методами:

Гистограмма с наложенной нормальной кривой.
Q–Q plot (сравнение квантилей).
Boxplot (для оценки асимметрии и выбросов).

Практические рекомендации

Для малых выборок (до 50 наблюдений) — используйте тест Шапиро–Уилка.

Для средних выборок — комбинируйте тесты (Шапиро–Уилка + визуализация).

Для больших данных — тесты почти всегда отвергают нормальность, поэтому лучше опираться на графики и здравый смысл.

Вывод

Проверка нормальности распределения — важный шаг в статистическом анализе медицинских данных.

Для малых выборок используйте Шапиро–Уилка, для больших — оценивайте результат с помощью Колмогорова–Смирнова и визуализаций.

Всегда комбинируйте формальные тесты с графическими методами.

🔎 Если вам нужен расчёт статистики для медицинского исследования или помощь с выбором корректных методов анализа — вы можете заказать услугу на сайте med-statistic.ru.

Нормальность распределения: когда и чем проверять в медицинской статистике