Как подготовить данные для анализа в Excel и SPSS в медицине

Как подготовить данные для анализа в Excel и SPSS: пошаговое руководство для медицинских исследований

Грамотная подготовка данных — один из самых недооценённых этапов медицинского исследования. Ошибка на стадии ввода и кодирования может «сломать» даже идеально подобранные статистические методы. В этой статье разберём, как правильно подготовить данные в Excel и SPSS, чтобы анализ был корректным, воспроизводимым и прозрачным.

1. До Excel и SPSS: продумываем структуру данных

Прежде чем открывать Excel или SPSS, важно ответить на несколько вопросов.

1.1. Что является единицей наблюдения?

В медицинских исследованиях единицей наблюдения чаще всего выступает:

пациент (одна строка = один пациент);
реже — визит/измерение (одна строка = один визит пациента, при лонгитюдных исследованиях);
ещё реже — отделение/клиника (при исследованиях уровня учреждений).

🚩 Важно: в пределах одного файла структура должна быть однородной. Нельзя в одной строке хранить данные одновременно по пациенту и по визиту.

1.2. Какие переменные нужны для анализа?

Составьте предварительный список переменных:

демографические: возраст, пол, индекс массы тела;
клинические: диагноз, длительность заболевания, стадия, наличие сопутствующей патологии;
шкалы и опросники: суммарные и по субшкалам (SF-36, HADS, DASH и т.п.);
исходы: улучшение/ухудшение, наличие события (инфаркт, смерть, осложнение), повторная госпитализация;
лабораторные показатели: Hb, креатинин, глюкоза и др.

Полезно сразу сделать кодбук (codebook) — таблицу-описание всех переменных:

имя переменной;
полное описание;
тип (числовая, номинальная, порядковая);
единицы измерения;
допустимые значения/коды;
правила обработки пропусков.

Этот кодбук затем легко переложить и в Excel, и в SPSS.

2. Общие принципы подготовки данных

2.1. Строки — наблюдения, столбцы — переменные

Базовое правило:

каждая строка — отдельный пациент (или визит, если так задумано);
каждый столбец — отдельная переменная.

Не нужно:

объединять несколько пациентов в одной строке;
располагать разные измерения в одной ячейке через запятую;
хранить текстовые комментарии вперемешку с числовыми значениями.

2.2. Имена переменных

Имена переменных должны быть:

краткими, но осмысленными;
без пробелов и спецсимволов (лучше использовать _);
латиницей (особенно важно для SPSS и при экспорте в другие пакеты).

Примеры удачных имён:

id — код пациента;
age — возраст;
sex — пол;
bmi — индекс массы тела;
group — группа (контроль/лечение);
hads_a — субшкала тревоги HADS;
hads_d — субшкала депрессии HADS.

Неудачные примеры:

Возраст пациента
ГРУППА!!!
1 (односимвольные и непонятные обозначения).

2.3. Типы переменных: числовые, категориальные, порядковые

Для статистики важно не только значение, но и тип переменной:

числовые (количественные) — возраст, BMI, уровень глюкозы;
категориальные (номинальные) — пол, группа лечения, наличие диагноза (да/нет);
порядковые — балл по шкале боли (0–10), стадии заболевания, классы NYHA.

Важно продумать, как вы будете кодировать категориальные и порядковые переменные (см. ниже).

3. Подготовка данных в Excel

Excel остаётся удобным инструментом для ручного ввода, первичной проверки и простой очистки данных.

3.1. Структура файла

Рекомендации:

Один лист — один набор данных.
Не размещайте несколько разных таблиц в одном листе.
Первая строка таблицы — шапка с названиями переменных.
Все последующие строки — данные пациентов.
Не используйте объединение ячеек, сложные форматирования, цветовые заливки для кодирования смыслов (кроме визуальных меток для себя).

3.2. Кодирование категориальных переменных

В Excel удобно использовать числовое кодирование:

пол: 1 = мужчина, 2 = женщина;
группа: 0 = контроль, 1 = вмешательство;
наличие заболевания: 0 = нет, 1 = да.

Главное правило — не держать текст и числа вперемешку:

не стоит писать: «мужчина», «женщина», «М», «Ж» в разных строках;
лучше использовать коды и отдельно хранить расшифровку (в кодбуке или на отдельном листе).

3.3. Работа с датами и временем

Типичные показатели:

дата включения в исследование;
дата операции;
дата осложнения;
длительность наблюдения.

Рекомендации:

вводите даты в одном формате (например, ДД.ММ.ГГГГ);
проверяйте, что Excel распознаёт их как даты, а не как текст (через формат ячейки);
длительность (в днях) удобнее хранить как отдельную числовую переменную (followup_days), рассчитанную как разность дат.

3.4. Обработка пропусков

Никогда не используйте:

0, 999, -1 в роли пропусков, если эти значения могут быть реальными.

Лучше:

оставлять ячейку пустой;
если нужно временное кодирование, чётко фиксировать его в кодбуке (например, -9 = нет данных), а потом в SPSS задать это как «missing».

3.5. Проверка данных в Excel

Минимальные шаги:

проверка диапазонов значений (Фильтр, Сортировка);
поиск явных ошибок (возраст 250 лет, отрицательная масса тела);
проверка дубликатов по id (вкладка Данные → Удалить дубликаты);
использование простых формул и сводных таблиц для первичного контроля (например, распределение по полу и возрасту).

4. Импорт данных из Excel в SPSS

Когда вы структурировали и проверили данные в Excel, можно переходить к SPSS.

4.1. Формат сохранения файла

Рекомендуется:

сохранять файл в формате *.xlsx (современный формат Excel);
по возможности, не использовать макросы и лишние листы.

Лучше создать отдельный «чистый» файл с только одной таблицей для импорта в SPSS.

4.2. Импорт в SPSS

В SPSS импорт обычно выполняется через:

File → Open → Data… → Excel
или
File → Read Text Data… (для .csv).

При импорте:

отметьте, что первая строка содержит имена переменных (если это так);
убедитесь, что SPSS корректно определил типы переменных (numeric/string).

После импорта сохраните файл в формате SPSS: *.sav.

5. Настройка переменных в SPSS

В SPSS есть два режима: Data View (таблица данных) и Variable View (таблица описания переменных). Правильная настройка переменных в Variable View — ключ к корректному анализу.

5.1. Имена и метки переменных

В Variable View для каждой переменной задайте:

Name — краткое имя (как в Excel);
Label — развёрнутое описание на русском (например: «Возраст пациента (лет)»).

Это поможет вам и рецензентам понимать, что именно анализируется.

5.2. Значения (Value Labels)

Для категориальных переменных задайте Value Labels:

для переменной sex:
1 = Мужчина
2 = Женщина;
для group:
0 = Контрольная группа
1 = Группа вмешательства.

Это позволит SPSS показывать в таблицах анализа не только цифры, но и понятные подписи.

5.3. Пропущенные значения (Missing Values)

Если вы использовали специальные коды пропусков (например, -9, -99):

в столбце Missing укажите эти коды как «discrete missing»;
SPSS при анализе не будет учитывать эти значения.

Для пустых ячеек SPSS автоматически считает такие значения пропущенными (system missing).

5.4. Тип измерения (Measure)

В столбце Measure задайте:

Nominal — для категориальных переменных без порядка (пол, группа);
Ordinal — для порядковых переменных (стадия заболевания, балл по шкале Лайкерта);
Scale — для количественных (интервальных/отношений) переменных (возраст, давление, балл по суммарной шкале).

Это важно, потому что SPSS использует эту информацию при выборе доступных методов и выводе описательной статистики.

6. Типичные ошибки при подготовке данных и как их избежать

Ошибка 1. Текст вместо чисел

Пример: вместо 1 и 2 для пола в таблице встречаются «Мужчина», «Женщина», «М», «ж» и т.д.

Как избежать:

сразу договариваться о числовом кодировании и фиксировать его в кодбуке;
использовать проверку данных (Data Validation) в Excel.

Ошибка 2. Смешивание разных структур в одном файле

Например, сначала идут данные о пациентах, а ниже — сводные таблицы и расчёты.

Как избежать:

хранить «сырой» датасет в отдельном листе/файле;
любые сводки, графики и расчёты — на других листах и в отдельных файлах.

Ошибка 3. Неодинаковые форматы дат

В одном столбце даты вида 01.02.2025, 1/2/25, 2025-02-01, а часть вообще текстом.

Как избежать:

выбрать один формат даты и придерживаться его;
при необходимости привести форматы к единому виду с помощью функций Excel (DATE, TEXT и др.).

Ошибка 4. Использование «0» вместо пропусков

Например, для неизвестного роста пациента ввести 0, а потом получить медиану роста 160 см, но с «хвостом» в 0.

Как избежать:

использовать пустые ячейки или специальные коды (с последующей настройкой missing в SPSS);
чётко описывать правила работы с пропусками в протоколе исследования.

7. Минимальный чек-лист перед анализом

Перед тем как запускать сложные модели, убедитесь, что:

Структура данных:

строки — пациенты/наблюдения;
столбцы — переменные.

Имена переменных:

латиница, без пробелов;
понятные и однозначные.

Типы переменных:

числовые vs. категориальные vs. порядковые — продуманы;
в SPSS корректно заданы Measure (Nominal/Ordinal/Scale).

Кодирование категорий:

используете стабильные числовые коды;
есть отдельный справочник/кодбук.

Пропуски:

не скрыты под «0» или «999» без описания;
в SPSS заданы как Missing (если есть специальные коды).

Диапазоны значений:

нет биологически невозможных значений (возраст 500 лет, ЧСС 0 и т.п.);
проведена базовая проверка (фильтры, минимум/максимум).

Вывод

Подготовка данных — не техническая мелочь, а полноценный этап научного исследования, который напрямую влияет на качество результатов и их интерпретацию. Аккуратная работа в Excel и грамотная настройка переменных в SPSS позволяют:

снизить риск грубых ошибок;
ускорить аналитический этап;
сделать результаты прозрачными для коллег, рецензентов и редакторов журналов.

Если вы системно будете использовать кодбук, единые правила кодирования и аккуратный импорт из Excel в SPSS, то статистический анализ станет более предсказуемым, воспроизводимым и научно убедительным.

Типы исследований в медицине: понятная классификация с примерами

Статистика для психологов: зачем она нужна и как правильно применять

Как рассчитать p-value: пошаговое объяснение для медицинских исследований

FAQ: Часто задаваемые вопросы о p-value в медицинской статистике

Обзор книги: Ермолаев О. Ю. «Математическая статистика для психологов: учебник»