Публикации

Как подготовить данные для анализа в Excel и SPSS: пошаговое руководство для медицинских исследований

2025-11-17 08:48

Как подготовить данные для анализа в Excel и SPSS: пошаговое руководство для медицинских исследований

Грамотная подготовка данных — один из самых недооценённых этапов медицинского исследования. Ошибка на стадии ввода и кодирования может «сломать» даже идеально подобранные статистические методы. В этой статье разберём, как правильно подготовить данные в Excel и SPSS, чтобы анализ был корректным, воспроизводимым и прозрачным.

1. До Excel и SPSS: продумываем структуру данных

Прежде чем открывать Excel или SPSS, важно ответить на несколько вопросов.

1.1. Что является единицей наблюдения?

В медицинских исследованиях единицей наблюдения чаще всего выступает:
  • пациент (одна строка = один пациент);
  • реже — визит/измерение (одна строка = один визит пациента, при лонгитюдных исследованиях);
  • ещё реже — отделение/клиника (при исследованиях уровня учреждений).
🚩 Важно: в пределах одного файла структура должна быть однородной. Нельзя в одной строке хранить данные одновременно по пациенту и по визиту.

1.2. Какие переменные нужны для анализа?

Составьте предварительный список переменных:
  • демографические: возраст, пол, индекс массы тела;
  • клинические: диагноз, длительность заболевания, стадия, наличие сопутствующей патологии;
  • шкалы и опросники: суммарные и по субшкалам (SF-36, HADS, DASH и т.п.);
  • исходы: улучшение/ухудшение, наличие события (инфаркт, смерть, осложнение), повторная госпитализация;
  • лабораторные показатели: Hb, креатинин, глюкоза и др.
Полезно сразу сделать кодбук (codebook) — таблицу-описание всех переменных:
  • имя переменной;
  • полное описание;
  • тип (числовая, номинальная, порядковая);
  • единицы измерения;
  • допустимые значения/коды;
  • правила обработки пропусков.
Этот кодбук затем легко переложить и в Excel, и в SPSS.

2. Общие принципы подготовки данных

2.1. Строки — наблюдения, столбцы — переменные

Базовое правило:
  • каждая строка — отдельный пациент (или визит, если так задумано);
  • каждый столбец — отдельная переменная.
Не нужно:
  • объединять несколько пациентов в одной строке;
  • располагать разные измерения в одной ячейке через запятую;
  • хранить текстовые комментарии вперемешку с числовыми значениями.

2.2. Имена переменных

Имена переменных должны быть:
  • краткими, но осмысленными;
  • без пробелов и спецсимволов (лучше использовать _);
  • латиницей (особенно важно для SPSS и при экспорте в другие пакеты).
Примеры удачных имён:
  • id — код пациента;
  • age — возраст;
  • sex — пол;
  • bmi — индекс массы тела;
  • group — группа (контроль/лечение);
  • hads_a — субшкала тревоги HADS;
  • hads_d — субшкала депрессии HADS.
Неудачные примеры:
  • Возраст пациента
  • ГРУППА!!!
  • 1 (односимвольные и непонятные обозначения).

2.3. Типы переменных: числовые, категориальные, порядковые

Для статистики важно не только значение, но и тип переменной:
  • числовые (количественные) — возраст, BMI, уровень глюкозы;
  • категориальные (номинальные) — пол, группа лечения, наличие диагноза (да/нет);
  • порядковые — балл по шкале боли (0–10), стадии заболевания, классы NYHA.
Важно продумать, как вы будете кодировать категориальные и порядковые переменные (см. ниже).

3. Подготовка данных в Excel

Excel остаётся удобным инструментом для ручного ввода, первичной проверки и простой очистки данных.

3.1. Структура файла

Рекомендации:
  1. Один лист — один набор данных.
  2. Не размещайте несколько разных таблиц в одном листе.
  3. Первая строка таблицы — шапка с названиями переменных.
  4. Все последующие строки — данные пациентов.
  5. Не используйте объединение ячеек, сложные форматирования, цветовые заливки для кодирования смыслов (кроме визуальных меток для себя).

3.2. Кодирование категориальных переменных

В Excel удобно использовать числовое кодирование:
  • пол: 1 = мужчина, 2 = женщина;
  • группа: 0 = контроль, 1 = вмешательство;
  • наличие заболевания: 0 = нет, 1 = да.
Главное правило — не держать текст и числа вперемешку:
  • не стоит писать: «мужчина», «женщина», «М», «Ж» в разных строках;
  • лучше использовать коды и отдельно хранить расшифровку (в кодбуке или на отдельном листе).

3.3. Работа с датами и временем

Типичные показатели:
  • дата включения в исследование;
  • дата операции;
  • дата осложнения;
  • длительность наблюдения.
Рекомендации:
  • вводите даты в одном формате (например, ДД.ММ.ГГГГ);
  • проверяйте, что Excel распознаёт их как даты, а не как текст (через формат ячейки);
  • длительность (в днях) удобнее хранить как отдельную числовую переменную (followup_days), рассчитанную как разность дат.

3.4. Обработка пропусков

Никогда не используйте:
  • 0, 999, -1 в роли пропусков, если эти значения могут быть реальными.
Лучше:
  • оставлять ячейку пустой;
  • если нужно временное кодирование, чётко фиксировать его в кодбуке (например, -9 = нет данных), а потом в SPSS задать это как «missing».

3.5. Проверка данных в Excel

Минимальные шаги:
  • проверка диапазонов значений (Фильтр, Сортировка);
  • поиск явных ошибок (возраст 250 лет, отрицательная масса тела);
  • проверка дубликатов по id (вкладка Данные → Удалить дубликаты);
  • использование простых формул и сводных таблиц для первичного контроля (например, распределение по полу и возрасту).

4. Импорт данных из Excel в SPSS

Когда вы структурировали и проверили данные в Excel, можно переходить к SPSS.

4.1. Формат сохранения файла

Рекомендуется:
  • сохранять файл в формате *.xlsx (современный формат Excel);
  • по возможности, не использовать макросы и лишние листы.
Лучше создать отдельный «чистый» файл с только одной таблицей для импорта в SPSS.

4.2. Импорт в SPSS

В SPSS импорт обычно выполняется через:
  • File → Open → Data… → Excel
  • или
  • File → Read Text Data… (для .csv).
При импорте:
  • отметьте, что первая строка содержит имена переменных (если это так);
  • убедитесь, что SPSS корректно определил типы переменных (numeric/string).
После импорта сохраните файл в формате SPSS: *.sav.

5. Настройка переменных в SPSS

В SPSS есть два режима: Data View (таблица данных) и Variable View (таблица описания переменных). Правильная настройка переменных в Variable View — ключ к корректному анализу.

5.1. Имена и метки переменных

В Variable View для каждой переменной задайте:
  • Name — краткое имя (как в Excel);
  • Label — развёрнутое описание на русском (например: «Возраст пациента (лет)»).
Это поможет вам и рецензентам понимать, что именно анализируется.

5.2. Значения (Value Labels)

Для категориальных переменных задайте Value Labels:
  • для переменной sex:
  • 1 = Мужчина
  • 2 = Женщина;
  • для group:
  • 0 = Контрольная группа
  • 1 = Группа вмешательства.
Это позволит SPSS показывать в таблицах анализа не только цифры, но и понятные подписи.

5.3. Пропущенные значения (Missing Values)

Если вы использовали специальные коды пропусков (например, -9, -99):
  • в столбце Missing укажите эти коды как «discrete missing»;
  • SPSS при анализе не будет учитывать эти значения.
Для пустых ячеек SPSS автоматически считает такие значения пропущенными (system missing).

5.4. Тип измерения (Measure)

В столбце Measure задайте:
  • Nominal — для категориальных переменных без порядка (пол, группа);
  • Ordinal — для порядковых переменных (стадия заболевания, балл по шкале Лайкерта);
  • Scale — для количественных (интервальных/отношений) переменных (возраст, давление, балл по суммарной шкале).
Это важно, потому что SPSS использует эту информацию при выборе доступных методов и выводе описательной статистики.

6. Типичные ошибки при подготовке данных и как их избежать

Ошибка 1. Текст вместо чисел

Пример: вместо 1 и 2 для пола в таблице встречаются «Мужчина», «Женщина», «М», «ж» и т.д.
Как избежать:
  • сразу договариваться о числовом кодировании и фиксировать его в кодбуке;
  • использовать проверку данных (Data Validation) в Excel.

Ошибка 2. Смешивание разных структур в одном файле

Например, сначала идут данные о пациентах, а ниже — сводные таблицы и расчёты.
Как избежать:
  • хранить «сырой» датасет в отдельном листе/файле;
  • любые сводки, графики и расчёты — на других листах и в отдельных файлах.

Ошибка 3. Неодинаковые форматы дат

В одном столбце даты вида 01.02.2025, 1/2/25, 2025-02-01, а часть вообще текстом.
Как избежать:
  • выбрать один формат даты и придерживаться его;
  • при необходимости привести форматы к единому виду с помощью функций Excel (DATE, TEXT и др.).

Ошибка 4. Использование «0» вместо пропусков

Например, для неизвестного роста пациента ввести 0, а потом получить медиану роста 160 см, но с «хвостом» в 0.
Как избежать:
  • использовать пустые ячейки или специальные коды (с последующей настройкой missing в SPSS);
  • чётко описывать правила работы с пропусками в протоколе исследования.

7. Минимальный чек-лист перед анализом

Перед тем как запускать сложные модели, убедитесь, что:
Структура данных:
  • строки — пациенты/наблюдения;
  • столбцы — переменные.
Имена переменных:
  • латиница, без пробелов;
  • понятные и однозначные.
Типы переменных:
  • числовые vs. категориальные vs. порядковые — продуманы;
  • в SPSS корректно заданы Measure (Nominal/Ordinal/Scale).
Кодирование категорий:
  • используете стабильные числовые коды;
  • есть отдельный справочник/кодбук.
Пропуски:
  • не скрыты под «0» или «999» без описания;
  • в SPSS заданы как Missing (если есть специальные коды).
Диапазоны значений:
  • нет биологически невозможных значений (возраст 500 лет, ЧСС 0 и т.п.);
  • проведена базовая проверка (фильтры, минимум/максимум).

Вывод

Подготовка данных — не техническая мелочь, а полноценный этап научного исследования, который напрямую влияет на качество результатов и их интерпретацию. Аккуратная работа в Excel и грамотная настройка переменных в SPSS позволяют:
  • снизить риск грубых ошибок;
  • ускорить аналитический этап;
  • сделать результаты прозрачными для коллег, рецензентов и редакторов журналов.
Если вы системно будете использовать кодбук, единые правила кодирования и аккуратный импорт из Excel в SPSS, то статистический анализ станет более предсказуемым, воспроизводимым и научно убедительным.