Как подготовить данные для анализа в Excel и SPSS: пошаговое руководство для медицинских исследований
Грамотная подготовка данных — один из самых недооценённых этапов медицинского исследования. Ошибка на стадии ввода и кодирования может «сломать» даже идеально подобранные статистические методы. В этой статье разберём, как правильно подготовить данные в Excel и SPSS, чтобы анализ был корректным, воспроизводимым и прозрачным.
1. До Excel и SPSS: продумываем структуру данных
Прежде чем открывать Excel или SPSS, важно ответить на несколько вопросов.
1.1. Что является единицей наблюдения?
В медицинских исследованиях единицей наблюдения чаще всего выступает:
- пациент (одна строка = один пациент);
- реже — визит/измерение (одна строка = один визит пациента, при лонгитюдных исследованиях);
- ещё реже — отделение/клиника (при исследованиях уровня учреждений).
🚩 Важно: в пределах одного файла структура должна быть однородной. Нельзя в одной строке хранить данные одновременно по пациенту и по визиту.
1.2. Какие переменные нужны для анализа?
Составьте предварительный список переменных:
- демографические: возраст, пол, индекс массы тела;
- клинические: диагноз, длительность заболевания, стадия, наличие сопутствующей патологии;
- шкалы и опросники: суммарные и по субшкалам (SF-36, HADS, DASH и т.п.);
- исходы: улучшение/ухудшение, наличие события (инфаркт, смерть, осложнение), повторная госпитализация;
- лабораторные показатели: Hb, креатинин, глюкоза и др.
Полезно сразу сделать кодбук (codebook) — таблицу-описание всех переменных:
- имя переменной;
- полное описание;
- тип (числовая, номинальная, порядковая);
- единицы измерения;
- допустимые значения/коды;
- правила обработки пропусков.
Этот кодбук затем легко переложить и в Excel, и в SPSS.
2. Общие принципы подготовки данных
2.1. Строки — наблюдения, столбцы — переменные
Базовое правило:
- каждая строка — отдельный пациент (или визит, если так задумано);
- каждый столбец — отдельная переменная.
Не нужно:
- объединять несколько пациентов в одной строке;
- располагать разные измерения в одной ячейке через запятую;
- хранить текстовые комментарии вперемешку с числовыми значениями.
2.2. Имена переменных
Имена переменных должны быть:
- краткими, но осмысленными;
- без пробелов и спецсимволов (лучше использовать _);
- латиницей (особенно важно для SPSS и при экспорте в другие пакеты).
Примеры удачных имён:
- id — код пациента;
- age — возраст;
- sex — пол;
- bmi — индекс массы тела;
- group — группа (контроль/лечение);
- hads_a — субшкала тревоги HADS;
- hads_d — субшкала депрессии HADS.
Неудачные примеры:
- Возраст пациента
- ГРУППА!!!
- 1 (односимвольные и непонятные обозначения).
2.3. Типы переменных: числовые, категориальные, порядковые
Для статистики важно не только значение, но и тип переменной:
- числовые (количественные) — возраст, BMI, уровень глюкозы;
- категориальные (номинальные) — пол, группа лечения, наличие диагноза (да/нет);
- порядковые — балл по шкале боли (0–10), стадии заболевания, классы NYHA.
Важно продумать, как вы будете кодировать категориальные и порядковые переменные (см. ниже).
3. Подготовка данных в Excel
Excel остаётся удобным инструментом для ручного ввода, первичной проверки и простой очистки данных.
3.1. Структура файла
Рекомендации:
- Один лист — один набор данных.
- Не размещайте несколько разных таблиц в одном листе.
- Первая строка таблицы — шапка с названиями переменных.
- Все последующие строки — данные пациентов.
- Не используйте объединение ячеек, сложные форматирования, цветовые заливки для кодирования смыслов (кроме визуальных меток для себя).
3.2. Кодирование категориальных переменных
В Excel удобно использовать числовое кодирование:
- пол: 1 = мужчина, 2 = женщина;
- группа: 0 = контроль, 1 = вмешательство;
- наличие заболевания: 0 = нет, 1 = да.
Главное правило — не держать текст и числа вперемешку:
- не стоит писать: «мужчина», «женщина», «М», «Ж» в разных строках;
- лучше использовать коды и отдельно хранить расшифровку (в кодбуке или на отдельном листе).
3.3. Работа с датами и временем
Типичные показатели:
- дата включения в исследование;
- дата операции;
- дата осложнения;
- длительность наблюдения.
Рекомендации:
- вводите даты в одном формате (например, ДД.ММ.ГГГГ);
- проверяйте, что Excel распознаёт их как даты, а не как текст (через формат ячейки);
- длительность (в днях) удобнее хранить как отдельную числовую переменную (followup_days), рассчитанную как разность дат.
3.4. Обработка пропусков
Никогда не используйте:
- 0, 999, -1 в роли пропусков, если эти значения могут быть реальными.
Лучше:
- оставлять ячейку пустой;
- если нужно временное кодирование, чётко фиксировать его в кодбуке (например, -9 = нет данных), а потом в SPSS задать это как «missing».
3.5. Проверка данных в Excel
Минимальные шаги:
- проверка диапазонов значений (Фильтр, Сортировка);
- поиск явных ошибок (возраст 250 лет, отрицательная масса тела);
- проверка дубликатов по id (вкладка Данные → Удалить дубликаты);
- использование простых формул и сводных таблиц для первичного контроля (например, распределение по полу и возрасту).
4. Импорт данных из Excel в SPSS
Когда вы структурировали и проверили данные в Excel, можно переходить к SPSS.
4.1. Формат сохранения файла
Рекомендуется:
- сохранять файл в формате *.xlsx (современный формат Excel);
- по возможности, не использовать макросы и лишние листы.
Лучше создать отдельный «чистый» файл с только одной таблицей для импорта в SPSS.
4.2. Импорт в SPSS
В SPSS импорт обычно выполняется через:
- File → Open → Data… → Excel
- или
- File → Read Text Data… (для .csv).
При импорте:
- отметьте, что первая строка содержит имена переменных (если это так);
- убедитесь, что SPSS корректно определил типы переменных (numeric/string).
После импорта сохраните файл в формате SPSS: *.sav.
5. Настройка переменных в SPSS
В SPSS есть два режима: Data View (таблица данных) и Variable View (таблица описания переменных). Правильная настройка переменных в Variable View — ключ к корректному анализу.
5.1. Имена и метки переменных
В Variable View для каждой переменной задайте:
- Name — краткое имя (как в Excel);
- Label — развёрнутое описание на русском (например: «Возраст пациента (лет)»).
Это поможет вам и рецензентам понимать, что именно анализируется.
5.2. Значения (Value Labels)
Для категориальных переменных задайте Value Labels:
- для переменной sex:
- 1 = Мужчина
- 2 = Женщина;
- для group:
- 0 = Контрольная группа
- 1 = Группа вмешательства.
Это позволит SPSS показывать в таблицах анализа не только цифры, но и понятные подписи.
5.3. Пропущенные значения (Missing Values)
Если вы использовали специальные коды пропусков (например, -9, -99):
- в столбце Missing укажите эти коды как «discrete missing»;
- SPSS при анализе не будет учитывать эти значения.
Для пустых ячеек SPSS автоматически считает такие значения пропущенными (system missing).
5.4. Тип измерения (Measure)
В столбце Measure задайте:
- Nominal — для категориальных переменных без порядка (пол, группа);
- Ordinal — для порядковых переменных (стадия заболевания, балл по шкале Лайкерта);
- Scale — для количественных (интервальных/отношений) переменных (возраст, давление, балл по суммарной шкале).
Это важно, потому что SPSS использует эту информацию при выборе доступных методов и выводе описательной статистики.
6. Типичные ошибки при подготовке данных и как их избежать
Ошибка 1. Текст вместо чисел
Пример: вместо 1 и 2 для пола в таблице встречаются «Мужчина», «Женщина», «М», «ж» и т.д.
Как избежать:
- сразу договариваться о числовом кодировании и фиксировать его в кодбуке;
- использовать проверку данных (Data Validation) в Excel.
Ошибка 2. Смешивание разных структур в одном файле
Например, сначала идут данные о пациентах, а ниже — сводные таблицы и расчёты.
Как избежать:
- хранить «сырой» датасет в отдельном листе/файле;
- любые сводки, графики и расчёты — на других листах и в отдельных файлах.
Ошибка 3. Неодинаковые форматы дат
В одном столбце даты вида 01.02.2025, 1/2/25, 2025-02-01, а часть вообще текстом.
Как избежать:
- выбрать один формат даты и придерживаться его;
- при необходимости привести форматы к единому виду с помощью функций Excel (DATE, TEXT и др.).
Ошибка 4. Использование «0» вместо пропусков
Например, для неизвестного роста пациента ввести 0, а потом получить медиану роста 160 см, но с «хвостом» в 0.
Как избежать:
- использовать пустые ячейки или специальные коды (с последующей настройкой missing в SPSS);
- чётко описывать правила работы с пропусками в протоколе исследования.
7. Минимальный чек-лист перед анализом
Перед тем как запускать сложные модели, убедитесь, что:
Структура данных:
- строки — пациенты/наблюдения;
- столбцы — переменные.
Имена переменных:
- латиница, без пробелов;
- понятные и однозначные.
Типы переменных:
- числовые vs. категориальные vs. порядковые — продуманы;
- в SPSS корректно заданы Measure (Nominal/Ordinal/Scale).
Кодирование категорий:
- используете стабильные числовые коды;
- есть отдельный справочник/кодбук.
Пропуски:
- не скрыты под «0» или «999» без описания;
- в SPSS заданы как Missing (если есть специальные коды).
Диапазоны значений:
- нет биологически невозможных значений (возраст 500 лет, ЧСС 0 и т.п.);
- проведена базовая проверка (фильтры, минимум/максимум).
Вывод
Подготовка данных — не техническая мелочь, а полноценный этап научного исследования, который напрямую влияет на качество результатов и их интерпретацию. Аккуратная работа в Excel и грамотная настройка переменных в SPSS позволяют:
- снизить риск грубых ошибок;
- ускорить аналитический этап;
- сделать результаты прозрачными для коллег, рецензентов и редакторов журналов.
Если вы системно будете использовать кодбук, единые правила кодирования и аккуратный импорт из Excel в SPSS, то статистический анализ станет более предсказуемым, воспроизводимым и научно убедительным.
Типы исследований в медицине: понятная классификация с примерами
Статистика для психологов: зачем она нужна и как правильно применять
Как рассчитать p-value: пошаговое объяснение для медицинских исследований
FAQ: Часто задаваемые вопросы о p-value в медицинской статистике
Обзор книги: Ермолаев О. Ю. «Математическая статистика для психологов: учебник»
Статистика для психологов: зачем она нужна и как правильно применять
Как рассчитать p-value: пошаговое объяснение для медицинских исследований
FAQ: Часто задаваемые вопросы о p-value в медицинской статистике
Обзор книги: Ермолаев О. Ю. «Математическая статистика для психологов: учебник»