Как подготовить данные для анализа в Excel и SPSS: пошаговое руководство для медицинских исследований
2025-11-17 08:48
Как подготовить данные для анализа в Excel и SPSS: пошаговое руководство для медицинских исследований
Грамотная подготовка данных — один из самых недооценённых этапов медицинского исследования. Ошибка на стадии ввода и кодирования может «сломать» даже идеально подобранные статистические методы. В этой статье разберём, как правильно подготовить данные в Excel и SPSS, чтобы анализ был корректным, воспроизводимым и прозрачным.
1. До Excel и SPSS: продумываем структуру данных
Прежде чем открывать Excel или SPSS, важно ответить на несколько вопросов.
1.1. Что является единицей наблюдения?
В медицинских исследованиях единицей наблюдения чаще всего выступает:
пациент (одна строка = один пациент);
реже — визит/измерение (одна строка = один визит пациента, при лонгитюдных исследованиях);
ещё реже — отделение/клиника (при исследованиях уровня учреждений).
🚩 Важно: в пределах одного файла структура должна быть однородной. Нельзя в одной строке хранить данные одновременно по пациенту и по визиту.
1.2. Какие переменные нужны для анализа?
Составьте предварительный список переменных:
демографические: возраст, пол, индекс массы тела;
клинические: диагноз, длительность заболевания, стадия, наличие сопутствующей патологии;
шкалы и опросники: суммарные и по субшкалам (SF-36, HADS, DASH и т.п.);
исходы: улучшение/ухудшение, наличие события (инфаркт, смерть, осложнение), повторная госпитализация;
лабораторные показатели: Hb, креатинин, глюкоза и др.
Полезно сразу сделать кодбук (codebook) — таблицу-описание всех переменных:
имя переменной;
полное описание;
тип (числовая, номинальная, порядковая);
единицы измерения;
допустимые значения/коды;
правила обработки пропусков.
Этот кодбук затем легко переложить и в Excel, и в SPSS.
2. Общие принципы подготовки данных
2.1. Строки — наблюдения, столбцы — переменные
Базовое правило:
каждая строка — отдельный пациент (или визит, если так задумано);
каждый столбец — отдельная переменная.
Не нужно:
объединять несколько пациентов в одной строке;
располагать разные измерения в одной ячейке через запятую;
хранить текстовые комментарии вперемешку с числовыми значениями.
2.2. Имена переменных
Имена переменных должны быть:
краткими, но осмысленными;
без пробелов и спецсимволов (лучше использовать _);
латиницей (особенно важно для SPSS и при экспорте в другие пакеты).
поиск явных ошибок (возраст 250 лет, отрицательная масса тела);
проверка дубликатов по id (вкладка Данные → Удалить дубликаты);
использование простых формул и сводных таблиц для первичного контроля (например, распределение по полу и возрасту).
4. Импорт данных из Excel в SPSS
Когда вы структурировали и проверили данные в Excel, можно переходить к SPSS.
4.1. Формат сохранения файла
Рекомендуется:
сохранять файл в формате *.xlsx (современный формат Excel);
по возможности, не использовать макросы и лишние листы.
Лучше создать отдельный «чистый» файл с только одной таблицей для импорта в SPSS.
4.2. Импорт в SPSS
В SPSS импорт обычно выполняется через:
File → Open → Data… → Excel
или
File → Read Text Data… (для .csv).
При импорте:
отметьте, что первая строка содержит имена переменных (если это так);
убедитесь, что SPSS корректно определил типы переменных (numeric/string).
После импорта сохраните файл в формате SPSS: *.sav.
5. Настройка переменных в SPSS
В SPSS есть два режима: Data View (таблица данных) и Variable View (таблица описания переменных). Правильная настройка переменных в Variable View — ключ к корректному анализу.
5.1. Имена и метки переменных
В Variable View для каждой переменной задайте:
Name — краткое имя (как в Excel);
Label — развёрнутое описание на русском (например: «Возраст пациента (лет)»).
Это поможет вам и рецензентам понимать, что именно анализируется.
5.2. Значения (Value Labels)
Для категориальных переменных задайте Value Labels:
для переменной sex:
1 = Мужчина
2 = Женщина;
для group:
0 = Контрольная группа
1 = Группа вмешательства.
Это позволит SPSS показывать в таблицах анализа не только цифры, но и понятные подписи.
5.3. Пропущенные значения (Missing Values)
Если вы использовали специальные коды пропусков (например, -9, -99):
в столбце Missing укажите эти коды как «discrete missing»;
SPSS при анализе не будет учитывать эти значения.
Для пустых ячеек SPSS автоматически считает такие значения пропущенными (system missing).
5.4. Тип измерения (Measure)
В столбце Measure задайте:
Nominal — для категориальных переменных без порядка (пол, группа);
Ordinal — для порядковых переменных (стадия заболевания, балл по шкале Лайкерта);
Scale — для количественных (интервальных/отношений) переменных (возраст, давление, балл по суммарной шкале).
Это важно, потому что SPSS использует эту информацию при выборе доступных методов и выводе описательной статистики.
6. Типичные ошибки при подготовке данных и как их избежать
Ошибка 1. Текст вместо чисел
Пример: вместо 1 и 2 для пола в таблице встречаются «Мужчина», «Женщина», «М», «ж» и т.д.
Как избежать:
сразу договариваться о числовом кодировании и фиксировать его в кодбуке;
использовать проверку данных (Data Validation) в Excel.
Ошибка 2. Смешивание разных структур в одном файле
Например, сначала идут данные о пациентах, а ниже — сводные таблицы и расчёты.
Как избежать:
хранить «сырой» датасет в отдельном листе/файле;
любые сводки, графики и расчёты — на других листах и в отдельных файлах.
Ошибка 3. Неодинаковые форматы дат
В одном столбце даты вида 01.02.2025, 1/2/25, 2025-02-01, а часть вообще текстом.
Как избежать:
выбрать один формат даты и придерживаться его;
при необходимости привести форматы к единому виду с помощью функций Excel (DATE, TEXT и др.).
Ошибка 4. Использование «0» вместо пропусков
Например, для неизвестного роста пациента ввести 0, а потом получить медиану роста 160 см, но с «хвостом» в 0.
Как избежать:
использовать пустые ячейки или специальные коды (с последующей настройкой missing в SPSS);
чётко описывать правила работы с пропусками в протоколе исследования.
7. Минимальный чек-лист перед анализом
Перед тем как запускать сложные модели, убедитесь, что:
Структура данных:
строки — пациенты/наблюдения;
столбцы — переменные.
Имена переменных:
латиница, без пробелов;
понятные и однозначные.
Типы переменных:
числовые vs. категориальные vs. порядковые — продуманы;
в SPSS корректно заданы Measure (Nominal/Ordinal/Scale).
Кодирование категорий:
используете стабильные числовые коды;
есть отдельный справочник/кодбук.
Пропуски:
не скрыты под «0» или «999» без описания;
в SPSS заданы как Missing (если есть специальные коды).
Диапазоны значений:
нет биологически невозможных значений (возраст 500 лет, ЧСС 0 и т.п.);
проведена базовая проверка (фильтры, минимум/максимум).
Вывод
Подготовка данных — не техническая мелочь, а полноценный этап научного исследования, который напрямую влияет на качество результатов и их интерпретацию. Аккуратная работа в Excel и грамотная настройка переменных в SPSS позволяют:
снизить риск грубых ошибок;
ускорить аналитический этап;
сделать результаты прозрачными для коллег, рецензентов и редакторов журналов.
Если вы системно будете использовать кодбук, единые правила кодирования и аккуратный импорт из Excel в SPSS, то статистический анализ станет более предсказуемым, воспроизводимым и научно убедительным.