(CSV 制作 + 模板选择 + 变量设置 + 统计方法 + 结果解读)
欢迎使用 CME 麻醉论坛的“统计分析工具”。
它的设计目标是:让临床科研用户在不依赖复杂统计软件的情况下,快速获得规范、可复核、可用于论文写作的统计结果与表格(支持 Word 下载)。
本指南将按真实科研流程一步步说明:
✅ 如何制作合格 CSV 文件
✅ 如何命名变量(列名)最稳妥
✅ 如何准备“变量字典表”(变量含义/单位/数据类型)
✅ 如何选择统计模板(Table 1 / Table 2 / 回归)
✅ 如何设置分组变量、结局变量、白名单、黑名单
✅ 系统如何选择统计检验方法(包括 Fisher 触发条件)
✅ 如何查看报告、下载 Word 表格并用于论文写作
0. 使用权限说明:仅对白金会员开放
本统计分析工具属于 CME 麻醉论坛的高级科研功能,仅对白金会员开放使用。
0.1 如何成为白金会员?
开通方式非常简单:
1)进入网站页面 “我的订单”
2)选择 白金会员
3)完成支付后即可开通并使用统计分析工具(立即生效)
白金会员开通后,你将获得:统计分析工具权限、模板化输出报告、Word 表格下载等科研效率支持。
1. 第一步:准备一个“合格的 CSV 文件”(最重要)
统计分析工具的输入是 CSV 文件(逗号分隔值)。
你可以用以下任意方式制作 CSV:
-
Excel / WPS:编辑好表格 → 另存为 CSV(UTF-8)
-
Numbers(Mac/iPad)
-
HIS/电子病历系统导出
-
REDCap、问卷星、数据库导出
✅ 强烈建议:最终提交 CSV 前,用 Excel/WPS 打开检查一遍,再保存一次,避免编码和格式问题。
1.1 CSV 的基本结构:一行代表一个病例(或一次观察)
推荐结构:
-
每一行 = 1 个患者/病例
-
每一列 = 1 个变量
-
第一行必须是变量名(表头)
示例(简化):
1.2 变量命名规则(列名)——推荐简短英文(强烈建议)
为了保证统计分析稳定且结果可复核,建议列名遵循以下规则:
✅ 规则 1:只用英文/数字/下划线
-
✅
age -
✅
bmi -
✅
op_time_min -
✅
spo2_min -
❌
年龄 -
❌
手术时间(min) -
❌
SpO₂最低值
✅ 规则 2:不要有空格
-
✅
op_time_min -
❌
op time min
✅ 规则 3:推荐把单位写进变量名后缀
-
✅
weight_kg -
✅
height_cm -
✅
op_time_min -
✅
bleeding_ml -
✅
dose_mgkg
这样你导出 Word 表格后,复核和写论文会非常轻松。
1.3 变量内容格式建议(推荐)
① 连续变量(数值型)直接填数字
✅ age = 5
✅ op_time_min = 55
❌ 不要写成 55 min 或 88 bpm(单位不要混进数据)
② 二分类变量(建议 0/1 或 Yes/No)
✅ complication = 0/1
✅ smoke = 0/1
③ 分类变量(建议用短文本或数字编码)
✅ sex = M/F
✅ group = A/B
✅ asa = 1/2/3
1.4 缺失值怎么表示?(很关键)
缺失值建议写成:
-
✅ 空(留空)
-
✅
NA
不建议写:
-
❌
- -
❌
无 -
❌
unknown
2. 强烈建议你额外准备一张“变量字典表”(变量说明书)
除了 CSV,本工具强烈建议你同时准备一份“变量字典表”(自己保存,不必上传)。
这是团队协作、论文写作、审稿复核时最重要的一步。
推荐格式如下(Excel/Word 均可):
| 变量名 | 中文含义 | 单位 | 数据类型 | 取值范围/编码 | 备注 |
|---|---|---|---|---|---|
| id | 受试者编号 | 无 | 字符 | 001/002… | 不参与分析 |
| group | 分组 | 无 | 分类 | A/B | 主要比较 |
| age | 年龄 | year | 连续 | 0~18 | 入组时 |
| sex | 性别 | 无 | 分类 | M/F | 统一大写 |
| bmi | 体重指数 | kg/m² | 连续 | 10~40 | 可缺失 |
| asa | ASA分级 | 无 | 分类 | 1/2/3 | 医生评估 |
| op_time_min | 手术时间 | min | 连续 | >0 | 麻醉记录 |
| bleeding_ml | 出血量 | ml | 连续 | ≥0 | 估算或计量 |
3. 上传 CSV → 创建统计任务
在统计分析页面:
1)点击 上传 CSV
2)选择 CSV 文件
3)选择一个统计模板
4)点击 创建任务
创建成功后会进入 任务详情页,你可以设置参数并运行统计。
4. 统计模板怎么选?(你要做什么分析)
目前统计分析工具采用“模板驱动”:
-
不同模板输出不同结构的统计结果
-
结果包含:在线报告(HTML)+ Word 表格(DOCX)+ JSON
4.1 Table 1:基线资料表(Cohort Characteristics)
适用场景:
-
回顾性队列、RCT、分组对比
-
生成论文标准 Table 1:人口学特征与基线指标
你通常需要设置:
-
✅ 分组变量(group_col):例如
group -
✅ 白名单/黑名单:控制哪些变量进入 Table 1
4.2 Table 2:结局分析表(Outcomes)
适用场景:
-
你希望对一组结局变量进行统计比较
-
例如:出血量、插管次数、并发症发生率、恢复时间等
你通常需要设置:
-
✅ 分组变量(group_col):例如
group -
✅ 结局变量白名单(whitelist,多选):例如
bleeding_ml、complication、los_day -
✅ 黑名单(blacklist):排除 ID、备注等列
4.3 回归模板(Regression:线性/Logistic 等)
回归模板适用于更“论文级”的分析:
在比较组别效应时,进一步控制混杂因素(协变量)。
✅ 回归模板里你需要理解的两个关键设置
① 主要结局(primary_outcome):设置为“因变量”
也就是你想解释/预测的那一列:
-
如果是连续结局:例如
bleeding_ml、los_day、op_time_min -
如果是二分类结局:例如
complication(0/1)、death(0/1)
📌 举例:
如果你想分析 “分组是否影响出血量”,那么:
-
primary_outcome = bleeding_ml
-
分组变量 group_col = group
② 白名单(whitelist):设置为“自变量候选集合”
白名单在回归里建议放入:
-
✅ 分组变量(例如
group) -
✅ 需要调整的协变量(混杂因素)
-
age -
sex -
bmi -
asa -
其他基线差异明显且医学上合理的变量
-
📌 举例:
你想回归模型调整年龄、性别、ASA:
-
primary_outcome = bleeding_ml
-
whitelist = group, age, sex, asa
注意:白名单放太多变量容易导致过拟合或模型不稳定(尤其样本量小),建议在临床逻辑与样本量允许范围内选择。
5. 变量选择怎么做?(白名单/黑名单的意义)
你在任务详情页可以看到:
-
分组变量(group_col)
-
主要结局(primary_outcome)
-
白名单(whitelist,多选)
-
黑名单(blacklist,多选)
这套机制的意义是:
✅ 医学数据变量多且混杂
✅ 默认“全部变量都分析”风险太高
✅ 白名单/黑名单让分析更安全、更可控、更像科研真实工作
5.1 白名单(Whitelist):我只分析这些列(推荐)
强烈建议你用白名单控制变量集合,尤其适合:
-
Table 1:放入基线变量
-
Table 2:放入结局变量(多选)
-
回归:放入协变量 + 分组变量
5.2 黑名单(Blacklist):我明确不分析这些列
黑名单非常有用,常见要排除的列:
-
id -
name -
note -
remark -
comment -
timestamp
6. 系统如何选择统计检验方法?(核心规则说明)
你的统计模板输出不仅仅是“结果”,更重要的是:它会尽量按科研规范自动选择合适的检验方法。
下面是本工具的总体规则说明(用户能看懂、也能用于论文 Methods 部分):
6.1 变量类型分类(决定统计方法的第一步)
工具会先把变量分为两类:
✅ 连续变量(数值型)
例如:
-
age -
bmi -
bleeding_ml -
op_time_min
✅ 分类变量(非连续变量)
例如:
-
sex -
group -
asa -
complication(0/1)
不同类型变量使用不同检验体系。
6.2 Table 1 / Table 2 的组间比较:连续变量用什么检验?
对于连续变量(例如 age、bmi、bleeding_ml),系统会依据:
1)数据是否近似正态分布
2)两组方差是否齐(homogeneity of variance)
来选择检验方法。
✅ 情况 A:近似正态 + 方差齐
➡️ 优先使用 独立样本 t 检验(Student’s t-test)
✅ 情况 B:近似正态 + 方差不齐
➡️ 优先使用 Welch’s t-test(更稳健)
✅ 情况 C:明显非正态分布
➡️ 优先使用 Wilcoxon 秩和检验(Mann–Whitney U)
因此你在报告中会看到:同样是连续变量,不同变量可能使用不同检验,这是正常且更科学的。
6.3 分类变量用什么检验?(卡方 vs Fisher)
对于分类变量(例如 sex、asa、complication),常用方法是:
-
Pearson 卡方检验(Chi-square test)
-
Fisher 精确检验(Fisher’s exact test)
✅ Fisher 检验的触发条件(非常重要)
当列联表中出现以下情况,卡方检验的适用性下降,系统会自动/优先使用 Fisher:
-
样本量较小
-
某些格子的期望频数过低
-
常见经验规则:
-
任一格期望频数 < 1,或
-
超过 20% 的格期望频数 < 5
-
📌 通俗理解:
当你的分类变量非常偏(例如事件很少、某组几乎没有发生),Fisher 更可靠。
6.4 结果展示方式(与检验方法对应)
为了符合医学论文的规范输出:
连续变量通常会输出:
-
正态倾向:均值 ± 标准差
-
非正态倾向:中位数(IQR)
分类变量通常会输出:
-
n(%)
并在对应位置给出 P 值。
7. 运行统计 → 查看报告 → 下载 Word 表格
在任务详情页你可以:
✅ 保存参数并提交统计
✅ 在线查看报告(HTML)
✅ 下载表格(DOCX)
✅ 下载结果(JSON)
✅ 下载日志(log.txt)
7.1 在线查看报告(HTML)
适合快速浏览与核对,尤其适合:
-
检查变量是否选对
-
看每个变量的数据分布与缺失情况
-
了解系统最终采用了哪种检验方法
7.2 下载表格 DOCX(Word 版 Table 1 / Table 2)
这是科研用户最常用的输出文件,适用于:
✅ 直接复制进论文 Word
✅ 提交给合作者修改
✅ 根据目标期刊格式排版
7.3 下载 result.json(结构化结果)
适合进一步用途:
-
自动生成结果段落(Results)
-
自动生成图表与摘要
-
将来用于科研自动化与 AI 辅助写作
8. 常见问题(偏科研角度的提醒)
✅ 建议你每次分析前先确认:
-
列名是否规范(英文、无空格、无奇怪符号)
-
分组变量是否只有 A/B(或你想要的多组)
-
分类变量编码是否一致(例如 M/F、1/0)
-
结局变量是否确实是结局(Table 2 里尤其重要)
-
白名单是否只包含你真正想分析的列(更安全)
9. 结语:让统计变成可复制、可复核、可发表的科研能力
传统统计软件的痛点是:
-
会用的人少
-
变量管理混乱
-
很难团队复用
-
易错而不自知
而 CME 麻醉论坛统计分析工具的价值是:
✅ 用 CSV 让数据结构标准化
✅ 用模板让统计逻辑规范化
✅ 用白名单/黑名单让变量可控
✅ 用报告+Word表格让输出可直接写论文