《医学统计学》(第二版,颜虹主编,人民卫生出版社)读书笔记。
第3章:统计描述
3.1 频数分布
直方图(Histogram)
3.2 计量资料的统计描述
集中趋势
- 算术均值(Arithmetic Mean)
- 几何均值(Geometric Mean)
- 中位数(Median)
离散趋势
- 全距(Range)
- 分位数(Quantile)
- 方差(Variance)
- 标准差(Standard Deviation)
3.3 分类资料的统计描述
常用相对数指标
- 比(Ratio):一个指标是另一个指标的几倍或百分之几
- 比例(Proportion):一个集合的内部各组成部分的占比
率(Rate):某个 时间段 内事件发生的频率或强度
- 生存率、发病率、死亡率、复发率
相对危险度(Relative Risk, RR):同一事件在两种不同情况下的 发生率 之比
- 暴露和未暴露于危险因素两种情况下的患病率之比(Prevalence Risk Ratio, PRR)
比数比(Odds Ratio, OR)
- 设 $P$ 为某事件的发生率,则 比数 $Odds = P / (1 - P)$
- 比数比就是两个比数之比
- 两种随机抽样方式
- 按因素的暴露和未暴露进行抽样,分别得到暴露样本和未暴露样本的发病 Odds
- 按是否发病进行抽样,分别得到发病样本和不发病样本的暴露 Odds
动态数列
- 增长量
- 发展速度 和 增长速度
- 平均发展速度 和 平均增长速度
率的标准化
3.4 统计图表
第4章:常见的概率分布
4.1 随机事件与概率
4.2 二项分布
Bernoulli 实验每次成功的概率为 $\pi$,那么 $n$ 次独立重复的成功次数 $X$ 服从二项分布。
成功次数 $X$ 的
- 总体均值:$n \pi$
- 总体方差:$n \pi (1 - \pi)$
- 总体标准差:$\sqrt{n \pi (1 - \pi)}$
成功率 $X / n$ 的
- 总体均值:$\pi$
- 总体方差:$\pi (1 - \pi) / n$
- 总体标准差:$\sqrt{\pi (1 - \pi) / n}$
4.3 Poisson 分布
单位时间内发生某事件的次数 $X$,服从 Poisson 分布。
4.3 正态分布
第5章:参数估计
5.1 抽样分布与抽样误差
样本均值
从一个均值为 $\mu$、标准差为 $\sigma$ 的总体分布中随机抽取样本量为 $n$ 的样本,其样本均值 $\bar{X}$ 的期望为
其标准误为
在实际中,由于总体标准差 $\sigma$ 常常是未知的,用样本标准差 $S$ 来估计,因此样本均值 $\bar{X}$ 标准误的估计值为
中心极限定理:
- 从正态分布 $N(\mu, \sigma^2)$ 的总体中随机抽取样本量为 $n$ 的样本,其样本均值 $\bar{X}$ 服从正态分布 $N(\mu, \sigma^2 / n)$。
- 从非正态分布中抽样,当样本量较大($n \ge 30$),样本均值的分布接近正态分布。
样本率
从一个总体分布(成功率为 $\pi$ 的 Bernoulli 分布)中随机抽取样本量为 $n$ 的样本,其成功率为 $p$,则其期望为
样本率的标准误为
在实际中,由于总体率 $\pi$ 常常是未知的,用样本率 $p$ 来估计,因此样本率 $p$ 标准误的估计值为
5.2 总体均值的估计
t 分布
标准正态分布 $N(0, 1)$ 也被称为 z 分布,对样本均值 $\bar{X}$ 进行 z 变换得到 $\frac{\bar{X} - \mu}{\sigma_{\bar{X}}}$,服从 z 分布。但是,实际中 $\sigma_{\bar{X}}$ 常常未知,用 $S_{\bar{X}}$ 代替,得到的 $\frac{\bar{X} - \mu}{S_{\bar{X}}}$ 服从 t 分布。
点估计和区间估计
两总体均数之差的区间估计
5.3 总体率的估计
点估计和区间估计
区间估计
- 查表法:二项分布的计算结果。
- 正态近似法:当 $n$ 较大,且 $np$ 和 $n(1-p)$ 均大于 5 时,样本率 $p$ 的分布近似正态分布。
两总体率之差的区间估计
- 正态近似法
5.4 Poisson 分布总体均数的区间估计
- 查表法
- 正太近似法
5.5 RR 值和 OR 值的估计
相对危险度 RR 是暴露组的发病率与非暴露组的发病率之比。
- 当 RR 大于 1 时,该因素为危险因素
- 当 RR 小于 1 时,该因素为保护因素
队列研究(Cohort Study)
- 又称前瞻性研究(Prospective Study)、随访研究(Follow-Up Study)
- 对不同暴露水平的对象跟踪调查其疾病发生情况
- 可以计算不同暴露水平组的发病率,可以直接估计相对危险度
情况1:随访期间研究对象因为失访、死亡等原因而变化,以“观察人-时”为分母计算发病率,又称为 发病密度。
组别 | 发病人数 | 观察人时数 | 发病密度 |
---|---|---|---|
暴露组 | $a$ | $L_1$ | $a / L_1$ |
非暴露组 | $b$ | $L_0$ | $b / L_0$ |
合计 | $m$ | $L$ | $m / L$ |
区间估计为
情况2:随访期间研究对象没有变化,以观察人数为分母计算发病率,又称为 累计发病率。
组别 | 发病人数 | 未发病人数 | 合计 | 累计发病率 |
---|---|---|---|---|
暴露组 | $a$ | $b$ | $n_1$ | $a / n_1$ |
非暴露组 | $c$ | $d$ | $n_0$ | $c / n_0$ |
合计 | $m_1$ | $m_0$ | $n$ | $m_1 / n$ |
区间估计为
病例-对照研究
- 根据研究对象的目前发病状态划分到病例组或对照组,然后回顾性地询问过去的危险因素暴露情况,比较病例组和对照组的暴露水平差异
- 不能计算不同暴露水平组的发病率,通常使用优势比或比数比来近似估计相对危险度
设计1:成组设计 的病例对照研究
组别 | 暴露 | 未暴露 | 合计 |
---|---|---|---|
病例组 | $a$ | $b$ | $n_1$ |
对照组 | $c$ | $d$ | $n_0$ |
合计 | $m_1$ | $m_0$ | $n$ |
在病例组,暴露事件的 Odds 为
在对照组,暴露事件的 Odds 为
所以,病例组相比对照组,暴露事件的优势比为
当发病率很低(如小于 1% 时),OR 近似等于 RR。
Miettinen 法区间估计为
设计2:配对设计 的病例对照研究
在 1:1 配对设计病例对照研究中,每一个病例都有对应的一个对照。一对病例与对照的暴露情况可能有四种:
- 病例与对照都暴露(a)
- 病例暴露,对照未暴露(b)
- 病例未暴露,对照暴露(c)
- 病例与对照都未暴露(d)
对照暴露 | 对照未暴露 | 合计 | |
---|---|---|---|
病例暴露 | $a$ | $b$ | $a+b$ |
病例未暴露 | $c$ | $d$ | $c+d$ |
合计 | $a+c$ | $b+d$ | $n$ |
注:上表中 $a$、$b$、$c$、$d$ 每个数字都代表 双份 的样本,一份是病例,一份是对照。
如果整理成 成组设计 的表格
组别 | 暴露 | 未暴露 | 合计 |
---|---|---|---|
病例组 | $a+b$ | $c+d$ | $a+b+c+d$ |
对照组 | $a+c$ | $b+d$ | $a+b+c+d$ |
合计 | $2a+b+c$ | $b+c+2d$ | $2(a+b+c+d)$ |
可以发现,病例和对照暴露水平一致的情况($a$ 和 $d$)没有提供暴露和发病之间的相关信息,因此估计优势比 $OR$ 只需要使用 $b$ 和 $c$。
第6章:假设检验
6.3 z 检验
6.7 检验效能
第7章:两样本均数比较的假设检验
7.1 单样本均数的 t 检验
7.2 配对样本均数的 t 检验
7.3 两独立样本均数的 t 检验
7.4 正态性检验
7.5 两样本的方差的齐性检验
7.6 两总体方差不等时均数比较的 t’ 检验
第8章:多个样本均数比较的假设检验
8.1 方差分析的基本思想与应用条件
判断多个处理组之间,处理效应是否有差异。
第9章:行列表资料的假设检验
9.1 四格表资料的 $\chi^2$ 检验
有疗效 | 无疗效 | 合计 | 有效率 | |
---|---|---|---|---|
A 药物 | $a$ | $b$ | $a+b$ | $a/(a+b)$ |
B 药物 | $c$ | $d$ | $c+d$ | $c/(c+d)$ |
合计 | $a+c$ | $b+d$ | $n$ | $(a+c)/n$ |
$\chi^2$ 检验的基本思想
如果零假设成立,则各格子的实际观察频数(Observed Frequency, O)与相应的理论期望频数(Expected Frequency, E)相差不会太大,即
的值不会太大。
四格表的 $\chi^2$ 检验
组别 A、B 和总体的有效率分别是 $\pi_1$、$\pi_2$、$\pi$,其估计值分别是
$\chi^2$ 检验的基本步骤是:
- 建立假设
- H0:$\pi_1 = \pi_2 = \pi$
- H1:$\pi_1 \neq \pi_2$
- 计算期望频数和检验统计量
- 以 总体有效率 和 周边合计 计算各格子的期望频数
- 计算 $\chi^2$ 统计量
交叉分类 2×2 表关联性分析
两变量相关分析
- 通过 $\chi^2$ 检验判断两 定性变量 之间是否相关。
- 通过 Pearson 相关系数或 Spearman 秩相关系数来描述两 定量变量 之间的相关关系。
9.2 配对四格表资料的 $\chi^2$ 检验
乙法治疗有效 | 乙法治疗无效 | 合计 | |
---|---|---|---|
甲法治疗有效 | $a$ | $b$ | $a+b$ |
甲法治疗无效 | $c$ | $d$ | $c+d$ |
合计 | $a+c$ | $b+d$ | $n$ |
注:上表中 $a$、$b$、$c$、$d$ 每个数字都代表 双份 的样本,一份进行甲法治疗,一份进行乙法治疗。
显然,$a$ 和 $d$ 的治疗结果一致,不影响两种治疗方法效果的差异;所以只需要比较 $b$ 和 $c$ 是否相同即可。$b$ 和 $c$ 的期望频数为 $(b+c)/2$,所以
9.3 行×列表资料的 $\chi^2$ 检验
对 R 行 C 列表资料,第 i 行第 j 列的频数记作 $a_{ij}$,代表第 i 种情况(如治疗方法、暴露情况)下第 j 中结果(如疗效、发病)的频数。
那么,先计算期望频数:
然后,再计算 $\chi^2$ 统计量
9.4 多个样本率的多重比较
对多个样本率进行比较时,如果拒绝零假设,则说明至少有某两个率之间存在显著差异,则需要进行多个率之间的两两比较。
Bonferroni 法:
- 对行×列表资料进行分割,变成多个四格表
- 对每个四格表进行 $\chi^2$ 检验
- 采用 $\alpha’ = \alpha / 比较次数$ 调整显著性水平
- 以 $\alpha’$ 作为检验水准,下有无统计学意义的结论
9.5 行×列表资料的 $\chi^2$ 检验的注意事项
- 样本含量应足够大
- 80% 以上格子的期望频数大于 5,且不存在期望频数小于 1 的格子。
- 否则,补充样本、合并行或列、删除行或列、采用 Fisher 确切概率检验。
- 行×列表资料经 $\chi^2$ 检验后,如果假设检验结果拒绝 H0,意味着各组总体率或构成比之间整体上存在显著差异,并不一定两两之间均有显著差异。
- 当结果变量为等级资料时,不采用 $\chi^2$ 检验。
- 组别和结果变量双向无序:采用 $\chi^2$ 检验
- 组别变量有序、结果变量无序:采用 $\chi^2$ 检验
- 组别变量无序、结果变量有序:采用秩和检验
- 组别和结果变量均有序、且属性相同:采用一致性检验(如 Kappa 检验)
- 例如用两种检测方法检测样品的等级,检验两种检测方法的一致性
- 组别和结果变量均有序、但属性不同
- 研究不同组别的结果是否存在差异:采用秩和检验
- 研究两个有序变量是否相关:采用 Spearman 秩相关分析
- 研究两个有序变量是否存在线性变化趋势:采用线性趋势检验
- 各分类间彼此互斥
9.6 频数分布拟合优度的 $\chi^2$ 检验
9.7 确切概率法
当样本量较少(如四格表资料总例数小于 40),采用 Fisher 确切概率检验。
在表格周围合计数不变的条件下,表格中各格子的频数有多种可能组合,其概率分布是超几何分布。那么,可以求出所有组合的概率,再将所有小于等于原组合(观察到的实际组合)概率的所有概率相加,作为双侧检验的 p 值。
9.8 OR 值的 $\chi^2$ 检验
参考 5.5 内容。
第10章:基于秩次的假设检验方法
秩和检验的应用场景
- 当计量资料不服从正态分布,或者所比较的样本间方差不齐是,不适宜采用 t 检验和方差分析
- 对于结果变量为等级资料(有序分类资料),不适宜采用 $\chi^2$ 检验
10.1 配对设计资料的符号秩和检验
对于计量配对资料,有观察值 $(x_i, y_i)$,有差值 $d_i = x_i - y_i$。
如果 $d$ 服从正态分布,则采用配对 t 检验即可。
如果 $d$ 不服从正态分布,则采用 Wilcoxon 符号秩和检验(Wilcoxon Signed Rank Test)。
Wilcoxon 符号秩和检验步骤
- 求差值
- 建立假设
- H0:$M_d = 0$,即差值的总体中位数等于零
- H1:$M_d \neq 0$,即差值的总体中位数不等于零
- 编秩:按差值的绝对值有小到大编秩,并按照差值的正负号给秩次加上正负号
- 差值为零,舍去不计
- 多个差值绝对值相等,取平均秩次
- 求秩和:分别求出正负秩次之和,将其绝对值记作 $T_+$ 和 $T_-$
- 计算统计量 T,有 $T = \min(T_+, T_-)$;有效的秩次数记作 $n$
- 计算 p 值,做出推断
- 若 $5 < n \leq 50$,查表
- 若 $n > 50$,正态近似法
10.2 单样本资料的符号秩和检验
将每个样本取值与已知总体值(理论值、标准值或大量样本观察值)比较。
10.3 完全随机设计两独立样本的秩和检验
两组计量资料的秩和检验
两独立样本的 Wilcoxon 秩和检验步骤
- 建立假设
- H0:两总体分布相同
- H1:两总体分布不同
- 编秩:将两组数据混合、有小到大统一编秩
- 相同数据取平均秩次
- 求秩和:将两组样本的秩次分别相加
- 计算统计量 T
- 若两组样本数相等,任取一组秩和作为统计量 T
- 若两组样本数不等,以样本数较小的那组对应的秩和作为统计量 T
- 计算 p 值,做出推断
- 查表法
- 正态近似法
两组等级资料的秩和检验
同一等级的数据取平均秩次
10.4 完全随机设计多独立样本的秩和检验
多组计量资料的秩和检验
Kruskal-Wallis 秩和检验步骤
- 建立假设
- H0:多个总体分布相同
- H1:多个总体分布不同
- 编秩
- 求秩和:第 $i$ 组的秩和记作 $R_i$
- 计算统计量 H
- 计算 p 值,做出推断
- 当组数 $k = 3$,每组样本数 $n_i \leq 5$,查表
- 当组数 $k > 3$,或每组样本数 $n_i > 5$,H 近似服从 $\chi^2$ 分布
多组等级资料的秩和检验
同一等级的数据取平均秩次
多重比较
Bonferroni 法校正检验水平 $\alpha’$
10.5 随机化区组设计资料的秩和检验
第11章:简单线性回归
11.1 简单线性回归
11.2 线性回归的应用
11.3 残差分析
线性回归模型成立的四个条件
- 线性(Linear)
- 独立(Independence)
- 正态(Normal)
- 等方差(Equal Variance)
首字母相连为 LINE。
第12章:线性相关
12.1 直线相关
Pearson 相关系数
12.2 Spearman 相关
Spearman 相关系数
先对变量 $x$ 与 $y$ 各自编秩,得到 $R_x$ 和 $R_y$,再代入 Pearson 相关系数的计算公式
第13章:多因素线性回归
13.1 多因素线性回归
13.2 回归分析中的自变量选择
13.3 注意事项
一般情况,应当校正基线、年龄、性别等常规的可能混杂因素。
对实验性研究的统计分析,一般不应采用逐步回归。
将名义变量、等级变量进行数量化(转换为哑元);连续变量也可以先离散化再哑元化。
第21章:Logistic回归分析
21.1 回归
参数的流行病学意义
$\beta_0$ 的意义:当所有 $\beta_i = 0$,有
所以,$\beta_0$ 代表所有因素均不起作用时,发病与不发病的概率之比(Odds)的对数。
$\beta_i$ 的意义:如果 $x_i$ 取 0 和 1,有
因此,
所以,$\beta_i$ 代表 $x_i$ 增加一个单位前后发病的比数比(Odds Ratio)。
21.2 条件 Logitstic 回归
按照 1:M 的比例匹配了病例和对照。