0%

《医学统计学》笔记

《医学统计学》(第二版,颜虹主编,人民卫生出版社)读书笔记。

第3章:统计描述

3.1 频数分布

直方图(Histogram)

3.2 计量资料的统计描述

集中趋势

  1. 算术均值(Arithmetic Mean)
  2. 几何均值(Geometric Mean)
  3. 中位数(Median)

离散趋势

  1. 全距(Range)
  2. 分位数(Quantile)
  3. 方差(Variance)
  4. 标准差(Standard Deviation)

3.3 分类资料的统计描述

常用相对数指标

  1. 比(Ratio):一个指标是另一个指标的几倍或百分之几
  2. 比例(Proportion):一个集合的内部各组成部分的占比
  3. 率(Rate):某个 时间段 内事件发生的频率或强度

    • 生存率、发病率、死亡率、复发率
  4. 相对危险度(Relative Risk, RR):同一事件在两种不同情况下的 发生率 之比

    • 暴露和未暴露于危险因素两种情况下的患病率之比(Prevalence Risk Ratio, PRR)
  5. 比数比(Odds Ratio, OR)

    • 设 $P$ 为某事件的发生率,则 比数 $Odds = P / (1 - P)$
    • 比数比就是两个比数之比
  • 两种随机抽样方式
    • 按因素的暴露和未暴露进行抽样,分别得到暴露样本和未暴露样本的发病 Odds
    • 按是否发病进行抽样,分别得到发病样本和不发病样本的暴露 Odds

动态数列

  1. 增长量
  2. 发展速度 和 增长速度
  3. 平均发展速度 和 平均增长速度

率的标准化

3.4 统计图表

第4章:常见的概率分布

4.1 随机事件与概率

4.2 二项分布

Bernoulli 实验每次成功的概率为 $\pi$,那么 $n$ 次独立重复的成功次数 $X$ 服从二项分布。

成功次数 $X$ 的

  • 总体均值:$n \pi$
  • 总体方差:$n \pi (1 - \pi)$
  • 总体标准差:$\sqrt{n \pi (1 - \pi)}$

成功率 $X / n$ 的

  • 总体均值:$\pi$
  • 总体方差:$\pi (1 - \pi) / n$
  • 总体标准差:$\sqrt{\pi (1 - \pi) / n}$

4.3 Poisson 分布

单位时间内发生某事件的次数 $X$,服从 Poisson 分布。

4.3 正态分布

第5章:参数估计

5.1 抽样分布与抽样误差

样本均值

从一个均值为 $\mu$、标准差为 $\sigma$ 的总体分布中随机抽取样本量为 $n$ 的样本,其样本均值 $\bar{X}$ 的期望为

其标准误为

在实际中,由于总体标准差 $\sigma$ 常常是未知的,用样本标准差 $S$ 来估计,因此样本均值 $\bar{X}$ 标准误的估计值为

中心极限定理:

  • 从正态分布 $N(\mu, \sigma^2)$ 的总体中随机抽取样本量为 $n$ 的样本,其样本均值 $\bar{X}$ 服从正态分布 $N(\mu, \sigma^2 / n)$。
  • 从非正态分布中抽样,当样本量较大($n \ge 30$),样本均值的分布接近正态分布。

样本率

从一个总体分布(成功率为 $\pi$ 的 Bernoulli 分布)中随机抽取样本量为 $n$ 的样本,其成功率为 $p$,则其期望为

样本率的标准误为

在实际中,由于总体率 $\pi$ 常常是未知的,用样本率 $p$ 来估计,因此样本率 $p$ 标准误的估计值为

5.2 总体均值的估计

t 分布

标准正态分布 $N(0, 1)$ 也被称为 z 分布,对样本均值 $\bar{X}$ 进行 z 变换得到 $\frac{\bar{X} - \mu}{\sigma_{\bar{X}}}$,服从 z 分布。但是,实际中 $\sigma_{\bar{X}}$ 常常未知,用 $S_{\bar{X}}$ 代替,得到的 $\frac{\bar{X} - \mu}{S_{\bar{X}}}$ 服从 t 分布。

点估计和区间估计

两总体均数之差的区间估计

5.3 总体率的估计

点估计和区间估计

区间估计

  • 查表法:二项分布的计算结果。
  • 正态近似法:当 $n$ 较大,且 $np$ 和 $n(1-p)$ 均大于 5 时,样本率 $p$ 的分布近似正态分布。

两总体率之差的区间估计

  • 正态近似法

5.4 Poisson 分布总体均数的区间估计

  • 查表法
  • 正太近似法

5.5 RR 值和 OR 值的估计

相对危险度 RR 是暴露组的发病率与非暴露组的发病率之比。

  • 当 RR 大于 1 时,该因素为危险因素
  • 当 RR 小于 1 时,该因素为保护因素

队列研究(Cohort Study)

  • 又称前瞻性研究(Prospective Study)、随访研究(Follow-Up Study)
  • 对不同暴露水平的对象跟踪调查其疾病发生情况
  • 可以计算不同暴露水平组的发病率,可以直接估计相对危险度

情况1:随访期间研究对象因为失访、死亡等原因而变化,以“观察人-时”为分母计算发病率,又称为 发病密度

组别 发病人数 观察人时数 发病密度
暴露组 $a$ $L_1$ $a / L_1$
非暴露组 $b$ $L_0$ $b / L_0$
合计 $m$ $L$ $m / L$

区间估计为

情况2:随访期间研究对象没有变化,以观察人数为分母计算发病率,又称为 累计发病率

组别 发病人数 未发病人数 合计 累计发病率
暴露组 $a$ $b$ $n_1$ $a / n_1$
非暴露组 $c$ $d$ $n_0$ $c / n_0$
合计 $m_1$ $m_0$ $n$ $m_1 / n$

区间估计为

病例-对照研究

  • 根据研究对象的目前发病状态划分到病例组或对照组,然后回顾性地询问过去的危险因素暴露情况,比较病例组和对照组的暴露水平差异
  • 不能计算不同暴露水平组的发病率,通常使用优势比或比数比来近似估计相对危险度

设计1:成组设计 的病例对照研究

组别 暴露 未暴露 合计
病例组 $a$ $b$ $n_1$
对照组 $c$ $d$ $n_0$
合计 $m_1$ $m_0$ $n$

在病例组,暴露事件的 Odds 为

在对照组,暴露事件的 Odds 为

所以,病例组相比对照组,暴露事件的优势比为

当发病率很低(如小于 1% 时),OR 近似等于 RR。

Miettinen 法区间估计为

设计2:配对设计 的病例对照研究

在 1:1 配对设计病例对照研究中,每一个病例都有对应的一个对照。一对病例与对照的暴露情况可能有四种:

  • 病例与对照都暴露(a)
  • 病例暴露,对照未暴露(b)
  • 病例未暴露,对照暴露(c)
  • 病例与对照都未暴露(d)
对照暴露 对照未暴露 合计
病例暴露 $a$ $b$ $a+b$
病例未暴露 $c$ $d$ $c+d$
合计 $a+c$ $b+d$ $n$

注:上表中 $a$、$b$、$c$、$d$ 每个数字都代表 双份 的样本,一份是病例,一份是对照。

如果整理成 成组设计 的表格

组别 暴露 未暴露 合计
病例组 $a+b$ $c+d$ $a+b+c+d$
对照组 $a+c$ $b+d$ $a+b+c+d$
合计 $2a+b+c$ $b+c+2d$ $2(a+b+c+d)$

可以发现,病例和对照暴露水平一致的情况($a$ 和 $d$)没有提供暴露和发病之间的相关信息,因此估计优势比 $OR$ 只需要使用 $b$ 和 $c$。

第6章:假设检验

6.3 z 检验

6.7 检验效能

第7章:两样本均数比较的假设检验

7.1 单样本均数的 t 检验

7.2 配对样本均数的 t 检验

7.3 两独立样本均数的 t 检验

7.4 正态性检验

7.5 两样本的方差的齐性检验

7.6 两总体方差不等时均数比较的 t’ 检验

第8章:多个样本均数比较的假设检验

8.1 方差分析的基本思想与应用条件

判断多个处理组之间,处理效应是否有差异。

第9章:行列表资料的假设检验

9.1 四格表资料的 $\chi^2$ 检验

有疗效 无疗效 合计 有效率
A 药物 $a$ $b$ $a+b$ $a/(a+b)$
B 药物 $c$ $d$ $c+d$ $c/(c+d)$
合计 $a+c$ $b+d$ $n$ $(a+c)/n$

$\chi^2$ 检验的基本思想

如果零假设成立,则各格子的实际观察频数(Observed Frequency, O)与相应的理论期望频数(Expected Frequency, E)相差不会太大,即

的值不会太大。

四格表的 $\chi^2$ 检验

组别 A、B 和总体的有效率分别是 $\pi_1$、$\pi_2$、$\pi$,其估计值分别是

$\chi^2$ 检验的基本步骤是:

  1. 建立假设
    • H0:$\pi_1 = \pi_2 = \pi$
    • H1:$\pi_1 \neq \pi_2$
  2. 计算期望频数和检验统计量
    • 总体有效率周边合计 计算各格子的期望频数
    • 计算 $\chi^2$ 统计量

交叉分类 2×2 表关联性分析

两变量相关分析

  • 通过 $\chi^2$ 检验判断两 定性变量 之间是否相关。
  • 通过 Pearson 相关系数或 Spearman 秩相关系数来描述两 定量变量 之间的相关关系。

9.2 配对四格表资料的 $\chi^2$ 检验

乙法治疗有效 乙法治疗无效 合计
甲法治疗有效 $a$ $b$ $a+b$
甲法治疗无效 $c$ $d$ $c+d$
合计 $a+c$ $b+d$ $n$

注:上表中 $a$、$b$、$c$、$d$ 每个数字都代表 双份 的样本,一份进行甲法治疗,一份进行乙法治疗。

显然,$a$ 和 $d$ 的治疗结果一致,不影响两种治疗方法效果的差异;所以只需要比较 $b$ 和 $c$ 是否相同即可。$b$ 和 $c$ 的期望频数为 $(b+c)/2$,所以

9.3 行×列表资料的 $\chi^2$ 检验

对 R 行 C 列表资料,第 i 行第 j 列的频数记作 $a_{ij}$,代表第 i 种情况(如治疗方法、暴露情况)下第 j 中结果(如疗效、发病)的频数。
那么,先计算期望频数:

然后,再计算 $\chi^2$ 统计量

9.4 多个样本率的多重比较

对多个样本率进行比较时,如果拒绝零假设,则说明至少有某两个率之间存在显著差异,则需要进行多个率之间的两两比较。
Bonferroni 法:

  1. 对行×列表资料进行分割,变成多个四格表
  2. 对每个四格表进行 $\chi^2$ 检验
  3. 采用 $\alpha’ = \alpha / 比较次数$ 调整显著性水平
  4. 以 $\alpha’$ 作为检验水准,下有无统计学意义的结论

9.5 行×列表资料的 $\chi^2$ 检验的注意事项

  1. 样本含量应足够大
    • 80% 以上格子的期望频数大于 5,且不存在期望频数小于 1 的格子。
    • 否则,补充样本、合并行或列、删除行或列、采用 Fisher 确切概率检验。
  2. 行×列表资料经 $\chi^2$ 检验后,如果假设检验结果拒绝 H0,意味着各组总体率或构成比之间整体上存在显著差异,并不一定两两之间均有显著差异。
  3. 当结果变量为等级资料时,不采用 $\chi^2$ 检验。
    • 组别和结果变量双向无序:采用 $\chi^2$ 检验
    • 组别变量有序、结果变量无序:采用 $\chi^2$ 检验
    • 组别变量无序、结果变量有序:采用秩和检验
    • 组别和结果变量均有序、且属性相同:采用一致性检验(如 Kappa 检验)
      • 例如用两种检测方法检测样品的等级,检验两种检测方法的一致性
    • 组别和结果变量均有序、但属性不同
      • 研究不同组别的结果是否存在差异:采用秩和检验
      • 研究两个有序变量是否相关:采用 Spearman 秩相关分析
      • 研究两个有序变量是否存在线性变化趋势:采用线性趋势检验
  4. 各分类间彼此互斥

9.6 频数分布拟合优度的 $\chi^2$ 检验

9.7 确切概率法

当样本量较少(如四格表资料总例数小于 40),采用 Fisher 确切概率检验。
在表格周围合计数不变的条件下,表格中各格子的频数有多种可能组合,其概率分布是超几何分布。那么,可以求出所有组合的概率,再将所有小于等于原组合(观察到的实际组合)概率的所有概率相加,作为双侧检验的 p 值。

9.8 OR 值的 $\chi^2$ 检验

参考 5.5 内容。

第10章:基于秩次的假设检验方法

秩和检验的应用场景

  • 当计量资料不服从正态分布,或者所比较的样本间方差不齐是,不适宜采用 t 检验和方差分析
  • 对于结果变量为等级资料(有序分类资料),不适宜采用 $\chi^2$ 检验

10.1 配对设计资料的符号秩和检验

对于计量配对资料,有观察值 $(x_i, y_i)$,有差值 $d_i = x_i - y_i$。
如果 $d$ 服从正态分布,则采用配对 t 检验即可。
如果 $d$ 不服从正态分布,则采用 Wilcoxon 符号秩和检验(Wilcoxon Signed Rank Test)。

Wilcoxon 符号秩和检验步骤

  1. 求差值
  2. 建立假设
    • H0:$M_d = 0$,即差值的总体中位数等于零
    • H1:$M_d \neq 0$,即差值的总体中位数不等于零
  3. 编秩:按差值的绝对值有小到大编秩,并按照差值的正负号给秩次加上正负号
    • 差值为零,舍去不计
    • 多个差值绝对值相等,取平均秩次
  4. 求秩和:分别求出正负秩次之和,将其绝对值记作 $T_+$ 和 $T_-$
  5. 计算统计量 T,有 $T = \min(T_+, T_-)$;有效的秩次数记作 $n$
  6. 计算 p 值,做出推断
    • 若 $5 < n \leq 50$,查表
    • 若 $n > 50$,正态近似法

10.2 单样本资料的符号秩和检验

将每个样本取值与已知总体值(理论值、标准值或大量样本观察值)比较。

10.3 完全随机设计两独立样本的秩和检验

两组计量资料的秩和检验

两独立样本的 Wilcoxon 秩和检验步骤

  1. 建立假设
    • H0:两总体分布相同
    • H1:两总体分布不同
  2. 编秩:将两组数据混合、有小到大统一编秩
    • 相同数据取平均秩次
  3. 求秩和:将两组样本的秩次分别相加
  4. 计算统计量 T
    • 若两组样本数相等,任取一组秩和作为统计量 T
    • 若两组样本数不等,以样本数较小的那组对应的秩和作为统计量 T
  5. 计算 p 值,做出推断
    • 查表法
    • 正态近似法

两组等级资料的秩和检验

同一等级的数据取平均秩次

10.4 完全随机设计多独立样本的秩和检验

多组计量资料的秩和检验

Kruskal-Wallis 秩和检验步骤

  1. 建立假设
    • H0:多个总体分布相同
    • H1:多个总体分布不同
  2. 编秩
  3. 求秩和:第 $i$ 组的秩和记作 $R_i$
  4. 计算统计量 H
  5. 计算 p 值,做出推断
    • 当组数 $k = 3$,每组样本数 $n_i \leq 5$,查表
    • 当组数 $k > 3$,或每组样本数 $n_i > 5$,H 近似服从 $\chi^2$ 分布

多组等级资料的秩和检验

同一等级的数据取平均秩次

多重比较

Bonferroni 法校正检验水平 $\alpha’$

10.5 随机化区组设计资料的秩和检验

第11章:简单线性回归

11.1 简单线性回归

11.2 线性回归的应用

11.3 残差分析

线性回归模型成立的四个条件

  • 线性(Linear)
  • 独立(Independence)
  • 正态(Normal)
  • 等方差(Equal Variance)
    首字母相连为 LINE。

第12章:线性相关

12.1 直线相关

Pearson 相关系数

12.2 Spearman 相关

Spearman 相关系数
先对变量 $x$ 与 $y$ 各自编秩,得到 $R_x$ 和 $R_y$,再代入 Pearson 相关系数的计算公式

第13章:多因素线性回归

13.1 多因素线性回归

13.2 回归分析中的自变量选择

13.3 注意事项

一般情况,应当校正基线、年龄、性别等常规的可能混杂因素。
对实验性研究的统计分析,一般不应采用逐步回归。
将名义变量、等级变量进行数量化(转换为哑元);连续变量也可以先离散化再哑元化。

第21章:Logistic回归分析

21.1 回归

参数的流行病学意义

$\beta_0$ 的意义:当所有 $\beta_i = 0$,有

所以,$\beta_0$ 代表所有因素均不起作用时,发病与不发病的概率之比(Odds)的对数。

$\beta_i$ 的意义:如果 $x_i$ 取 0 和 1,有

因此,

所以,$\beta_i$ 代表 $x_i$ 增加一个单位前后发病的比数比(Odds Ratio)。

21.2 条件 Logitstic 回归

按照 1:M 的比例匹配了病例和对照。