三、抽样分布
统计量的分布称为抽样分布。注意:抽样分布可能含有未知参数;有时(当样本函数含有未知参数,但其分布不依赖于未知参数时)将含有未知参数的样本函数的分布也称为抽样分布。
(一)来自正态总体的三个常用统计量的分布
1. \(\chi^2\) 分布
\(\chi^2\) 分布是一种非负连续型随机变量的分布,其密度函数的图形位于第一象限,峰值向左偏,随着 \(n\) 的增大,峰值向右移动。
(1)典型模式
设 \(X_{1}, X_{2}, \dots, X_{n}\) 相互独立,都服从标准正态分布 \(N(0,1)\),则称统计量
\[\chi^{2} = X_{1}^{2} + X_{2}^{2} + \dots + X_{n}^{2} = \sum_{i=1}^{n} X_{i}^{2}\]服从自由度为 \(n\) 的 \(\chi^2\) 分布,记作 \(\chi^2 \sim \chi^2(n)\)。此处,自由度是指上式右端包含的独立变量的个数。
(2)\(\chi^2\) 分布的分位点
对于给定的 \(\alpha (0 < \alpha < 1)\),称满足条件
\[P \left\{\chi^{2} > \chi_{\alpha}^{2} (n) \right\} = \int_{\chi_{\alpha}^{2} (n)}^{+ \infty} f(t) dt = \alpha\](\(f(t)\) 为 \(\chi^2(n)\) 分布的概率密度函数)的点 \(\chi_\alpha^2(n)\) 为 \(\chi^2(n)\) 分布的上 \(\alpha\) 分位点,如图6.1所示。
(3)\(\chi^2\) 分布的性质
\(1^{\circ}\) \(\chi^{2}\) 分布的数学期望和方差分别为 \(E(\chi^2 (n)) = n\),\(D(\chi^{2}(n)) = 2n\)
\(2^{\circ}\) \(\chi^{2}\) 分布具有可加性:设 \(\chi_1^2\sim \chi^2 (n_1),\chi_2^2\sim \chi^2 (n_2)\),且 \(\chi_1^2,\chi_2^2\) 相互独立,则有
\[\chi_{1}^{2} + \chi_{2}^{2} \sim \chi^{2} (n_{1} + n_{2}).\]2. \(t\) 分布
\(t\) 分布是一种连续型随机变量的分布,其密度函数的图形关于 \(y\) 轴对称,形状与标准正态分布曲线相类似。
(1)典型模式
设 \(X \sim N(0,1), Y \sim \chi^2(n)\),且 \(X\) 与 \(Y\) 相互独立,则称随机变量 \(t = \frac{X}{\sqrt{Y / n}}\) 服从自由度为 \(n\) 的 \(\pmb{t}\) 分布,记作 \(t\sim t(n)\)
(2)\(t\) 分布的分位点
对于给定的 \(\alpha (0 < \alpha < 1)\),称满足条件
\[P \{t > t_{\alpha} (n) \} = \int_{t_{\alpha} (n)}^{+ \infty} f(t) dt = \alpha\](\(f(t)\) 为 \(t(n)\) 分布的概率密度函数)的点 \(t_{\alpha}(n)\) 为 \(t(n)\) 分布的上 \(\alpha\) 分位点,如图6.2所示。
由 \(t\) 分布上 \(\alpha\) 分位点的定义及 \(f(t)\) 图形的对称性知 \(t_{1 - \alpha}(n) = -t_{\alpha}(n)\)
(3)\(t\) 分布的性质
\(t(n)\) 分布的概率密度函数 \(f(t)\) 是偶函数,且有
\[\lim_{n \rightarrow \infty} f(t) = \frac{1}{\sqrt{2 \pi}} \mathrm{e}^{- t^{2} / 2}.\]可见,当 \(n\) 足够大时 \(t\) 分布近似于 \(N(0,1)\) 分布,但对于较小的 \(n, t\) 分布与 \(N(0,1)\) 分布相差较大。
若 \(t \sim t(n)\),则 \(t^2 \sim F(1, n)\)。
3. \(F\) 分布
\(\pmb{F}\) 分布是一种非负连续型随机变量 \(X\) 的分布,其密度函数含有两个参数 \(n_1, n_2\),函数曲线的形状与 \(\chi^2\) 分布相似。
(1)典型模式
设 \(X \sim \chi^2(n_1), Y \sim \chi^2(n_2)\),且 \(X\) 与 \(Y\) 相互独立,则称随机变量
\[F = \frac{X / n_{1}}{Y / n_{2}}\]服从自由度为 \((n_{1}, n_{2})\) 的 \(F\) 分布,记作 \(F \sim F(n_{1}, n_{2})\)。
(2)\(F\) 分布的分位点
对于给定的 \(\alpha (0 < \alpha < 1)\),称满足条件
\[P \left\{F > F_{\alpha} \left(n_{1}, n_{2}\right) \right\} = \int_{F_{\alpha} \left(n_{1}, n_{2}\right)}^{+ \infty} f(t) dt = \alpha\](\(f(t)\) 为 \(F(n_{1},n_{2})\) 分布的概率密度函数)的点 \(F_{\alpha}(n_{1},n_{2})\) 为 \(F(n_{1},n_{2})\) 分布的上 \(\pmb{\alpha}\) 分位点(图6.3)。
(3)\(F\) 分布的性质
\(1^{\circ}\) 如果 \(F\sim F(n_{1},n_{2})\),则 \(\frac{1}{F}\sim F(n_2,n_1)\)
\[2^{\circ} \quad F_{1 - \alpha} (n_{1}, n_{2}) = \frac{1}{F_{\alpha} (n_{2} , n_{1})}.\]【例6.3】设随机变量 \(X\) 服从 \(F(3,4)\) 分布,对给定的 \(\alpha (0 < \alpha < 1)\),数 \(F_{\alpha}(3,4)\) 满足 \(P\{X > F_{\alpha}(3,4)\} = \alpha\),若 \(P\{X \leqslant x\} = 1 - \alpha\),则 \(x =\)
(A) \(\frac{1}{F_{1 - \alpha}(4,3)}\)
(B) \(\frac{1}{F_{1 - \alpha}(3,4)}\)
(C) \(F_{\alpha}(4,3)\)
(D) \(F_{1 - \alpha}(4,3)\)
【分析一】因 \(X \sim F(3,4)\),故 \(\frac{1}{X} \sim F(4,3)\)。又
\[1 - \alpha = P \{X \leqslant x \} = P \{X < x \} = P \left\{\frac{1}{X} > \frac{1}{x} \right\},\]所以 \(\frac{1}{x} = F_{1 - \alpha}(4,3)\),即 \(x = \frac{1}{F_{1 - \alpha}(4,3)}\) 因此选(A)。
【分析二】由 \(P\{X \leqslant x\} = 1 - \alpha\) 可知,\(P\{X > x\} = \alpha\),即 \(x = F_{\alpha}(3,4)\)。又由 \(F_{1 - \alpha}(n_1, n_2) = \frac{1}{F_{\alpha}(n_2, n_1)}\) 可知,\(F_{\alpha}(3,4) = \frac{1}{F_{1 - \alpha}(4,3)}\)。故选(A)。
【例6.4】已知 \(\chi^2\sim \chi^2 (n)\),则 \(E(\chi^2) =\)
【分析】由 \(\chi^2\) 分布的典型模式 \(\chi^2 = X_1^2 +X_2^2 +\dots +X_n^2 = \sum_{i = 1}^{n}X_i^2\) 知,\(E(\chi^2) = \sum_{i = 1}^{n}E(X_i^2)\),而 \(X_{i}\sim\) \(N(0,1)\),且 \(X_{i}\) 相互独立,由于 \(E(X_{i}^{2}) = D(X_{i}) + [E(X_{i})]^{2} = 1 + 0 = 1\),所以
\[E \left(\chi^{2}\right) = \sum_{i = 1}^{n} E \left(X_{i}^{2}\right) = n.\]【例6.5】已知 \(X_{1}, X_{2}, X_{3}\) 相互独立且服从 \(N(0, \sigma^{2})\),则 \(\sqrt{\frac{2}{3}} \frac{X_{1} + X_{2} + X_{3}}{|X_{2} - X_{3}|}\) 服从的分布及参数为
【分析】记 \(Y_{1} = X_{2} + X_{3}, Y_{2} = X_{2} - X_{3}\),则 \(Y_{1} \sim N(0, 2\sigma^{2}), Y_{2} \sim N(0, 2\sigma^{2})\)。由于
\[\begin{array}{l} \operatorname{Cov} \left(Y_{1}, Y_{2}\right) = E \left(Y_{1} Y_{2}\right) - E \left(Y_{1}\right) E \left(Y_{2}\right) = E \left[ \left(X_{2} + X_{3}\right) \left(X_{2} - X_{3}\right) \right] \\ = E \left(X_{2}^{2}\right) - E \left(X_{3}^{2}\right) = \sigma^{2} - \sigma^{2} = 0, \\ \end{array}\]所以 \(Y_{1}\) 与 \(Y_{2}\) 相互独立,且与 \(X_{1}\) 独立。又由
\[X_{1} + X_{2} + X_{3} = X_{1} + Y_{1} \sim N (0, 3 \sigma^{2}),\]可知 \(-\frac{1}{\sigma\sqrt{3}} (X_1 + X_2 + X_3)\sim N(0,1),\left(\frac{X_2 - X_3}{\sqrt{2}\sigma}\right)^2\sim \chi^2 (1)\) 且 \(X_{1} + X_{2} + X_{3}\) 与 \(X_{2} - X_{3}\) 相互独立,于是按 \(t\) 分布定义有
\[\sqrt{\frac{2}{3}} \frac{X_{1} + X_{2} + X_{3}}{\left| X_{2} - X_{3} \right|} \sim t (1).\]【例6.6】已知 \((X,Y)\) 的联合概率密度为
\[f(x, y) = \frac{1}{12 \pi} \mathrm{e}^{- \frac{1}{2} (9 x^{2} + 4 y^{2} - 8 y + 4)},\]则 \(\frac{9X^2}{4(Y - 1)^2}\) 服从参数为 的 分布。
【分析】由题设知 \((X,Y)\) 服从二维正态分布且密度函数为
\[f(x, y) = \frac{1}{2 \pi \times 2 \times 3} e^{- \frac{1}{2} [ (\frac{1}{2})^{2} + (\frac{1}{2})^{2} ]},\]故 \(X \sim N(0,2^2), Y \sim N(1,3^2), X\) 与 \(Y\) 相关系数 \(\rho = 0\),所以 \(X\) 与 \(Y\) 独立,\(\frac{X}{2} \sim N(0,1), \frac{Y - 1}{3} \sim N(0,1)\),根据 \(F\) 分布典型模式知
\[\frac{\left(\frac{X}{2}\right)^{2} / 1}{\left(\frac{Y - 1}{3}\right)^{2} / 1} = \frac{9 X^{2}}{4 (Y - 1)^{2}} \sim F (1, 1).\](二)正态总体的样本均值与样本方差的分布
1. 单个正态总体
设 \(X \sim N(\mu, \sigma^2), X_1, X_2, \dots, X_n\) 是来自总体 \(X\) 的简单随机样本,\(\overline{X} = \frac{1}{n}\sum_{i=1}^{n} X_i\) 与 \(S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^2\) 分别为相应的样本均值和样本方差,则
(1)样本均值的分布:
\[\bar{X} \sim N (\mu , \sigma^{2} / n), \quad \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} = \frac{\sqrt{n} (\bar{X} - \mu)}{\sigma} \sim N (0, 1); \frac{\bar{X} - \mu}{S / \sqrt{n}} = \frac{\sqrt{n} (\bar{X} - \mu)}{S} \sim t (n - 1).\](2)样本方差的分布:
\[\frac{1}{\sigma^{2}} \sum_{i = 1}^{n} (X_{i} - \mu)^{2} \sim \chi^{2} (n), \quad \frac{(n - 1) S^{2}}{\sigma^{2}} = \sum_{i = 1}^{n} \left(\frac{X_{i} - \bar{X}}{\sigma}\right)^{2} \sim \chi^{2} (n - 1).\](3)\(\overline{X}\) 与 \(S^2\) 相互独立(这是正态总体特有的性质)。
2. 两个正态总体
设 \(X_{1}, X_{2}, \dots, X_{n_{1}}\) 与 \(Y_{1}, Y_{2}, \dots, Y_{n_{2}}\) 分别是来自正态总体 \(N(\mu_{1}, \sigma_{1}^{2})\) 和 \(N(\mu_{2}, \sigma_{2}^{2})\) 的样本,且这两个样本相互独立(注:指随机变量 \((X_{1}, X_{2}, \dots, X_{n_{1}})\) 与 \((Y_{1}, Y_{2}, \dots, Y_{n_{2}})\) 相互独立)。设 \(\overline{X}, S_{X}^{2}\) 和 \(\overline{Y}, S_{Y}^{2}\) 是相应的样本均值和样本方差,\(S_{XY}^{2}\) 是总体 \(X\) 和 \(Y\) 的联合样本方差,记
\[\begin{array}{l} \bar{X} = \frac{1}{n_{1}} \sum_{i = 1}^{n_{1}} X_{i}, \quad \bar{Y} = \frac{1}{n_{2}} \sum_{i = 1}^{n_{2}} Y_{i}, \quad S_{X}^{2} = \frac{1}{n_{1} - 1} \sum_{i = 1}^{n_{1}} \left(X_{i} - \bar{X}\right)^{2}, \\ S_{Y}^{2} = \frac{1}{n_{2} - 1} \sum_{i = 1}^{n_{2}} \left(Y_{i} - \bar{Y}\right)^{2}, \quad S_{XY}^{2} = \frac{\left(n_{1} - 1\right) S_{X}^{2} + \left(n_{2} - 1\right) S_{Y}^{2}}{n_{1} + n_{2} - 2}, \\ \end{array}\]则
(1)样本均值差的抽样分布
\(\overline{X} -\overline{Y}\sim N\left(\mu_1 - \mu_2,\frac{\sigma_1^2}{n_1} +\frac{\sigma_2^2}{n_2}\right),\frac{\overline{X} - \overline{Y} - (\mu_1 - \mu_2)}{\sqrt{\sigma_1^2 / n_1 + \sigma_2^2 / n_2}}\sim N(0,1)\)
(2)样本方差比的抽样分布
\(F = \frac{S_X^2 / \sigma_1^2}{S_Y^2 / \sigma_2^2}\sim F(n_1 - 1,n_2 - 1);\)
特别地,当 \(\sigma_1^2 = \sigma_2^2 \triangleq \sigma^2\) 时,
\[T = \frac{(\bar{X} - \bar{Y}) - (\mu_{1} - \mu_{2})}{S_{XY} \sqrt{\frac{1}{n_{1}} + \frac{1}{n_{2}}}} \sim t (n_{1} + n_{2} - 2), \quad W = \frac{(n_{1} + n_{2} - 2) S_{XY}^{2}}{\sigma^{2}} \sim \chi^{2} (n_{1} + n_{2} - 2).\](三)\(X(n) = \max (X_{1},X_{2},\dots ,X_{n})\) 和 \(X(n) = \min (X_1,X_2,\dots ,X_n)\) 的分布
设总体 \(X\) 的分布函数为 \(F(x), X_1, X_2, \dots, X_n\) 是来自总体 \(X\) 的简单随机样本,则统计量 \(X(n) = \max(X_1, X_2, \dots, X_n)\) 和
练习题
例题1
设 ( X_1, X_2, \dots, X_n \(相互独立,且都服从标准正态分布 \( N(0,1)\)。定义统计量 ( \chi^2 = \sum_{i=1}^{n} X_i^2 \(。 (1)求 \( E(\chi^2) \) 和 ( D(\chi^2) \(。 (2)若 \( n = 10 \),求 ( P(\chi^2 > 15.987) \(,其中 \( \chi^2_{0.05}(10) = 15.987 \)。
解答
(1)由 ( \chi^2 \(分布的性质,\( E(\chi^2) = n\),( D(\chi^2) = 2n \(。
(2)\( P(\chi^2 > 15.987) = 0.05 \),因为 ( \chi^2_{0.05}(10) = 15.987 \(是上 \( \alpha\) 分位点。
例题2
设 ( X \sim N(0,1) \(,\( Y \sim \chi^2(5) \),且 ( X \(与 \( Y\) 相互独立。定义 ( t = \frac{X}{\sqrt{Y/5}} \(。
(1)求 \( t \) 的分布。
(2)求 ( P(t > 2.015) \(,其中 \( t_{0.05}(5) = 2.015 \)。
解答
(1)由 ( t \(分布的典型模式,\( t \sim t(5)\)。
(2)( P(t > 2.015) = 0.05 \(,因为 \( t_{0.05}(5) = 2.015 \) 是上 ( \alpha $ 分位点。
例题3
设 ( X \sim \chi^2(4) \(,\( Y \sim \chi^2(6) \),且 ( X \(与 \( Y\) 相互独立。定义 ( F = \frac{X/4}{Y/6} \(。
(1)求 \( F \) 的分布。
(2)若 ( F_{0.05}(4,6) = 4.53 \(,求 \( P(F > 4.53) \)。
解答
(1)由 ( F \(分布的典型模式,\( F \sim F(4,6)\)。
(2)( P(F > 4.53) = 0.05 \(,因为 \( F_{0.05}(4,6) = 4.53 \) 是上 ( \alpha $ 分位点。
例题4
设 ( X_1, X_2, \dots, X_n \(是来自正态总体 \( N(\mu, \sigma^2)\) 的简单随机样本,( \overline{X} \(和 \( S^2\) 分别为样本均值和样本方差。
(1)求 ( \frac{\sqrt{n}(\overline{X} - \mu)}{S} \(的分布。
(2)若 \( n = 16\),求 ( P\left( \left| \frac{\overline{X} - \mu}{S} \right| < 0.5 \right) $。
解答
(1)由正态总体样本均值和样本方差的分布,( \frac{\sqrt{n}(\overline{X} - \mu)}{S} \sim t(n-1) \(。
(2)当 \( n = 16 \),( \frac{\sqrt{16}(\overline{X} - \mu)}{S} \sim t(15) \(。
\( P\left( \left| \frac{\overline{X} - \mu}{S} \right| < 0.5 \right) = P\left( \left| t(15) \right| < 2 \right) = 2P(t(15) < 2) - 1 \)。
查 ( t \(分布表得 \( P(t(15) < 2) \approx 0.968\),故概率为 ( 2 \times 0.968 - 1 = 0.936 $。
例题5
设 ( X_1, X_2, \dots, X_n \(是来自总体 \( X\) 的简单随机样本,总体分布函数为 ( F(x) \(。
(1)求 \( X_{(n)} = \max(X_1, X_2, \dots, X_n) \) 的分布函数。
(2)若 ( X \sim U(0,1) \(,求 \( X_{(n)} \) 的密度函数。
解答
(1)( F_{\max}(x) = [F(x)]^n \(。
(2)若 \( X \sim U(0,1) \),则 ( F(x) = x \((\( 0 \leq x \leq 1 \)),
( F_{\max}(x) = x^n \(,密度函数为 \( f_{\max}(x) = n x^{n-1} \)(( 0 \leq x \leq 1 $)。
例题6
设 ( X_1, X_2, \dots, X_9 \(是来自正态总体 \( N(\mu, 4)\) 的简单随机样本,( \overline{X} \(为样本均值。 若 \( P(|\overline{X} - \mu| < \mu) = 0.95\),求常数 ( \mu $。
解答
由 ( \overline{X} \sim N\left(\mu, \frac{4}{9}\right) \(,
\( P(|\overline{X} - \mu| < \mu) = P\left( \left| \frac{\overline{X} - \mu}{2/3} \right| < \frac{3\mu}{2} \right) = 2\Phi\left( \frac{3\mu}{2} \right) - 1 = 0.95 \)。
解得 ( \Phi\left( \frac{3\mu}{2} \right) = 0.975 \(,查表得 \( \frac{3\mu}{2} = 1.96 \),故 ( \mu = \frac{2}{3} \times 1.96 \approx 1.3067 $。