总体与样本
(一)总体、简单随机样本、抽样的概念
-
在数理统计中,所研究对象的某项数量指标 \(X\) 取值的全体称为总体,\(X\) 是一个随机变量。\(X\) 的分布函数和数字特征分别称为总体的分布函数和数字特征。总体中的每个元素称为个体,每个个体是一个实数。
-
\(n\) 个相互独立且与总体 \(X\)(设 \(X\) 的分布函数为 \(F(x)\))同分布的随机变量 \(X_{1}, X_{2}, \dots, X_{n}\) 称为来自总体 \(X\) 或来自分布函数 \(F\) 的简单随机样本,简称为样本,\(n\) 称为样本容量;设 \(x_{1}, x_{2}, \dots, x_{n}\) 分别是 \(X_{1}, X_{2}, \dots, X_{n}\) 的观测值,则称 \(x_{1}, x_{2}, \dots, x_{n}\) 为样本值,又称为总体 \(X\) 的 \(n\) 个独立的观测值。简单地说,样本指一组随机变量,样本值指一组具体的统计数据,样本容量指观测值或数据个数。
-
对于总体 \(X\) 的 \(n\) 次独立重复观测,称为来自总体 \(X\) 的 \(n\) 次简单随机抽样。
(二)简单随机样本的概率分布
- 如果总体 \(X\) 的分布函数为 \(F(x)\),\(X_1, X_2, \dots, X_n\) 是来自总体 \(X\) 的简单随机样本,则随机变量 \(X_1, X_2, \dots, X_n\) 的联合分布函数为
- 如果总体 \(X\) 的概率密度为 \(f(x)\),则样本 \(X_{1}, X_{2}, \dots, X_{n}\) 的联合概率密度为
- 如果总体 \(X\) 的概率分布为 \(P\{X = a_j\} = p_j \ (j = 1,2,\dots)\),则样本 \(X_{1},X_{2},\dots ,X_{n}\) 的联合概率分布为
其中 \(x_{i}\) 取 \(a_1,a_2,\dots\) 中的某一个数。
例6.1
设总体 \(X \sim E(\lambda)\),则来自总体 \(X\) 的简单随机样本 \(X_{1}, X_{2}, \dots, X_{n}\) 的联合概率密度 \(f(x_{1}, x_{2}, \dots, x_{n}) =\) ________。
分析:总体 \(X\) 的概率密度 \(f(x) = \left\{ \begin{array}{ll}\lambda \mathrm{e}^{-\lambda x}, & x > 0,\\ 0, & x\leqslant 0, \end{array} \right.\) 由于 \(X_{1},X_{2},\dots ,X_{n}\) 相互独立,且与总体 \(X\) 服从同一指数分布,因此
\[f \left(x _ {1}, x _ {2}, \dots , x _ {n}\right) = \prod_ {i = 1} ^ {n} f \left(x _ {i}\right) = \left\{ \begin{array}{l l} \lambda^ {n} \mathrm {e} ^ {- \lambda \sum_ {i = 1} ^ {n} x _ {i}}, & x _ {i} > 0 \ (i = 1, 2, \dots , n), \\ 0, & \text {其他}. \end{array} \right.\]例6.2
设总体 \(X \sim P(\lambda)\),则来自总体 \(X\) 的简单随机样本 \(X_{1}, X_{2}, \dots, X_{n}\) 的样本均值 \(\overline{X}\) 的概率分布为________。
分析:由泊松分布的可加性可知,当 \(X_{1}, X_{2}\) 独立时,\(X_{1} + X_{2} \sim P(2\lambda)\),继而有 \(X_{1}, X_{2}, \dots, X_{n}\) 独立同为 \(P(\lambda)\) 分布时,\(\sum_{i=1}^{n} X_{i} = n\overline{X} \sim P(n\lambda)\)。于是,对任意 \(n > 2\),\(n\overline{X}\) 的概率分布为
\[P \left\{n \bar {X} = k \right\} = \frac {(n \lambda) ^ {k}}{k !} e ^ {- n \lambda}, \quad k = 0, 1, 2, \dots ,\]而 \(P\{n\overline{X} = k\} = P\left\{\overline{X} = \frac{k}{n}\right\}\),所以
\[P \left\{\bar {X} = \frac {k}{n} \right\} = \frac {(n \lambda) ^ {k}}{k !} e ^ {- n \lambda}, \quad k = 0, 1, 2, \dots .\]练习题
例题1
设总体 (X \sim N(\mu, \sigma^2)\(,其中 \(\mu = 2\),(\sigma^2 = 4\(。从该总体中抽取一个简单随机样本 \(X_1, X_2, X_3\)。求样本的联合概率密度函数。
解答
由于总体 (X$ 服从正态分布,其概率密度函数为:
样本 (X_1, X_2, X_3$ 是简单随机样本,因此相互独立且与总体同分布。联合概率密度函数为:
\[f(x_1, x_2, x_3) = \prod_{i=1}^{3} f(x_i) = \left( \frac{1}{2\sqrt{2\pi}} \right)^3 e^{-\frac{1}{8} \sum_{i=1}^{3} (x_i - 2)^2}, \quad x_i \in \mathbb{R} \ (i=1,2,3).\]例题2
设总体 (X\( 服从参数为 \(\lambda = 0.5\) 的指数分布,即 (X \sim E(0.5)\(。从该总体中抽取一个简单随机样本 \(X_1, X_2\)。计算 (P(X_1 > 2, X_2 > 1)$。
解答
总体 (X$ 的概率密度函数为:
由于 (X_1\( 和 \(X_2\) 独立,且与总体同分布:
\[P(X_1 > 2, X_2 > 1) = P(X_1 > 2) \cdot P(X_2 > 1).\]计算:
\[P(X_1 > 2) = \int_{2}^{\infty} 0.5 e^{-0.5x} \, dx = e^{-1}, \quad P(X_2 > 1) = \int_{1}^{\infty} 0.5 e^{-0.5x} \, dx = e^{-0.5}.\]因此:
\[P(X_1 > 2, X_2 > 1) = e^{-1} \cdot e^{-0.5} = e^{-1.5}.\]例题3
设总体 (X \sim P(\lambda)\(,其中 \(\lambda = 3\)。从该总体中抽取一个简单随机样本 (X_1, X_2, X_3, X_4\(。求样本均值 \(\overline{X} = \frac{1}{4} \sum_{i=1}^{4} X_i\) 的概率分布。
解答
由泊松分布的可加性,若 (X_1, X_2, X_3, X_4\( 独立且均服从 \(P(3)\),则:
设 (S = \sum_{i=1}^{4} X_i\(,则 \(S \sim P(12)\),即:
\[P(S = k) = \frac{12^k}{k!} e^{-12}, \quad k = 0, 1, 2, \dots.\]由于 (\overline{X} = S/4$,有:
\[P\left( \overline{X} = \frac{k}{4} \right) = P(S = k) = \frac{12^k}{k!} e^{-12}, \quad k = 0, 1, 2, \dots.\]例题4
设总体 (X\( 的分布函数为 \(F(x)\),从该总体中抽取一个简单随机样本 (X_1, X_2$。写出样本的联合分布函数。
解答
根据简单随机样本的性质,(X_1\( 和 \(X_2\) 相互独立且与总体同分布,因此联合分布函数为:
例题5
设总体 (X\( 服从两点分布,即 \(P(X = 1) = p\),(P(X = 0) = 1 - p\(。从该总体中抽取一个简单随机样本 \(X_1, X_2, X_3\)。求样本的联合概率分布。
解答
样本 (X_1, X_2, X_3\( 独立且与总体同分布。设 \(x_i \in \{0, 1\}\),则联合概率分布为:
其中 (k = x_1 + x_2 + x_3$ 为样本中取值为1的个数。