Skip to Content
👋 欢迎来到考研学堂! 了解详情

一、参数估计

(一)参数的点估计

1. 估计量、估计值与点估计

设总体 \(X\) 的分布形式已知,但含有未知参数 \(\theta\);或者总体的某数字特征(例如数学期望或方差)存在但未知,从总体 \(X\) 中抽取样本 \(X_{1}, X_{2}, \dots, X_{n}\),相应的样本值为 \(x_{1}, x_{2}, \dots, x_{n}\)。借助于样本给出未知参数一个具体数值的参数估计问题就是点估计问题。要解决点估计问题,就是要构造一个适当的统计量 \(\hat{\theta}(X_{1}, X_{2}, \dots, X_{n})\),用它来估计未知参数 \(\theta\),用它的观测值 \(\hat{\theta}(x_{1}, x_{2}, \dots, x_{n})\) 作为未知参数 \(\theta\) 的近似值。我们称 \(\hat{\theta}(X_{1}, X_{2}, \dots, X_{n})\)\(\theta\) 的估计量,称 \(\hat{\theta}(x_{1}, x_{2}, \dots, x_{n})\)\(\theta\) 的估计值。注意,估计量实际上是个随机变量,而对于不同的样本观测值,\(\theta\) 的估计值往往是不同的。

2. 求点估计的两种常用方法

(1) 矩估计法

设总体 \(X\) 为连续型随机变量,其概率密度为 \(f(x;\theta_1,\theta_2,\dots ,\theta_k)\),或总体 \(X\) 为离散型随机变量,其概率分布为 \(P\{X = x_i\} = p(x_i;\theta_1,\theta_2,\dots ,\theta_k),i = 1,2,\dots ,\) 其中 \(\theta_{1},\theta_{2},\dots ,\theta_{k}\) 为待估参数。设 \(X_{1},X_{2},\dots ,X_{n}\) 是来自总体 \(X\) 的简单随机样本。矩估计法一般按以下步骤进行:

第一步,计算总体 \(X\) 的前 \(k\) 阶原点矩:

\[\mu_ {l} = E (X ^ {l}) = \int_ {- \infty} ^ {+ \infty} x ^ {l} f (x; \theta_ {1}, \theta_ {2}, \dots , \theta_ {k}) \mathrm {d} x \quad (X \text {为连续型}),\]

\(\mu_{l} = E(X^{l}) = \sum_{i = 1}^{\infty}x_{i}^{l}p(x_{i};\theta_{1},\theta_{2},\dots ,\theta_{k})\)\(X\) 为离散型),

其中 \(l = 1,2,\dots ,k\),一般来说,\(\mu_{l}\)\(\theta_{1},\theta_{2},\dots ,\theta_{k}\) 的函数,记作 \(\mu_l = \mu_l(\theta_1,\theta_2,\dots ,\theta_k)\)

第二步,令样本矩 \(=\) 总体矩,即

\[\frac {1}{n} \sum_ {i = 1} ^ {n} X _ {i} ^ {l} = E (X ^ {l}) \quad (l = 1, 2, \dots , k),\]

这是一个包含 \(k\) 个未知参数 \(\theta_{1},\dots ,\theta_{k}\)\(k\) 个联立方程组(称为矩法方程)

第三步,求解上述方程,得到 \(\theta_{l}\) 的矩估计为

\[\hat {\theta} _ {l} = \hat {\theta} _ {l} (X _ {1}, \dots , X _ {n}) (l = 1, 2, \dots , k),\]

\(\hat{\theta}_{l}(X_{1},X_{2},\dots ,X_{n})\)\(\theta_{l}\) 的矩估计量,\(\hat{\theta}_l(x_1,\dots ,x_n)\)\(\theta_l\) 的矩估计值。

【注】求未知参数 \(\theta\) 的矩估计量,必须要求总体矩存在,并且还必须能计算出来(此时问题归结为级数求和(对离散型)或计算定积分(对连续型)),并通过解矩法方程求得 \(\theta\) 的矩估计量。因此求矩估计量的关键是,写出矩法方程并求解。

(2) 最大似然估计法

设总体 \(X\) 是连续型随机变量,其概率密度 \(f(x;\theta),\theta \in \Theta\) 的形式已知,\(\theta\) 为待估参数,\(\Theta\)\(\theta\) 可能取值的范围。设 \(X_{1},X_{2},\dots ,X_{n}\) 是来自总体 \(X\) 的样本,则 \(X_{1},X_{2},\dots ,X_{n}\) 的联合概率密度为 \(\prod_{i = 1}^{n}f(x_i;\theta)\)。设 \(x_{1}, x_{2},\dots ,x_{n}\) 是相应于样本 \(X_{1},X_{2},\dots ,X_{n}\) 的样本值,则 \(\theta\) 的函数

\[L (\theta) = L \left(x _ {1}, x _ {2}, \dots , x _ {n}; \theta\right) = \prod_ {i = 1} ^ {n} f \left(x _ {i}; \theta\right), \theta \in \Theta\]

称为样本的似然函数(注意,这里 \(x_{1}, x_{2}, \dots, x_{n}\) 是已知的样本值,它们都是常数)。若

\[L \left(x _ {1}, x _ {2}, \dots , x _ {n}; \hat {\theta}\right) = \max _ {\theta \in \Theta} L \left(x _ {1}, x _ {2}, \dots , x _ {n}; \theta\right),\]

则称 \(\hat{\theta} (x_1,x_2,\dots ,x_n)\)\(\theta\) 的最大似然估计值,称 \(\hat{\theta} (X_1,X_2,\dots ,X_n)\)\(\theta\) 的最大似然估计量。

当总体 \(X\) 是离散型时,用分布律 \(P\{X = x_i\} = p(x_i;\theta), \theta \in \Theta\) 代替上面的概率密度 \(f(x;\theta)\) 即可。求最大似然估计量的一般步骤:

第一步,写出样本的似然函数

\[L (\theta) = L (x _ {1}, \dots , x _ {n}; \theta_ {1}, \dots , \theta_ {k}) = \prod_ {i = 1} ^ {n} p (x _ {i}; \theta_ {1}, \dots , \theta_ {k}) \text {或} \prod_ {i = 1} ^ {n} f (x _ {i}; \theta_ {1}, \dots , \theta_ {k}).\]

第二步,求出使 \(L(\theta)\) 达到最大值的 \(\hat{\theta}_1,\dots ,\hat{\theta}_k\)

① 如果 \(L(\theta)\)\(\ln L(\theta)\) 关于 \(\theta\) 可微,则 \(\theta\) 可以从方程 \(\frac{\mathrm{d}L(\theta)}{\mathrm{d}\theta} = 0\)\(\frac{\mathrm{d}\ln L(\theta)}{\mathrm{d}\theta} = 0\) 中解得。如果总体 \(X\) 的分布中含有 \(k\) 个未知参数 \(\theta_{1},\theta_{2},\dots ,\theta_{k}\),则 \(\theta_{i}(i = 1,2,\dots ,k)\) 可以由似然方程组 \(\frac{\partial L}{\partial\theta_i} = 0\)\(\frac{\partial\ln L}{\partial\theta_i} = 0(i = 1,2,\dots ,k)\) 解得,从而得到 \(\theta_{i}\) 的最大似然估计量 \(\hat{\theta}_i = \hat{\theta}_i(X_1,\dots ,X_n)(i = 1,2,\dots ,k)\)
② 如果 \(p(x_{i};\theta_{1},\dots ,\theta_{k})\)\(f(x_{i};\theta_{1},\dots ,\theta_{k})\) 关于 \(\theta_{i}\) 不可微,或似然方程无解,则应利用似然函数的单调性找到极值点(参看本章题型训练三、9题):

【注】① 求总体分布中未知参数 \(\theta\) 的最大似然估计量必须知道总体的概率分布或密度。写出样本的似然函数(或对数似然函数),并求其最大值点是解题的关键。
② 从似然方程解出来的极值可疑点,虽然一般是极值点,但是还应该由解的实际意义决定取舍。例如解出正负两个极值点,有时因为此参数只能是正数等原因(像方差、均方差及泊松分布的参数 \(\lambda\) 等),就必须舍去负的。

最大似然估计的性质

\(\hat{\theta}\) 是总体 \(X\) 的概率密度或分布律中未知参数 \(\theta\) 的最大似然估计,\(\theta\) 的函数 \(u = u(\theta)\) 具有单值的反函数 \(\theta = \theta(u)\),则 \(\hat{u} = u(\hat{\theta})\)\(u(\theta)\) 的最大似然估计。这一性质称为最大似然估计的不变性。

例如:设总体 \(X\) 的方差 \(\sigma^2\) 的最大似然估计为 \(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2\),则总体 \(X\) 的标准差的最大似然估计为 \(\hat{\sigma} = \sqrt{\frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2}\)

3. 估计量的评选标准

下面是评价估计量好坏的三个常用的标准。设 \(X_{1}, X_{2}, \dots, X_{n}\) 是总体 \(X\) 的一个样本,\(\theta \in \Theta\) 是包含在总体 \(X\) 分布中的待估参数,这里 \(\Theta\)\(\theta\) 的取值范围。

(1) 无偏性 若 \(\theta\) 的估计量 \(\hat{\theta} = \hat{\theta}(X_1, X_2, \dots, X_n)\) 的数学期望 \(E(\hat{\theta})\) 存在,且有 \(E(\hat{\theta}) = \theta\) 则称 \(\hat{\theta}\) 是未知参数 \(\theta\) 的无偏估计量。
(2) 有效性 设 \(\hat{\theta}_{1} = \hat{\theta}_{1}(X_{1}, X_{2}, \dots, X_{n})\)\(\hat{\theta}_{2} = \hat{\theta}_{2}(X_{1}, X_{2}, \dots, X_{n})\) 都是未知参数 \(\theta\) 的无偏估计量,若 \(D(\hat{\theta}_{1}) \leqslant D(\hat{\theta}_{2})\),则称 \(\hat{\theta}_{1}\)\(\hat{\theta}_{2}\) 有效。
(3) 一致性(相合性)设 \(\hat{\theta}(X_1, X_2, \dots, X_n)\) 为未知参数 \(\theta\) 的估计量,若当 \(n \to \infty\)\(\hat{\theta}(X_1, X_2, \dots, X_n)\) 依概率收敛于 \(\theta\),则称 \(\hat{\theta}\) 为未知参数 \(\theta\) 的一致估计量(或相合估计量)。

【例7.1】设 \(X \sim N(\mu, \sigma^2)\),其中 \(\mu\)\(\sigma^2 (\sigma > 0)\) 均为未知参数。从总体 \(X\) 中抽取样本 \(X_1, X_2, \dots, X_n\),样本均值为 \(\overline{X}, B_2 = \frac{1}{n} \sum_{i=1}^{n} (X_i - \overline{X})^2\),则未知参数 \(\mu\)\(\sigma^2\) 的矩估计量分别为 \(\hat{\mu} = \underline{\quad}\)\(\hat{\sigma}^2 = \underline{\quad}\)

【分析】由于待估计参数有2个:\(\mu ,\sigma^2\),故考虑一阶、二阶矩。由于

\[\boldsymbol {E} (X) = \mu , \quad \boldsymbol {E} (X ^ {2}) = \boldsymbol {D} (X) + [ \boldsymbol {E} (X) ] ^ {2} = \sigma^ {2} + \mu^ {2},\]

\(\left\{ \begin{array}{l} \mu = \overline{X}, \\ \sigma^2 + \mu^2 = \frac{1}{n} \sum_{i=1}^{n} X_i^2, \end{array} \right.\) 解得 \(\mu\)\(\sigma^2\) 的矩估计量分别为 \(\hat{\mu} = \overline{X}\),

\[\hat {\sigma} ^ {2} = \frac {1}{n} \sum_ {i = 1} ^ {n} X _ {i} ^ {2} - \bar {X} ^ {2} = \frac {1}{n} \left(\sum_ {i = 1} ^ {n} X _ {i} ^ {2} - n \bar {X} ^ {2}\right) = \frac {1}{n} \sum_ {i = 1} ^ {n} \left(X _ {i} - \bar {X}\right) ^ {2} = B _ {2}.\]

评注 如果二阶矩不用原点矩而用二阶中心矩,也可以直接得 \(\hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2.\)

【例7.2】设 \(X_{1}, X_{2}, \dots, X_{n}\) 是来自总体 \(X\) 的简单随机样本,已知总体 \(X\) 的概率密度为 \(f(x; \theta) = \left\{ \begin{array}{ll} \frac{x}{\theta^{2}} \mathrm{e}^{-\frac{x}{2t}}, & x > 0, \\ 0, & x \leqslant 0 \end{array} \right.\) (\(\theta > 0\)),则 \(\theta\) 的最大似然估计量 \(\hat{\theta} = \underline{\quad}\)

【分析】似然函数为

\[L (\theta) = \prod_ {i = 1} ^ {n} f (x _ {i}; \theta) = \left\{ \begin{array}{l l} \frac {x _ {1} \cdots x _ {n}}{\theta^ {2 n}} \mathrm {e} ^ {- \frac {\cdots \cdots}{2 n}}, & x _ {1}, x _ {2}, \dots , x _ {n} > 0, \\ 0, & \text {其他}, \end{array} \right.\] \[\ln L (\theta) = \sum_ {i = 1} ^ {n} \ln x _ {i} - 2 n \ln \theta - \frac {x _ {1} ^ {2} + x _ {2} ^ {2} + \cdots + x _ {n} ^ {2}}{2 \theta^ {2}},\]

\(\frac{\mathrm{d}\ln L(\theta)}{\mathrm{d}\theta} = -2n\cdot \frac{1}{\theta} +(\sum_{i = 1}^{n}x_i^2)\theta^{-3} = 0\),解得 \(\theta = \sqrt{\frac{1}{2n}\sum_{i = 1}^{n}x_i^2}\)\(\theta\) 的最大似然估计量 \(\hat{\theta} = \sqrt{\frac{1}{2n}\sum_{i = 1}^{n}X_i^2}\)

【例7.3】设 \(X_{1},X_{2},\dots ,X_{n}\) 是来自总体 \(X\) 的简单随机样本,已知总体 \(X\) 服从参数为 \(\lambda (\lambda >0)\) 的指数分布。

(I)试求总体 \(X\) 的数学期望 \(E(X)\) 的矩估计量和最大似然估计量;
(Ⅱ)检验所得估计是否为无偏估计。

【解】(I)由题设知,总体 \(X\) 的概率密度为

\[f (x) = \left\{ \begin{array}{l l} \lambda \mathrm {e} ^ {- \lambda x}, & x > 0, \\ 0, & x \leqslant 0 \end{array} (\lambda > 0), \right.\]

\(E(X) = \frac{1}{\lambda}\),现要对 \(\frac{1}{\lambda}\) 进行矩估计和最大似然估计。

首先求矩估计量 \(\hat{\pmb{E}}_1\):只有一个参数,用总体矩等于样本矩来解。总体一阶矩为 \(E(X)\),样本一阶矩为 \(\overline{X}\),令 \(E(X) = \overline{X}\),则 \(E(X)\) 的矩估计量 \(\hat{\pmb{E}}_1 = \overline{X}\)

再求最大似然估计量 \(\hat{\pmb{E}}_2\):似然函数为

\(L(\lambda) = \left\{ \begin{array}{ll}\lambda^n\prod_{i = 1}^n\mathrm{e}^{-\lambda x_i}, & x_1,x_2,\dots ,x_n > 0,\\ 0, & \text{其他,} \end{array} \right.\)

\[\ln L = n \ln \lambda - \lambda \sum_ {i = 1} ^ {n} x _ {i} = n \ln \lambda - n \lambda \bar {x},\]

\(\frac{\mathrm{d}\ln L}{\mathrm{d}\lambda} = \frac{n}{\lambda} - n\overline{x} = 0\),解得 $\lambda = \frac{


练习题

例题1

设总体 (X \sim N(\mu, \sigma^2)\(,其中 \(\mu\) 和 (\sigma^2\( 均为未知参数。从总体 \(X\) 中抽取样本 (X_1, X_2, \dots, X_n\(,样本均值为 \(\overline{X}\),样本二阶中心矩为 (B_2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2\(。求未知参数 \(\mu\) 和 (\sigma^2$ 的矩估计量。

题目解答 矩估计法要求总体矩等于样本矩。由于有两个未知参数,考虑一阶和二阶原点矩:

  • 总体一阶矩:(E(X) = \mu$
  • 总体二阶矩:(E(X^2) = D(X) + [E(X)]^2 = \sigma^2 + \mu^2$ 令样本矩等于总体矩:
\[\begin{cases} \mu = \overline{X} \\ \sigma^2 + \mu^2 = \frac{1}{n}\sum_{i=1}^{n} X_i^2 \end{cases}\]

解得:

\[\hat{\mu} = \overline{X}, \quad \hat{\sigma}^2 = \frac{1}{n}\sum_{i=1}^{n} X_i^2 - \overline{X}^2 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \overline{X})^2 = B_2\]

因此,(\mu\( 和 \(\sigma^2\) 的矩估计量分别为 (\hat{\mu} = \overline{X}\( 和 \(\hat{\sigma}^2 = B_2\).


例题2

设总体 (X\( 服从参数为 \(\lambda (\lambda > 0)\) 的指数分布,其概率密度函数为:

\[f(x) = \begin{cases} \lambda e^{-\lambda x}, & x > 0 \\ 0, & x \leq 0 \end{cases}\]

从总体 (X\( 中抽取样本 \(X_1, X_2, \dots, X_n\),求参数 (\lambda$ 的最大似然估计量,并判断该估计量是否为无偏估计。

题目解答 似然函数为:

\[L(\lambda) = \prod_{i=1}^{n} f(x_i; \lambda) = \begin{cases} \lambda^n e^{-\lambda \sum_{i=1}^{n} x_i}, & x_1, \dots, x_n > 0 \\ 0, & \text{其他} \end{cases}\]

取对数:

\[\ln L(\lambda) = n \ln \lambda - \lambda \sum_{i=1}^{n} x_i\]

求导并令导数为零:

\[\frac{d \ln L(\lambda)}{d \lambda} = \frac{n}{\lambda} - \sum_{i=1}^{n} x_i = 0\]

解得:

\[\hat{\lambda} = \frac{n}{\sum_{i=1}^{n} X_i} = \frac{1}{\overline{X}}\]

因此,(\lambda\( 的最大似然估计量为 \(\hat{\lambda} = \frac{1}{\overline{X}}\)

判断无偏性:

\[E(\hat{\lambda}) = E\left(\frac{1}{\overline{X}}\right)\]

由于 (\overline{X}\( 是样本均值,且 \(E(X) = \frac{1}{\lambda}\),但 (E\left(\frac{1}{\overline{X}}\right) \neq \frac{1}{E(\overline{X})} = \lambda\(,因此 \(\hat{\lambda}\) 不是无偏估计。


例题3

设总体 (X$ 的概率密度函数为:

\[f(x) = \frac{1}{2\lambda} e^{-\frac{|x|}{\lambda}}, \quad -\infty < x < +\infty, \lambda > 0\]

从总体 (X\( 中抽取样本 \(X_1, X_2, \dots, X_n\),求参数 (\lambda$ 的矩估计量和最大似然估计量。

题目解答 矩估计法: 总体一阶矩 (E(X) = 0$,故考虑二阶矩:

\[E(X^2) = \int_{-\infty}^{+\infty} x^2 \cdot \frac{1}{2\lambda} e^{-\frac{|x|}{\lambda}} dx = \int_{0}^{+\infty} \frac{x^2}{\lambda} e^{-\frac{x}{\lambda}} dx\]

令 (t = \frac{x}{\lambda}$,则:

\[E(X^2) = \lambda^2 \int_{0}^{+\infty} t^2 e^{-t} dt = \lambda^2 \cdot \Gamma(3) = 2\lambda^2\]

令样本二阶矩等于总体二阶矩:

\[\frac{1}{n}\sum_{i=1}^{n} X_i^2 = 2\lambda^2\]

解得矩估计量:

\[\hat{\lambda} = \sqrt{\frac{1}{2n}\sum_{i=1}^{n} X_i^2}\]

最大似然估计法: 似然函数:

\[L(\lambda) = \left(\frac{1}{2\lambda}\right)^n e^{-\frac{1}{\lambda} \sum_{i=1}^{n} |x_i|}\]

取对数:

\[\ln L(\lambda) = -n \ln 2 - n \ln \lambda - \frac{1}{\lambda} \sum_{i=1}^{n} |x_i|\]

求导并令导数为零:

\[\frac{d \ln L(\lambda)}{d \lambda} = -\frac{n}{\lambda} + \frac{1}{\lambda^2} \sum_{i=1}^{n} |x_i| = 0\]

解得:

\[\hat{\lambda} = \frac{1}{n} \sum_{i=1}^{n} |X_i|\]

因此,(\lambda\( 的最大似然估计量为 \(\hat{\lambda} = \frac{1}{n} \sum_{i=1}^{n} |X_i|\).


例题4

设总体 (X\( 的方差 \(DX\) 存在,(X_1, X_2, \dots, X_n\( 是来自总体 \(X\) 的简单随机样本,样本均值为 (\overline{X}\(,样本方差为 \(S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \overline{X})^2\)。求 (EX^2$ 的矩估计量。

题目解答 由矩估计法,(EX^2$ 的矩估计量为样本二阶原点矩:

\[\hat{EX^2} = \frac{1}{n}\sum_{i=1}^{n} X_i^2\]

利用样本方差公式:

\[S^2 = \frac{1}{n-1} \sum_{i=1}^{n} (X_i - \overline{X})^2 = \frac{n}{n-1} \left( \frac{1}{n}\sum_{i=1}^{n} X_i^2 - \overline{X}^2 \right)\]

整理得:

\[\frac{1}{n}\sum_{i=1}^{n} X_i^2 = \frac{n-1}{n} S^2 + \overline{X}^2\]

因此,(EX^2\( 的矩估计量为 \(\frac{n-1}{n} S^2 + \overline{X}^2\).


例题5

设总体 (X \sim N(\mu, \sigma^2)\(,其中 \(\sigma^2\) 已知。从总体 (X\( 中抽取样本 \(X_1, X_2, \dots, X_n\),求均值 (\mu\( 的置信水平为 \(1-\alpha\) 的置信区间。

题目解答 由于总体方差已知,选用样本均值 (\overline{X}$ 作为点估计,枢轴量为:

\[Z = \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} \sim N(0, 1)\]

对于置信水平 (1-\alpha$,有:

\[P\left( -z_{\alpha/2} < \frac{\overline{X} - \mu}{\sigma / \sqrt{n}} < z_{\alpha/2} \right) = 1 - \alpha\]

解得:

\[P\left( \overline{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}} < \mu < \overline{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right) = 1 - \alpha\]

因此,(\mu\( 的置信水平为 \(1-\alpha\) 的置信区间为:

\[\left( \overline{X} - z_{\alpha/2} \frac{\sigma}{\sqrt{n}}, \overline{X} + z_{\alpha/2} \frac{\sigma}{\sqrt{n}} \right)\]
Last updated on