文章目录
样本方差的推导有偏估计和无偏估计极大似然估计大数定律中心极限定理样本方差
欢迎访问个人网络日志🌹🌹知行空间🌹🌹
样本方差的推导
有偏估计和无偏估计
有偏估计:由样本值求得的估计值与待估参数的真值之间有系统误差,估计值的期望不是系统的真值无偏估计:估计量的偏差(或偏差函数)是此估计量的期望值与估计参数的真值之差。偏差为零的估计量或决策规则称为无偏的。
我们常见的应用中,样本均值是对总体均值的无偏估计
E
(
X
ˉ
)
=
μ
E(\bar{X})=\mu
E(Xˉ)=μ,而样本的整体方差不是对总体方差的无偏估计,
E
(
S
2
)
=
n
n
−
1
σ
2
E(S^2)=\frac{n}{n-1}\sigma^2
E(S2)=n−1nσ2。
极大似然估计
“似然”用现代的中文来说即“可能性”,因此可称之为“最大可能性估计”,用来求一个样本集的相关概率密度函数的参数。
定义,假设
X
X
X为离散随机变量,其概率分布函数
P
(
X
=
x
)
=
f
(
x
;
θ
)
P(X=x)=f(x;\theta)
P(X=x)=f(x;θ),与参数
θ
\theta
θ相关。设
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn为样本,
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn为样本的观测值,样本的似然函数可以定义为样本观测值
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn的概率,
L
(
x
1
,
.
.
.
,
x
n
;
θ
)
=
P
(
X
=
x
1
,
.
.
.
,
X
n
=
x
n
)
=
∏
i
=
1
n
f
(
x
i
;
θ
)
L(x_1,...,x_n;\theta)=P(X=x_1,...,X_n=x_n)=\prod_{i=1}^{n}f(x_i;\theta)
L(x1,...,xn;θ)=P(X=x1,...,Xn=xn)=i=1∏nf(xi;θ)
给定样本观测值
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn,似然函数
L
L
L是参数
θ
\theta
θ的函数,这个函数的目的就是求参数
θ
\theta
θ,使似然函数
L
L
L能取最大值。
例如,
X
∼
B
(
1
,
p
)
X\sim B(1,p)
X∼B(1,p),从中取
[
1
,
1
,
0
,
0
,
1
]
[1,1,0,0,1]
[1,1,0,0,1]观测值,此时似然函数
L
(
p
)
=
p
3
(
1
−
p
)
2
,
p
∈
(
0
,
1
)
L(p)=p^3(1-p)^2,p\in(0,1)
L(p)=p3(1−p)2,p∈(0,1),
B
B
B表示是贝努力分布,要求
p
p
p,就是求能使
L
(
p
)
L(p)
L(p)取最大值的值,
d
L
d
p
=
0
\frac{dL}{dp}=0
dpdL=0,可求得
p
=
0.6
p=0.6
p=0.6。
大数定律
定义:设
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn是独立同分布的随机变量序列,并且其数学期望
E
(
X
k
)
=
μ
(
k
=
1
,
2
,
.
.
.
)
E(X_k)=\mu (k=1,2,...)
E(Xk)=μ(k=1,2,...),取n个样本的算术平均
1
n
∑
k
=
1
n
X
k
\frac{1}{n}\sum\limits_{k=1}^{n}X_k
n1k=1∑nXk,对任意的
ϵ
>
0
\epsilon\gt 0
ϵ>0有以下不等式成立:
lim
n
→
+
∞
P
{
∣
1
n
∑
k
=
1
n
X
k
−
μ
∣
<
ϵ
}
=
1
\lim_{n\rightarrow+\infty}P\{|\frac{1}{n}\sum\limits_{k=1}^{n}X_k-\mu|\lt \epsilon\}=1
n→+∞limP{∣n1k=1∑nXk−μ∣<ϵ}=1
简单来讲就是,样本均值的期望等于总体的均值。
中心极限定理
独立同分布的中心极限定理:设随机变量序列
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn独立同分布,且其数学期望和方差分别为
E
(
X
k
)
=
μ
,
D
(
X
k
)
=
σ
2
>
0
(
k
=
1
,
2
,
.
.
.
)
E(X_k)=\mu,D(X_k)=\sigma^2\gt0(k=1,2,...)
E(Xk)=μ,D(Xk)=σ2>0(k=1,2,...)则随机变量之和
∑
i
=
1
n
X
k
\sum\limits_{i=1}^{n}X_k
i=1∑nXk的标准化变量:
Y
n
=
∑
k
=
1
n
X
k
−
n
μ
n
σ
Y_n=\frac{\sum\limits_{k=1}^{n}X_k-n\mu}{\sqrt{n}\sigma}
Yn=n
σk=1∑nXk−nμ 服从于标准正态分布。
简单来说就是,样本均值服从于期望为总体均值
μ
\mu
μ,方差为总体方差除以样本数
σ
2
n
\frac{\sigma^2}{n}
nσ2的正态分布,即
X
ˉ
∼
N
(
μ
,
σ
2
/
n
)
\bar{X}\sim N(\mu, \sigma^2/n)
Xˉ∼N(μ,σ2/n)
样本方差
给定一组观测数据
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn,计算其总体方差时使用如下公式:
S
2
=
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
S^2=\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2
S2=n1i=1∑n(xi−xˉ)2
x
ˉ
\bar{x}
xˉ是样本均值。从上式可以看到,总体方差是样本观测值偏离样本均值误差平方的均值,其衡量了数据的离散程度,方差越大越离散。
从一个连续分布中随机取样得到一组观测值为
x
1
,
.
.
.
,
x
n
x_1,...,x_n
x1,...,xn,想要通过观测值估计连续分布的方差,一种自然的想法是使用样本观测值的总体方差
S
2
S^2
S2做为连续分布方差
σ
2
\sigma^2
σ2的无偏估计,即假设
σ
2
=
E
[
S
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
+
μ
−
x
ˉ
)
2
]
=
E
[
1
n
∑
i
=
1
n
[
(
x
i
−
μ
)
−
(
x
ˉ
−
μ
)
]
2
]
=
E
[
1
n
∑
i
=
1
n
[
(
x
i
−
μ
)
2
+
(
μ
−
x
ˉ
)
2
−
2
(
x
i
−
μ
)
(
x
ˉ
−
μ
)
]
]
=
1
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
2
]
+
1
n
∑
i
=
1
n
E
[
(
μ
−
x
ˉ
)
2
]
−
2
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
(
x
ˉ
−
μ
)
]
=
1
n
∑
i
=
1
n
v
a
r
[
x
i
]
+
1
n
∑
i
=
1
n
v
a
r
[
x
ˉ
]
−
2
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
(
x
ˉ
−
μ
)
]
=
1
n
∑
i
=
1
n
σ
2
+
1
n
∑
i
=
1
n
σ
2
n
−
2
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
(
1
n
∑
j
=
1
n
x
j
−
μ
)
]
=
1
n
n
σ
2
+
1
n
n
σ
2
n
−
2
n
1
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
(
∑
j
=
1
n
x
j
−
n
μ
)
]
=
σ
2
+
σ
2
n
−
2
n
1
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
(
∑
j
=
1
n
(
x
j
−
μ
)
)
]
=
n
+
1
n
σ
2
−
2
n
1
n
∑
i
=
1
n
∑
j
=
1
n
E
[
(
x
i
−
μ
)
(
x
j
−
μ
)
]
\begin{align*} \sigma ^2 &= E[S^2] \\ &=E[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2]\\ &=E[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu+\mu-\bar{x})^2]\\ &=E[\frac{1}{n}\sum_{i=1}^{n}[(x_i-\mu)-(\bar{x}-\mu)]^2]\\ &=E[\frac{1}{n}\sum_{i=1}^{n}[(x_i-\mu)^2+(\mu-\bar{x})^2-2(x_i-\mu)(\bar{x}-\mu)]]\\ &=\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)^2]+\frac{1}{n}\sum_{i=1}^{n}E[(\mu-\bar{x})^2]-\frac{2}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\bar{x}-\mu)]\\ &=\frac{1}{n}\sum_{i=1}^{n}var[x_i]+\frac{1}{n}\sum_{i=1}^{n}var[\bar{x}]-\frac{2}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\bar{x}-\mu)]\\ &=\frac{1}{n}\sum_{i=1}^{n}\sigma^2+\frac{1}{n}\sum_{i=1}^{n}\frac{\sigma^2}{n} -\frac{2}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\frac{1}{n}\sum_{j=1}^{n}x_j-\mu)]\\ &=\frac{1}{n}n\sigma^2+\frac{1}{n}n\frac{\sigma^2}{n} -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\sum_{j=1}^{n}x_j-n\mu)]\\ &=\sigma^2+\frac{\sigma^2}{n} -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)(\sum_{j=1}^{n}(x_j-\mu))]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{n}E[(x_i-\mu)(x_j-\mu)]\\ \end{align*}
σ2=E[S2]=E[n1i=1∑n(xi−xˉ)2]=E[n1i=1∑n(xi−μ+μ−xˉ)2]=E[n1i=1∑n[(xi−μ)−(xˉ−μ)]2]=E[n1i=1∑n[(xi−μ)2+(μ−xˉ)2−2(xi−μ)(xˉ−μ)]]=n1i=1∑nE[(xi−μ)2]+n1i=1∑nE[(μ−xˉ)2]−n2i=1∑nE[(xi−μ)(xˉ−μ)]=n1i=1∑nvar[xi]+n1i=1∑nvar[xˉ]−n2i=1∑nE[(xi−μ)(xˉ−μ)]=n1i=1∑nσ2+n1i=1∑nnσ2−n2i=1∑nE[(xi−μ)(n1j=1∑nxj−μ)]=n1nσ2+n1nnσ2−n2n1i=1∑nE[(xi−μ)(j=1∑nxj−nμ)]=σ2+nσ2−n2n1i=1∑nE[(xi−μ)(j=1∑n(xj−μ))]=nn+1σ2−n2n1i=1∑nj=1∑nE[(xi−μ)(xj−μ)]
因为
X
X
X是独立变量,
x
i
/
x
j
x_i/x_j
xi/xj相互独立,当
i
≠
j
i\neq j
i=j时,
E
[
(
x
i
−
μ
)
(
x
j
−
μ
)
]
=
0
E[(x_i-\mu)(x_j-\mu)]=0
E[(xi−μ)(xj−μ)]=0
E
[
S
2
]
=
n
+
1
n
σ
2
−
2
n
1
n
∑
i
=
1
n
∑
j
=
1
n
E
[
(
x
i
−
μ
)
(
x
j
−
μ
)
]
=
n
+
1
n
σ
2
−
2
n
1
n
∑
i
=
1
n
E
[
(
x
i
−
μ
)
2
]
=
n
+
1
n
σ
2
−
2
n
1
n
∑
i
=
1
n
v
a
r
[
x
i
]
=
n
+
1
n
σ
2
−
2
n
1
n
n
σ
2
=
n
−
1
n
σ
2
\begin{align*} E[S^2] &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}\sum_{j=1}^{n}E[(x_i-\mu)(x_j-\mu)]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}E[(x_i-\mu)^2]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}\sum_{i=1}^{n}var[x_i]\\ &=\frac{n+1}{n}\sigma^2 -\frac{2}{n}\frac{1}{n}n\sigma ^2\\ &=\frac{n-1}{n}\sigma^2 \end{align*}
E[S2]=nn+1σ2−n2n1i=1∑nj=1∑nE[(xi−μ)(xj−μ)]=nn+1σ2−n2n1i=1∑nE[(xi−μ)2]=nn+1σ2−n2n1i=1∑nvar[xi]=nn+1σ2−n2n1nσ2=nn−1σ2
由上面的公式可以知道,样本观测值的总体方差的期望不等于随机变量分布的方差,因此样本观测值的总体方差不是随机变量分布方差的无偏估计。
E
[
S
2
]
=
n
−
1
n
σ
2
E[S^2]=\frac{n-1}{n}\sigma^2
E[S2]=nn−1σ2 上式左右两边同时乘以
n
n
−
1
\frac{n}{n-1}
n−1n,得
σ
2
=
n
n
−
1
E
[
S
2
]
\sigma^2=\frac{n}{n-1}E[S^2]
σ2=n−1nE[S2]
σ
2
=
E
[
n
n
−
1
S
2
]
\sigma^2=E[\frac{n}{n-1}S^2]
σ2=E[n−1nS2]
因此能做为总体偏差无偏估计的样本偏差的计算公式为:
σ
2
=
1
n
−
1
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
\sigma^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2
σ2=n−11i=1∑n(xi−xˉ)2
为什么分母是
n
−
1
n-1
n−1时,才能得到无偏的总体方差估计呢? 产生偏差的本质是因为均值用的是样本均值
x
ˉ
\bar{x}
xˉ而非总体均值
μ
\mu
μ,这导致采样出来的样本之间不是完全相互独立的,自由度从
n
n
n减少了1,变成了
n
−
1
n-1
n−1。
x
ˉ
=
1
n
∑
i
=
1
n
x
i
\bar{x}=\frac{1}{n}\sum\limits_{i=1}^{n}x_i
xˉ=n1i=1∑nxi,当给定
x
ˉ
\bar{x}
xˉ和任意
n
−
1
n-1
n−1个观测值时,剩下一个变量值都可以确定下来,因此只有
n
−
1
n-1
n−1个自由度,因此除以
n
−
1
n-1
n−1可以得到无偏估计。
欢迎访问个人网络日志🌹🌹知行空间🌹🌹
1.https://bookdown.org/hezhijian/book/intro.html#section-1.1.32.https://www.statlect.com/fundamentals-of-statistics/variance-estimation3.https://amsi.org.au/ESA_Senior_Years/SeniorTopic4/4h/4h_2content_4.html4.https://rpubs.com/sagni2047/proofsamplevariance