Notice
Recent Posts
Recent Comments
05-04 17:48
Archives
관리 메뉴

develop myself

추정(estimation) 이론 본문

DataScience/통계분석

추정(estimation) 이론

insightous 2023. 1. 31. 12:51

추정: Estimation

  • 표본에서 얻은 추정량(estimator)을 이용하여 모집단의 모수(parameter) 값을 추측하는 과정에서 사용되는 이론과 기법
  • 통계량(statistics): 표본으로부터 얻을 수 있는 다양한 값들.
  • 추정량(estimator): 통계량이 추정의 용도로 사용되는 경우, 그 통계량을 추정량이라고 한다.

점추정

모수의 위치와 가장 가깝다고 기대되는 하나의 점을 찾아서 그것을 추정값으로 정한다.

  • 모평균 $\mu$의 점추정치 = 표본평균
  • 모분산 $\sigma^2$의 점추정치 = 표본분산

점추정의 문제점: 추정의 신뢰성(reliability)이 어느 정도인지를 알 수 없다.

구간추정

  • 점추정의 문제점을 보완 => 구간으로 추정
  • 구간의 길이를 어떻게 정할 것인가? => 확률분포를 이용한다.
    • 확률분포: 확률변수가 특정한 값을 가질 확률을 나타내는 함수.
      • 어떤 변수가 특정한 값을 가질 확률은 달라진다. => 달라지는 패턴을 시각적 표현 => 수리적 형태로 변환 => 하나의 함수 모양. (정규 분포, t 분포, 카이제곱분포, F분포 등..)
      • 내 생각: 통계는 귀납적이고, 경험적이라고 생각한다. 각 분포들은 경험적인 방법에 의해 생긴걸까? 많은 통계적 실험을 통해 어떤 확률변수가 특정 확률분포를 따른다는 결론에 도달하면 그 확률 변수는 특정분포를 따른다고 하는 것인가?

신뢰수준의 이해

신뢰수준: 수없이 반복하여 표본으로부터 신뢰구간을 구할 때 모수의 참값이 그 구간 안에 포함될 것으로 확신하는 비율

eg) 95% 신뢰수준과 신뢰구간의 의미
무한히 반복하여 표본으로부터 신뢰구간을 구할 때 95% 정도의 비율로 모수의 참값이 그 구간 안에 포함될 것으로 확신한다(confident)는 뜻

표기법: 1-$\alpha$ 또는 100(1-$\alpha$)%

eg) $\alpha$ = 0.05 => 신뢰수준 0.95 또는 95%

신뢰구간의 이해

상한: $\hat{\theta}_U$

하한: $\hat{\theta}_L$

모수($\theta$)가 신뢰구간($\hat{\theta}_L < \theta < \hat{\theta}_U$)에 포함될 확률이 적어도 $1-\alpha$보다 크거나 같아야 한다.

$$P(\hat{\theta}_L < \theta < \hat{\theta}_U) \geq 1 - \alpha$$

위 식을 만족하면서 신뢰구간을 짧게 하는 상한과 하한을 찾아야 한다. 

 

또한, 모수가 따르는 분포를 선정해야 한다.

 

eg) 모집단이 $N(\mu,\sigma^2)$인 정규분포를 따른다고 한다면, 표본은 $\overline{X} \sim N(\mu,\frac{\sigma^2}{n})$인 분포를 따른다. 표준정규 변수 Z로 바꾸면 $Z=\frac{\overline{X} - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1) $ 이 된다. 

$$P(-Z_{\frac{\alpha}{2}} \leq Z \leq Z_{\frac{\alpha}{2}})=1-\alpha$$

$$ P \bigm(\overline{X}-Z_{\alpha/2}·\frac{s}{\sqrt{n}}\leq \mu \leq \overline{X}+Z_{\alpha/2}·\frac{s}{\sqrt{n}}\bigm) = 1-\alpha $$

$$\left(\overline{X}-z_{\alpha/2}·\frac{s}{\sqrt{n}},  \qquad   \overline{X}+z_{\alpha/2}·\frac{s}{\sqrt{n}}\right)$$

 

그래프 참고: 유의수준 $\alpha$의 이해

 

 

 

 

 

 

 

 

 


참고

- 박용태·금영정, 『데이터 통계학 이론과 응용』

Comments